1. 毕业设计(论文)主要目标:
从海量的数据中提取出有趣的模式是数据挖掘领域的核心任务,序列模式挖掘是数据挖掘一个重要研究内容,近年来在很多领域得到广泛运用。传统的模式挖掘通常将频度作为模式是否有趣的标准,如果一个模式在数据库中频繁地出现,那么该模式被认为是有趣的。但由于许多模式的频度在真实数据中可以简单解释为偶然性,频度并不能作为兴趣度量好的代表。当处理序列数据库时,由于序列中项集的可重复性,这个问题变得更为突出。针对这个问题,文本拟研究一种可以有效识别序列数据库中k个最有趣序列模式的算法,利用leverage作为序列模式兴趣度度量方法,度量序列模式的兴趣度;同时对分支定界OPUS算法进行序列扩展,遍历所有可能的候选序列,采用有效的剪枝策略提高算法执行效率,提取top-k最有趣序列模式。最后,通过实验,验证本文算法的有效性。
2. 毕业设计(论文)主要内容:
(1) 全面了解序列模式挖掘相关算法,了解序列模式挖掘算法的应用。
(2) 重点研究基于leverage的兴趣度度量方法,基于OPUS的序列模式挖掘方法。
(3)将leverage兴趣度度量与OPUS序列模式挖掘算法相结合,形成一种top-k有趣序列模式。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 主要参考文献
【1】GEOFFREYI. WEBB,JILLES VREEKEN :EfcientDiscovery of the Most Interesting Associations.
【2】宋世杰, 胡华平, 周嘉伟,等. 一种基于大项集重用的序列模式挖掘算法[J]. 计算机研究与发展, 2006, 43(1):68-74.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
