大数据实体识别研究与仿真任务书

 2021-08-19 11:08

1. 毕业设计(论文)主要目标:

了解大数据的数据可用性尤其是实体同一性的基本概念。

研究数据分块处理思想、局部敏感哈希算法和HARRA算法的基本原理、运行行为及其特征。

通过分析数据集特征,并利用HARRA算法进行相似度量,完成个人信息实体识别的研究工作,并对大数据可视化做一定的应用研究。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要内容:

实现互联网环境下个人信息实体同一性识别的研究工作。

通过分析相关个人信息数据集的数据特征,构造键-值对,建立包含邻近数据的哈希表;而后基于Hung-sikKim等人提出的基于局部敏感迭代哈希的记录链接算法(HARRA)进行相似度量,并改进该算法中的输出方式,使得结果可视化,最后完成个人信息实体识别。

3. 主要参考文献

1、李建中,刘显敏. 《大数据的一个重要方面:数据可用性》 计算机研究与发展2013

2、KimH, Lee D. HARRA: Fast Iterative Hashed Record Linkage for Large-Scale DataCollections [C] // Proc of the 13 Int Conf on Extendind Database Technology.New York: ACM, 2010: 525-536

3、A. Gionis, P. Indyky,and R. Motwaniz. Similarity Similarity Search in HighDimensions via Hashing. In VLDB, pages 518–529, 1999
剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。