基于Spark 的大数据k-means并行聚类算法应用研究任务书

 2021-08-20 00:28:25

1. 毕业设计(论文)主要目标:

(1)熟悉linux系统,java编程,完成spark环境的搭建,深入学习聚类kmeans算法。(2)查阅、研究有关文献,综合目前的现状和成果,根据实际研究与开发的需要,完成kmeans并行聚类算法的应用与研究。(3)根据开发过程中出现的问题以及相应的解决方法,分析、总结、归纳,整理相关文献,并根据自己的毕业设计完成情况独立写作、论述,完成毕业论文。

2. 毕业设计(论文)主要内容:

K-means属于聚类分析中一种基本的划分方法,常采用误差平方和准则函数作为聚类准则,该算法在处理大数据集时是相对可伸展且高效率的,同时具有潜在的数据并行性。

互联网文本数据量的激增使得K-means聚类算法在面对海量数据时,不能满足计算要求,我们把K-means算法改造成并行K-means算法,更好地满足大规模文本数据挖掘算法的需求。

3. 主要参考文献

[1]周润物,李智勇,陈少淼,陈京,李仁发.计算机应用.面向大数据的并行优化抽样聚类K—means算法,2016,2:311-315.

[2]何婷婷,戴文华,焦翠平,基于混合并行遗传算法的文本聚类研究[J].中文信息学报,vol.21:55-60,2007.

[3]袁冬,基于海量文本的语义构造方法研究[D].山东:中国海洋大学,2012.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。