1. 毕业设计(论文)主要内容:
随着计算机及网络技术的迅速发展,数据流已成为网络监测、金融分析、通信等应用领域的主要数据模型。在数据挖掘中,聚类分析是对数据相似性研究的一项热点研究内容。数据流有实时、大量等特点,传统的数据聚类分析算法并不能满足数据流处理需求,因此针对数据流的聚类算法研究变得非常重要。
本设计主要内容包括:1.调研和分析流数据聚类的研究现状;2.学习Storm分布式实时计算平台相关技术;3.设计基于Storm框架的流聚类算法,该算法包括数据接入、聚类分析、结果输出等阶段,并在框架预定义的组件中分别编程实现,各组件通过数据流连通形成任务实体,提交到集群完成运行。
2. 毕业设计(论文)主要任务及要求
(1)查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);(2)认真填写周记,完成800字开题报告;(3)完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);(4)完成系统的编码与调试;(5)完成10000字以上的毕业论文;(6)进行论文答辩。
3. 毕业设计(论文)完成任务的计划与安排
(1) 2017/1/14—2017/2/22:确定选题,查阅文献,外文翻译和撰写开题报告;
(2) 2017/2/23—2017/4/30:系统架构,程序设计与开发,系统测试与完善;
(3) 2017/5/1—2017/5/25:撰写及修改毕业论文;
4. 主要参考文献
[1]孙大为,张广艳,郑纬民. 大数据流式计算:关键技术及系统实例[J]. 软件学报,2014,04:839-862.
[2] Cha S, Wachowicz M. Developing a Real-Time Data Analytics Framework Using Hadoop[C]//2015 IEEE International Congress on Big Data. IEEE, 2015: 657-660.
[3]崔星灿,禹晓辉,刘洋,吕朝阳. 分布式流处理技术综述[J]. 计算机研究与发展,2015,02:318-332.
