基于SPARK的网络数据采集与处理系统设计与实现任务书

 2021-11-10 10:11

1. 毕业设计(论文)主要目标:

本论文通过搭建SPARK这样的通用并行框架,通过编写网络爬虫来抓取电子商务网站上的买家评论等信息,运用数据挖掘算法,进行文本情感分析,分析买家的评论,从而判断出买家的评论属于好评还是差评。

2. 毕业设计(论文)主要内容:

本论文是根据处理海量数据的需求,需要一个完善的数据分析环境来对数据进行有效地挖掘与提炼。该系统需要实现的内容主要有:在树莓派集群上架设SPARK、抓取数据、建立情感词库、进行文本分词等。

系统运行在树莓派集群上,通过在树莓派集群上搭建SPARK分布式计算框架,用Scala/Java/Python编程语言对电子商务网站上的买家评论进行抓取,并用数据挖掘算法进行分析。

3. 主要参考文献

1.夏俊鸾/刘旭辉/邵赛赛/程浩/史鸣飞.《Spark大数据处理技术》电子工业出版社 2014

2.张安站.《Spark技术内幕》机械工业出版社 2015

3.刘贤友. 面向电子商务的评论文本情感分析研究. 中国科学技术大学,2013

4.杨彪. 基于电子商务的评论文本情感极性等级分析. 重庆交通大学,2014

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。