基于Web的主题网络爬虫技术研究与实现任务书

 2021-08-20 10:08

1. 毕业设计(论文)主要内容:

随着网络的飞速发展,万维网成为大量信息的载体。

有许多应用需要将这些网页上的信息提取,如搜索引擎、资讯采集、舆情监测等等。

网络爬虫从一个原始初始网页URL 种子开始,建立 URL 连接,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

设计内容和任务:(1)必读参考文献撰写格式必须规范;(2)阅读的参考文献不少于15篇(其中近5年外文文献不少于3篇);(3)完成不少于12000字的论文的撰写并完成答辩的相关工作;(4)完成不低于5000汉字(20000英文印刷符)的教师指定的相关文献的英译汉翻译;(5)正文应包含不少于12幅图(包括:电路原理图、流程图、结构框图、程序框图等);

学生技能要求:

(1)掌握网络爬虫技术的基本原理 ;(2)掌握主题网络爬虫算法的实现方法;(3)掌握java编程基本技术。

3. 毕业设计(论文)完成任务的计划与安排

(1)第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。

确定毕业设计方案,完成开题报告。

(2)第4-5周:完成系统设计,掌握开发过程所需要的软件和编程语言。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1] Advanced Research in Computer Science and Software Engineering. 2013, 8(3): 54-57.[2] A. Patel, N. Schmidt.Application of structured document parsing to focused web crawling.Comput. Stand. Interfaces, 33 (2011), pp. 325–331[3] D. Hati, A. Kumar.Improved focused crawling approach for retrieving relevant pages based on block partitioning.The Proceeding of the 2010 2nd International Conference on Education Technology and Computer, vol. 3 (2010), pp. 3269–3273[4] 罗刚. 自己动手写网络爬虫[M] 清华大学出版社 2010.

[5] 郝以珍. 基于页面分析的网络爬虫系统的设计与实现[D] 华中科技大学 2012.

[6]吴方照, 王丙坤, 黄永峰. 基于文本和社交语境的微博数据情感分类[J]. 清华大学学报 (自然科学版), 2014, 10: 019.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。