基于Java的主题网络爬虫的研究任务书

 2021-12-24 04:12

全文总字数:1325字

1. 毕业设计(论文)主要内容:

由于互联网上的数据急剧增加,用户想要从如此大规模的数据中找到自己想要的信息必须借助搜索引擎。

主题网络爬虫的搜索策略是基于某一专门领域信息的搜索引擎的核心技术,爬虫搜索算法的性能直接关系着搜索引擎的性能。

本文将分析网络爬虫的基本原理,研究与主题搜索更合适的搜索策略,并基于Java实现多线程并发工作的网络爬虫。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要任务及要求

1、熟悉搜索引擎的实现原理,掌握数据库技术及多线程模式的使用; 2、研究网络爬虫的特点,以及与通用搜索引擎的区别,分析比较不同搜索策略,最后对主题网络爬虫的系统功能模块和数据库系统进行分析设计及实现; 3、完成不少于12000字的论文的撰写并完成答辩的相关工作; 4、完成不低于5000汉字(20000英文印刷符)的教师指定的相关文献的英译汉翻译; 5、正文应包含不少于12幅图(包括:电路原理图、流程图、结构框图、程序框图等); 6、开题报告、论文、参考文献等撰写格式必须符合《武汉理工大学本科生毕业设计(论文)撰写规

范》; 7、阅读的参考文献不少于15篇(其中近5年外文文献不少于3篇)。

3. 毕业设计(论文)完成任务的计划与安排

第1-3周:查阅与课题相关的中英文文献,了解课题背景意义和研究内容,制定设计方案和计划,完成开题报告撰写。

第4-7周:熟悉相关理论知识、设计工具和计算机语言。初步设计,编写所需要的语言程序和设计图。

第8-15周:完成系统设计及调试、性能分析。完成毕业设计论文的撰写,根据导师意见进行修改,完成最终论文及打印。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 主要参考文献

[1]刘星辰. 基于Hadoop的分布式网络爬虫的研究与实现[D].西安理工大学,2019.[2]左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[J/OL].软件导刊:1-4[2019-12-23].http://kns.cnki.net/kcms/detail/42.1671.TP.20190820.1123.012.html.[3]李福荣,贾志刚.基于Python的校园贴吧数据爬虫技术研究[J].技术与市场,2019,26(11):34-35.[4]Amina Baraketi,Sabato D'Auria,Shiv Shankar,Carole Fraschini,Stephane Salmieri,Joshua Menissier,Monique Lacroix. Novel spider web trap approach based on chitosan/cellulose nanocrystals/glycerol membrane for the detection of Escherichia coli O157:H7 on food surfaces[J]. International Journal of Biological Macromolecules,2019.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。