基于JavaWebMagic框架的电商比价平台任务书

 2021-11-05 19:26:26

1. 毕业设计(论文)的内容和要求

(一)内容:互联网是一个庞大的非结构化数据库,将数据库有效的检索组织呈现出来有着巨大的应用前景,在信息检索的范畴中,搜索引擎作为一个辅助人们检索信息的一个日常必备的工具,有各种各样的局限性,比如内容的参差不齐、无关紧要的数据、充斥着整个互联网的广告等等,所以想要找到自己所需的数据,我们采用的解决问题的方法是网络爬虫,选择它的原因除了上述搜索引擎的障碍外,还有如下两点原因:由于旧技术的缺陷与实际应用问题,如java web的前后台混合开发模式,php的混合web开发模式等等,想获取数据通过接口远远不能满足不了需求,因为当我们在使用他人开发项目时总会遇见接口请求的、并非单纯的数据,伴随着页面渲染所得到的完整的页面这对我们想很好的获取数据和分析数据是一个必须面对的问题另外,在技术和使用场景问题下,我们无法使用常规的http请求如 post,get请求类型或出现跨域情况,或出现各种限制,所以综上所述无疑想在互联网中将数据库有效的检索组织呈现出来爬虫是一个较好的解决办法。

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者)是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 参考文献

[1]Winter.中文搜索殷勤技术解密,[M]. 北京: 人民邮电出版社,2004年. [2]Sergey等.The Anatomy of a Large-Scale Hypertextual Web Search Engine[M]. 北京:清华大学出版社,1998年. [3]Wisenut. WiseNut Search Engine white paper [M]. 北京:中国电力出版社,2001 年. [4]Gary R.Wright W.Richard Stevens. TCP-IP协议解卷 3:TCP 事务协议,HTTP,NMTP和UNIX域协议 [M]. 北京:清华大学出版社,2010年10月. [5]罗刚 王振东. 自己动手写网络爬虫[M]. 北京:清华大学出版社,2010年10月. [6]李晓明, 闫宏飞,王继民.搜索引擎:原理、技术与系统华夏英才基金学术文库[M]. 北京:科学出版社,2005 年 04月. [7]贾俊平,何晓群,金勇进。

统计学(第五版)。

2005 年11月。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版