1. 毕业设计(论文)主要目标:
论文的主要目标是利用HITS算法实现主题爬虫系统,高效抓取web中与主题相关的网页,尽可能过滤与主题无关的链接,并且在建立系统的过程中掌握主题爬虫的相关算法,熟悉开发过程。
2. 毕业设计(论文)主要内容:
论文及系统设计主要内容应为主题爬虫系统的设计与实现,包括:
1、提出一种HITS算法,并用java语言实现该算法,选取高质量的主题背景知识。2、构建概念背景图,利用概念背景图结合锚文本、父网页等计算链接主题相关性。3、设计并实现主题爬虫系统。
3. 主要参考文献
[1]关卫国, 骆永成. 基于概念背景图的主题爬虫设计与实现[J]. 计算机工程与设计, 2016, 37(10):2679-2684.
[2]于娟, 刘强. 主题网络爬虫研究综述[J]. 计算机工程与科学, 2015, 37(2):231-237.
[3]马雷雷, 李宏伟, 连世伟,等. 一种基于本体语义的灾害主题爬虫策略[J]. 计算机工程, 2016, 42(11):50-56.
[4]何险峰, 雷升锴, 张祥锋,等. 本体化气象服务实现与应用[J]. 计算机应用, 2012, 32(a02):226-231.
[5]Du Y, Liu W, Lv X, et al. An improved focused crawler based on Semantic Similarity Vector Space Model[J]. Applied Soft Computing, 2015, 36(C):392-407.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
