基于概念背景图的气象灾害主题爬虫设计与实现任务书

 2021-11-08 22:19:17

1. 毕业设计(论文)主要目标:

论文的主要目标是利用HITS算法实现主题爬虫系统,高效抓取web中与主题相关的网页,尽可能过滤与主题无关的链接,并且在建立系统的过程中掌握主题爬虫的相关算法,熟悉开发过程。

2. 毕业设计(论文)主要内容:

论文及系统设计主要内容应为主题爬虫系统的设计与实现,包括:

1、提出一种HITS算法,并用java语言实现该算法,选取高质量的主题背景知识。2、构建概念背景图,利用概念背景图结合锚文本、父网页等计算链接主题相关性。3、设计并实现主题爬虫系统。

3. 主要参考文献

[1]关卫国, 骆永成. 基于概念背景图的主题爬虫设计与实现[J]. 计算机工程与设计, 2016, 37(10):2679-2684.

[2]于娟, 刘强. 主题网络爬虫研究综述[J]. 计算机工程与科学, 2015, 37(2):231-237.
[3]马雷雷, 李宏伟, 连世伟,等. 一种基于本体语义的灾害主题爬虫策略[J]. 计算机工程, 2016, 42(11):50-56.
[4]何险峰, 雷升锴, 张祥锋,等. 本体化气象服务实现与应用[J]. 计算机应用, 2012, 32(a02):226-231.

[5]Du Y, Liu W, Lv X, et al. An improved focused crawler based on Semantic Similarity Vector Space Model[J]. Applied Soft Computing, 2015, 36(C):392-407.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版