新闻网页的语义抽取研究与实现任务书

 2021-08-24 09:08

1. 毕业设计(论文)主要内容:

本项目主要研究方向是从海量Web新闻内容中整合、清理出有价值的新闻数据。该过程首先是正确地识别一个网页是否为新闻网页,然后过滤该新闻网页中存在的标签、超链接等与新闻无关的内容,提取新闻的标题和内容。对内容文本进行分词,统计词语出现的频率和位置,选取一定量词语作为候选关键词。对候选关键词进行语义分析把那些出频率高但对新闻主题作用不大的词语去除掉,形成该新闻的关键词。主要研究内容包括以下几个方面:1.研究基于URL特征、内容和结构特征的新闻网页识别机制,选择新闻网页识别模型,构建新闻网页识别特征。

2.研究新闻网页内容过滤机制,包括选择过滤组件技术路线、确定过滤抽取步骤、过滤/抽取规则等。

3.研究新闻网页的智能标注过程中所使用的算法,包括自动分词算法、词语的相似度计算、关键词确定算法等。

2. 毕业设计(论文)主要任务及要求

1.查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);2.认真填写周记,完成800字开题报告;3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);4.完成系统的编码与调试;5.完成10000字以上的毕业论文;6.进行论文答辩。

3. 毕业设计(论文)完成任务的计划与安排

(1)2017/1/14—2017/2/22:确定选题,查阅文献,外文翻译和撰写开题报告;(2)2017/2/23—2017/4/30:系统架构、程序设计与开发、系统测试与完善;(3)2017/5/1—2017/5/25:撰写及修改毕业论文;(4)2017/5/26—2017/6/6:准备答辩。

4. 主要参考文献

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。