1. 毕业设计(论文)主要目标:
随着信息化时代的到来,人们获取外界信息越来越依赖互联网,如何在浩如烟海又纷繁芜杂的文本中掌握有效的信息变成了信息处理的一大目标,因此文本的自动分类已成为一项具有较大实用价值的关键技术。
当前,短信、微信、微博的流行使得短文本的处理变得越来越重要,短文本具有的高稀疏性、实时性、不规范性等特点增加了短文本信息处理的难度。
本文计划通过学习国内外关于短文本分类的研究现状,了解短文本分类技术的流程,对比各种分类方法的优缺点,实现垃圾信息的识别和过滤以及基于主题的信息分类整理。
2. 毕业设计(论文)主要内容:
1.分析问题现状及研究现状2.介绍短文本分类的主要流程,并分别介绍各个流程中的常用方法3.分析特定短文本的特点4.选择合适的算法实现短文本的分类5.总结与展望
3. 主要参考文献
[1]徐易.基于短文本的分类算法研究[D].上海:上海交通大学,2010.[2]文永.社交媒体短文本分类方法研究[D].成都:电子科技大学,2018.[3]Baoshan Sun, Peng Zhao.Feature Extension for Chinese Short Text Classification Based on Topical N-Grams[J].Computer Society,2017:477-482.[4]Zhou Faguo, Zhang Fan.Research on Short Text Classification Algorithm Based on Statistics and Rules[J].2010 Third International Symposium on Electronic Commerce and Security,2010:3-7.[5]Fanke Sun, Heping Chen.Feature Extension for Chinese Short Text Classification Based on LDA and Word2vec[J].IEEE Conference on Industrial Electronics and Applications,2018:1189-1194.[6]Da Chen, Hong Wang.Research on Short Text Classification Algorithm Based on Neural Network[J].Advanced Information Management,Communicates,Electronic and Automation Control Conference,2018:1726-1729.
