社交网络中文本特征提取方法研究任务书

 2021-11-08 22:19:11

1. 毕业设计(论文)主要目标:

针对微博、Twitter等社交网络中出现的文本信息,利用机器学习相关方法提取文本中的特征;利用所提取的特征表示文本,并借助SVM或逻辑回归分类器进行分类,比较不同特征选择方法的优劣性。

2. 毕业设计(论文)主要内容:

1.针对微博、Twitter等社交网络中出现的正向或负向短文本信息,使用python进行数据收集(网络爬虫z正则解析)、数据清洗(结巴分词);

2.利用机器学习中的信息增益、基尼不纯度、互信息等方法,提取文本中的特征;

3.利用所提取的特征表示文本,并借助SVM或逻辑回归分类器进行分类,比较不同特征选择方法的优性。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 主要参考文献

[1]秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003(02):45-46.

[2]徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007(06):95-100.

[3]姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008(18):39-41 44.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版