1. 毕业设计(论文)主要目标:
针对微博、Twitter等社交网络中出现的文本信息,利用机器学习相关方法提取文本中的特征;利用所提取的特征表示文本,并借助SVM或逻辑回归分类器进行分类,比较不同特征选择方法的优劣性。
2. 毕业设计(论文)主要内容:
1.针对微博、Twitter等社交网络中出现的正向或负向短文本信息,使用python进行数据收集(网络爬虫z正则解析)、数据清洗(结巴分词);
2.利用机器学习中的信息增益、基尼不纯度、互信息等方法,提取文本中的特征;
3.利用所提取的特征表示文本,并借助SVM或逻辑回归分类器进行分类,比较不同特征选择方法的优性。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!
3. 主要参考文献
[1]秦进,陈笑蓉,汪维家,陆汝占.文本分类中的特征抽取[J].计算机应用,2003(02):45-46.
[2]徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007(06):95-100.
[3]姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008(18):39-41 44.
剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付
