基于高维数据挖掘的文学作品作者归属问题研究任务书

 2021-11-07 09:11

1. 毕业设计(论文)主要目标:

随着新一代信息技术的发展以及互联网的进一步推广,“数字化转型”正成为全球社会、科技、经济发展的主线,众多作者不能十分确定的文学作品可以摆脱费时费力的传统文献考证,将在不同的数字化新方法下得到新的发展。

本文将对所搜集的文学作品进行统计分析,通过文本挖掘算法,特征提取方法,对作品归属进行分析研究。

2. 毕业设计(论文)主要内容:

本文所研究文学作品这样大量的字符文本可视作高维数据,对其进行数据挖掘,提取出不同的字段特征,从而为作者归属问题提供新思路。主要研究内容包括:研究和探索作者归属问题的新方法。通过对数据进行深度学习,创建一个围绕文学作品文本数据集的数字化新数据集。基于机器学习、高维数据挖掘等方法提取不同作者的个人特征,通过特征提取对数据进行降维。使得数据从超高维复杂数据问题简化为一般高维数据甚至是一般维度的数据问题,从而获得不同的分类器预设,可以将传统机器学习方法进行使用。在整个分析过程中,对数据进行测试集和训练集的分割,利用训练集建立模型,在测试集中进行对比。

3. 主要参考文献

[1]祁瑞华, 杨德礼, 郭旭等. 基于多层面文体特征的博客作者身份识别研究[J]. 情报学报, 2015, 34(6): 628-634.

[2]徐晓霖, 蔡满春, 芦天亮. 基于深度学习的中文微博作者身份识别研究[J]. 计算机应用研究. 2018, 37(1): 1-6.

[3]祁瑞华, 郭旭, 刘彩虹. 中文微博作者身份识别研究[J]. 情报学报, 2017, 36(1): 72-78.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。