相关性分析及其在特征选择中的应用研究任务书

 2021-08-20 12:08

1. 毕业设计(论文)主要目标:

本文主要通过研究一个较为简单的,经典的数据挖掘案例,包括数据的预处理,数据的相关性挖掘以及多种算法的使用,来探索鸢尾花数据集之中的相关性,以及特征值的选择。

其中我们通过均值和方差来研究这组数据的集中和分散程度,通过相关系数计算方法来计算其相关性,去除其中的重复项造成的影响。之后采用Kmeans来对数据进行聚类分析,得出数据的分类结果,后可用贝叶斯分类器对要预测的数据做出预测。

最后综合上述,多组特征数据,以及组内的多个特征值,通过决策树算法,训练决策树,使得计算机在非人工干预的情况下对数据进行分类。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 毕业设计(论文)主要内容:

初步计划,完成以下几个内容:

(1) 数据获取:搜寻网络相关的开源数据集,初步决定采用鸢尾花数据集,用于我们算法的分析和处理,之后结合EXCEL处理数据,依据MLLib的数据格式要求进行数据的格式化处理

(2) 数据过滤:通过采用计算相关系数,来探究数据中的重复和冗余项,对重复的数据进行洗涤和去重,为进一步的分析做准备。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 主要参考文献

(1)周志华 《机器学习》,清华大学出版社, 2016年1月.

(2)Martin Odersky, Lex Spoon, Bill Venners《Scala 编程》.

(3)王晓华华 《Spark MLlib 机器学习实践》清华大学出版社,2015年.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。