1. 毕业设计(论文)主要目标:
本文主要是基于信息度量的特征选择方法进行研究。目前,在数据挖掘的研究过程总,数据预处理对于成功的数据挖掘是必不可少的。所处理的数据集具有高特征、低样本的特点,其中存在的冗余特征或者不相关特征,会降低学习算法的学习速度,影响到算法的准确率、知识发现以及知识的理解。在数据挖掘、数据预处理众多技术中,特征选择是最重要且常用的。特征选择减少了特征的数量,提高了模型精确度,剔除了不相关、冗余的特征,数据挖掘算法的效率也能大大的提高。特征选择指从已有的M个特征中选择N个特征使得系统的特定指标最优化,我们的目的就是通过使用特征选择方法,来将有用的数据筛选出来。本文重点介绍的FCBF算法,是基于显著的思想,采用后向顺序搜索策略快速有效的寻找最优特征子集的特征选择方法,它采用对称不确定性作为相关程度度量标准,每次选择一个显著特征并删除它的所有冗余特征。
2. 毕业设计(论文)主要内容:
1、了解特征选择的基本原理:本文介绍的特征选择是从已有的M个特征中选择N个特征使得系统的特定指标最优化,也是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段。
2、FCBF算法原理介绍: FCBF是一种基于相关性的特征选择算法。它借助Markovblanket技术判定特征间的相似性,从而达到快速消除冗余特征的目的。FCBF算法用于克服互信息固有的缺点,即互信息标准倾向于那些具有多值的特征
3、实验结果:通过使用FCBF算法,来对数据集进行筛选,从原始数据集中,初始化数据集,用计算特征与类别的不对称性的结果来寻找子集,最终输出所选出的特征子集。
3. 主要参考文献
[1] LIU H, YU L. Toward integrating featureselection algorithms for classification and clustering [J]. IEEE Transactionson knowledge and data engineering, 2014, 17(4): 491-502.
[2] GUYON I, ELISSEEFF A. An introduction tovariable and feature selection [J]. Journal of machine learning research, 2016,3(Mar): 1157-82.
[3] PENG H, LONG F, DING C. Feature selectionbased on mutual information criteria of max-dependency, max-relevance, andmin-redundancy [J]. IEEE Transactions on pattern analysis and machineintelligence, 2016, 27(8): 1226-38.
