基于变化熵的超高维数据特征筛选任务书

 2021-11-10 10:11

1. 毕业设计(论文)主要目标:

对超高维数据进行降维,在p维协变量之间进行特征筛选,确定指标,以指标大小为根据选择与响应变量相关性最大的d个变量作为重要的变量,做到超高维降维的目标,证明所提方法的理论性质,通过数值模拟和实例分析验证其有限样本性质。

2. 毕业设计(论文)主要内容:

主要利用J值(变化熵)的定义,设置指标wk确定协变量与离散二值响应变量之间的相关性大小,以此选择超高维协变量中与响应变量相关性较大的变量,使之降到较低的维数,达到使数据精简的效果,该方法记为J-SIS。提出理论依据并进行相关证明之后,利用R软件进行数值模拟,设置重要变量与利用J-SIS筛选出的变量进行比较,发现该方法有很强的实用性进一步与其他文献中的指标筛选出的变量进行比较,观察本文的方法与其他方法相比的优缺点。在实例分析部分引用垃圾邮件的判别,分为训练数据和测试数据,对训练数据,利用J-SIS选择出重要变量,在测试数据中利用贝叶斯和k-近邻进行分类预测,利用同样的方法对未筛选的变量进行预测,互相对比,最终得到本文的方法筛选出的都是重要的变量。

3. 主要参考文献

[1]http://baike.baidu.com/link?url=N6B_Whyg4QHMRgFxZ7XbGCTthgrvHYEEEHGhmDt-VWzwBDl4QYZLDEhb8D1bK91rWGfx4aVHyiSU5T5oUEYas6i4q1iMcD1gwnDOXAGvcOROl6ekXDpkCzSO6kHDQ6pjfSw44H8h8ThD2rjbIb2fvq,高维数据挖掘,百度百科,2016.12.26

[2]Lyu nifangfang,entroy-based model-free feature screening for ultrahigh-dimensional multiclass classification,http://dx.doi.org/10.1080/10485252.2016.1167206,2016.12.27

[3]Huang,D.,Li,R.,and Wang,H(2014),’feature Screening for dimensional Categorical Data with Applications’,Journal of Business and Economics Statistics,32,237-244.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文任务书,课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。