1、1机 器 学 习 算 法 的分 类&选 择中国人民解放军总医院 医疗大数据中心2019年7月4日CHIMA 20192机器学习算法PCALDAK-meansDBSCANSVM逻辑回归随机森林GBDTAdaboostKNNXgboost决策树神经网络CHIMA 20193SupervisedLinear Discriminant AnalysisDimension ReductionTry PCA聚 类分 类降 维回 归CHIMA 201940101020203030404特特征征降降维维聚聚类类分分类类&回回归归总总结结目录CHIMA 20195特征降维特征向量较多时使用SVM进行分类,结果并
2、不理想;随机删除几个特征后,准确率反而提升?CHIMA 20196特征降维=特征选择?通过属性间的关系(如组合不同的属性得新的属性)改变原来的特征空间特征选择特征降维从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间找一个高维到低维的映射!删除若干特征!CHIMA 20197特征选择按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。如:移除低方差的特征、移除相关性较高的特征Filter(过滤法)Wrapper(包装法)Embedded(嵌入法)根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。如:递归地训练基模型,移除对模
3、型贡献度较小的特征使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。如:基于随机森林的特征选择方法CHIMA 20198特征降维 无监督的降维 找到一个能最大保留数据方差信息的子空间,降维后的数据是原来特征在新空间中的映射值APCA(主成分分析)SVD(奇异值分解)LDA(线性判别分析)无监督的降维 将矩阵A分解为三个矩阵UVT的乘积,选择中数值较大的几个奇异值及U和VT中对应的奇异向量,完成特征降维。有监督的降维 相同类别在超平面上投影之间的距离尽可能近,不同类别投影之间的距离尽可能远,最多降到类别数-1的维数CHIMA 20199降维算法的注意事项:P
4、CA、SVD、LDA均为线性降维方法,但可引入核函数实现非线性降维,此外还有一些非线性降维方法如Isomap谱嵌入法等 LDA作为有监督的降维方法,容易使后续的分类过程发生过拟合应用:PCA是最常用的数据降维方法,可用于图像压缩等领域SVD可用于推荐系统、自然语言处理等领域,如电子病历文本潜在语义分析LDA既可以用于降维也可用于分类缺点:经过降维后的数据与原特征不存在一一对应关系,较难解释CHIMA 201910案例分享1利用PCA对数据集去噪心衰患者是否发生院内死亡预测选取2015-2018年于解放军总医院住院的心衰患者,根据是否发生院内死亡选择正样本1094例,随机筛选负样本1094例,选
5、用94个特征用SVM做分类,利用5折交叉验证法进行结果评估。基本信息3项性别年龄BMI共病信息6项呼衰肾衰脑梗冠心病糖尿病高血压检查信息9项射血分数缩短分数胸腔积液心包积液二尖瓣反流检验信息76项血常规类15项血生化类38项尿类化验23项SVM 5折交叉验证结果训练集AUC测试集AUC未经过PCA降维0.95910.8436经过PCA降维到90维0.90090.8605特征分布情况CHIMA 201911聚 类想做一个分类问题,但是却没有分类标签?如:疾病可能存在的亚型研究如:疾病风险因素的归类分析CHIMA 201912聚类层次聚类凝聚方法AGNES分裂方法DIANA密度聚类DBSCAN原型
6、聚类GMMK-meansAGNESDBSCANGMM聚类方法的类别CHIMA 201913 对数值型数据进行聚类 随机选取K个对象作为初始的聚类中心,把每个对象分配给距离它最近的聚类中心,根据聚类中现有的对象重新计算聚类中心,不断重复此过程直到满足终止条件K-MEANS(K均值聚类)K-means聚类(不断迭代过程)K-modes(k众数聚类)对分类型数据进行聚类 采用差异度(属性不相同的个数)来代替k-means算法中的距离CHIMA 201914聚类方法优缺点:优点:让数据变得有意义缺点:结果难以解读,针对不寻常的数据组,结果可能无用分层聚类:不需要预先制定聚类数,可以发现类的层次关系;耗