07 Jul 2019
【西瓜书】 010 降维与度量学习
K近邻(K-Nearest Neighbor,KNN)
给定测试样本,基于某种距离度量找出训练集中与其靠近的K个训练样本,然后基于这K个“邻居”的信息来进行预测。
- 分类问题 投票法
- 回归任务 平均法
最近邻分类器的泛化错误不超过贝叶斯最优分类器错误率的两倍。
低维嵌入
k近邻基于一个重要的假设:任意测试样本x附近任意小的距离范围内总能找到一个训练样本,即样本密度足够大,或称为“密采样”。
高维情形出现的数据样本稀疏、距离计算困难等问题是机器学习方法共有的障碍,被称为“维数灾难”。
缓解维度灾难的一个重要途径是降维,亦称为“维度约简”。 通过某种数学变换将原始高维属性空间转变为一个低维“子空间”。
主成分分析
核化线性降维
流形学习
度量学习
Til next time,
gentlesnow
at 11:26
