gentlesnow

07 Jul 2019

【西瓜书】 010 降维与度量学习

K近邻（K-Nearest Neighbor，KNN）

给定测试样本，基于某种距离度量找出训练集中与其靠近的K个训练样本，然后基于这K个“邻居”的信息来进行预测。

分类问题投票法
回归任务平均法

最近邻分类器的泛化错误不超过贝叶斯最优分类器错误率的两倍。

ml-10-1

低维嵌入

k近邻基于一个重要的假设：任意测试样本x附近任意小的距离范围内总能找到一个训练样本，即样本密度足够大，或称为“密采样”。

高维情形出现的数据样本稀疏、距离计算困难等问题是机器学习方法共有的障碍，被称为“维数灾难”。

缓解维度灾难的一个重要途径是降维，亦称为“维度约简”。通过某种数学变换将原始高维属性空间转变为一个低维“子空间”。

主成分分析

核化线性降维

流形学习

度量学习

Til next time,
gentlesnow at 11:26

scribble

‹ ›