Home

gentlesnow

07 Jul 2019

【西瓜书】 010 降维与度量学习

K近邻(K-Nearest Neighbor,KNN)

给定测试样本,基于某种距离度量找出训练集中与其靠近的K个训练样本,然后基于这K个“邻居”的信息来进行预测。

  1. 分类问题 投票法
  2. 回归任务 平均法

最近邻分类器的泛化错误不超过贝叶斯最优分类器错误率的两倍。

ml-10-1

低维嵌入

k近邻基于一个重要的假设:任意测试样本x附近任意小的距离范围内总能找到一个训练样本,即样本密度足够大,或称为“密采样”。

高维情形出现的数据样本稀疏、距离计算困难等问题是机器学习方法共有的障碍,被称为“维数灾难”。

缓解维度灾难的一个重要途径是降维,亦称为“维度约简”。 通过某种数学变换将原始高维属性空间转变为一个低维“子空间”。

主成分分析

核化线性降维

流形学习

度量学习

Til next time,
gentlesnow at 11:26

scribble