基本型

每个样本可以对应到样本空间中的一个点,对应样本分类也就是找到一个超平面,将不同类别的样本划分开

超平面使用线性方程来表示

ωTx+b=0\omega^Tx+b=0

假设超平面能够将样本正确分类,则有如下条件

{ωTx+b+1,yi=1ωTx+b1,yi=1\left\{\begin{aligned} \omega^Tx+b&\ge+1,&y_i&=1\\ \omega^Tx+b&\le-1,&y_i&=-1 \end{aligned}\right.

距离超平面最近的几个使上式等号成立的样本点称为支持向量,异类支持向量到超平面的距离之和称为间隔

γ=2ω\gamma=\frac{2}{\vert\vert\omega\vert\vert}

在满足约束条件的情况下,找到最大间隔,即最小化 ω\vert\vert\omega\vert\vert,等价于最大化 ω\vert\vert\omega\vert\vert,SVM 基本型如下

minω,b12ω2s.t.yi(ωTxi+b)1,i=1,2,...,m\begin{aligned} \min\limits_{\omega,b}\quad&{1\over2}\vert\vert\omega\vert\vert^2\\ s.t.\quad &y_i\cdot(\omega^Tx_i+b)\ge1,\quad i=1,2,...,m \end{aligned}

SVM 的优化问题可以转化为一个对偶问题,求解对偶问题可以得到支持向量

核函数

在现实样本中,原始样本空间中也许不存在一个超平面能够将样本分类,此时可将样本映射到更高维的空间中,若原始空间是有限维,此时存在一个高维特征空间使样本可分

将样本映射到高维特征空间后的超平面模型可表示为

f(x)=ωTϕ(x)+bf(x)=\omega^T \phi(x)+b

其对偶问题中需要求解 ϕ(xi)Tϕ(xj)\phi(x_{i})^T\phi(x_{j}),由于映射后的特征空间维度可能很高,直接计算较为困难,因此假设以下函数

κ(xi,xj)=ϕ(xi)Tϕ(xj)\kappa(x_{i},x_{j})=\phi(x_{i})^T\phi(x_{j})

使得样本在原始样本空间中使用函数 κ(,)\kappa(\cdot,\cdot) 计算的结果等于 ϕ(xi)Tϕ(xj)\phi(x_{i})^T\phi(x_{j}),这样的函数称为核函数

核函数的形式可根据以下定理确定

χ\chi 为输入空间,κ(,)\kappa(\cdot,\cdot) 为定义在 χ×χ\chi \times \chi 上的对称函数,则 κ\kappa 是核函数当且仅当对于 D={x1,x2,,xm}\forall D=\{x_{1},x_{2},\dots,x_{m}\},核矩阵 K\mathbf{K} 总是半正定的

K=[κ(x1,x1)κ(x1,xj)κ(x1,xm)κ(xi,x1)κ(xi,xjκ(xi,xm)κ(xm,x1)κ(xm,xj)κ(xm,xm)]\mathbf{K}=\begin{bmatrix} \kappa(x_1,x_1) & \cdots & \kappa(x_1,x_j) & \cdots & \kappa(x_1,x_m)\\ \vdots & \ddots & \vdots & \ddots & \vdots\\ \kappa(x_i,x_1) & \cdots & \kappa(x_i,x_j & \cdots & \kappa(x_i,x_m)\\ \vdots & \ddots & \vdots & \ddots & \vdots\\ \kappa(x_m,x_1) & \cdots & \kappa(x_m,x_j) & \cdots & \kappa(x_m,x_m) \end{bmatrix}

以下是几种常见的核函数

软间隔与正则化

在求解超平面时,可能难以找到一个超平面将所有样本都正确分类,或也无法保证该超平面没有过拟合,为了提高模型的泛化能力,需要允许模型在一些样本上出错,这称为软间隔,与之对应的将所有样本都分类正确的间隔称为硬间隔

软间隔的优化目标为

minω,b12ω2+Ci=1ml(yi(ωTxi+b)1)\min_{\omega,b}\quad{\frac{1}{2}||\omega||^2+C\sum^m_{i=1}l(y_{i}(\omega^Tx_{i}+b)-1)}

其中,C>0C>0l()l(\cdot) 称为 0/1 损失函数

l(x)={1,ifx<00,otherwisel(x)=\left\{ \begin{aligned} 1,&&if\quad x<0\\ 0,&&otherwise \end{aligned} \right.

通过 C 控制样本不满足约束的程度,当 C 为无穷大时,要求所有样本都满足约束

在实践中,通常用其他数学性质更好的函数来替代 l()l(\cdot),称为替代损失,常用的有以下三种

  • hinge 损失:l(x)=max(0,1x)l(x)=\max(0,1-x)
  • 指数损失:l(x)=exl(x)=e^{-x}
  • 对率损失:l(x)=log(1+ex)l(x)=\log(1+e^{-x})

更一般地,可以将优化目标写成如下形式

minfΩ(f)+Ci=1ml(f(xi),yi)\min_{f}\quad{\Omega(f)+C\sum^m_{i=1}l(f(x_{i}),y_{i})}

以上形式称为正则化问题,其中,Ω(f)\Omega(f)称为正则化项,C称为正则化参数