文章

《机器学习》——绪论

前言

本系列文章是对周志华老师的《机器学习》所做的笔记与总结,格式随意,仅做复习参考之用

基本术语

术语 说明
样本 对一个具体对象的描述
属性/特征 反映对象的性质
属性值 针对某个具体对象的特征取值
属性空间 将一个属性看做一个坐标轴,所有属性坐标轴张成的空间
特征向量 具体对象的一组属性值,对应到属性空间中的一个点
数据集 样本的集合
训练 执行学习算法,从数据集中学得模型的过程
假设 学习到的关于数据的潜在规律
标记 有关样本结果的信息
标记空间 所有标记的集合
分类任务 样本的结果信息为离散值的学习任务
回归任务 样本的结果信息为连续值的学习任务
有监督学习 训练样本具有标记信息的学习任务
无监督学习 训练样本不具有标记信息的学习任务
泛化能力 学习模型适用于新样本的能力

假设空间

假设是关于数据的一种特定的潜在规律,可以理解为,假设是一个特定的函数,假设空间就是多个函数组成的集合,假设的表示就是这一类函数的表示形式(也可以理解为一种模型就是一种假设表示),学习过程可以看做在假设空间里搜索匹配训练样本的假设,也就是搜索拟合的函数

当假设的表示确定了,假设空间及其规模大小也就确定了

例如,一类函数表示为线性函数$y=w^Tx+b$,其中不同的w和b会形成不同的函数,这些函数构成了一个线性函数的假设空间

再例如,一种分类模型表示为决策树,其中不同的分类规则形成不同的决策树模型,这些决策树模型构成了一个决策树的假设空间

版本空间:匹配训练集的所有假设组成的假设集合

归纳偏好

当存在多个匹配训练集的假设时,我们要在其中选择一个,学习算法本身的偏好会影响这个选择,任何机器学习算法都必有其归纳偏好

若有多个假设与观察一致,选最简单的假设,这个准则称为奥卡姆剃刀,对于“简单”的定义不同,奥尔姆剃刀并非唯一可行

任意学习算法在所有可能的目标函数上,它们的期望性能是相等的,这称为NFL定理,说明没有一种算法能够在所有可能的问题上都优于其他算法,选择算法时必须考虑具体问题的特性和需求,而不是期望找到一种万能算法

本文由作者按照 CC BY 4.0 进行授权