《机器学习》——绪论
前言
本系列文章是对周志华老师的《机器学习》所做的笔记与总结,格式随意,仅做复习参考之用
基本术语
术语 | 说明 |
---|---|
样本 | 对一个具体对象的描述 |
属性/特征 | 反映对象的性质 |
属性值 | 针对某个具体对象的特征取值 |
属性空间 | 将一个属性看做一个坐标轴,所有属性坐标轴张成的空间 |
特征向量 | 具体对象的一组属性值,对应到属性空间中的一个点 |
数据集 | 样本的集合 |
训练 | 执行学习算法,从数据集中学得模型的过程 |
假设 | 学习到的关于数据的潜在规律 |
标记 | 有关样本结果的信息 |
标记空间 | 所有标记的集合 |
分类任务 | 样本的结果信息为离散值的学习任务 |
回归任务 | 样本的结果信息为连续值的学习任务 |
有监督学习 | 训练样本具有标记信息的学习任务 |
无监督学习 | 训练样本不具有标记信息的学习任务 |
泛化能力 | 学习模型适用于新样本的能力 |
假设空间
假设是关于数据的一种特定的潜在规律,可以理解为,假设是一个特定的函数,假设空间就是多个函数组成的集合,假设的表示就是这一类函数的表示形式(也可以理解为一种模型就是一种假设表示),学习过程可以看做在假设空间里搜索匹配训练样本的假设,也就是搜索拟合的函数
当假设的表示确定了,假设空间及其规模大小也就确定了
例如,一类函数表示为线性函数$y=w^Tx+b$,其中不同的w和b会形成不同的函数,这些函数构成了一个线性函数的假设空间
再例如,一种分类模型表示为决策树,其中不同的分类规则形成不同的决策树模型,这些决策树模型构成了一个决策树的假设空间
版本空间:匹配训练集的所有假设组成的假设集合
归纳偏好
当存在多个匹配训练集的假设时,我们要在其中选择一个,学习算法本身的偏好会影响这个选择,任何机器学习算法都必有其归纳偏好
若有多个假设与观察一致,选最简单的假设,这个准则称为奥卡姆剃刀,对于“简单”的定义不同,奥尔姆剃刀并非唯一可行
任意学习算法在所有可能的目标函数上,它们的期望性能是相等的,这称为NFL定理,说明没有一种算法能够在所有可能的问题上都优于其他算法,选择算法时必须考虑具体问题的特性和需求,而不是期望找到一种万能算法
本文由作者按照 CC BY 4.0 进行授权