《机器学习》——集成学习
个体与集成 集成学习将多个个体学习器的学习结果通过某种策略结合起来,每个个体学习器可以使用相同的学习算法,称为基学习器,也可以使用不同的学习算法 集成学习通常针对弱学习器进行,个体学习器应该有一定的准确性和多样性,相互之间应该尽可能独立,这是集成学习研究的核心 集成学习方法可分为两类 序列化方法:个体学习器之间强依赖关系,必须串行生成,如Boosting 并行化方法:个...
个体与集成 集成学习将多个个体学习器的学习结果通过某种策略结合起来,每个个体学习器可以使用相同的学习算法,称为基学习器,也可以使用不同的学习算法 集成学习通常针对弱学习器进行,个体学习器应该有一定的准确性和多样性,相互之间应该尽可能独立,这是集成学习研究的核心 集成学习方法可分为两类 序列化方法:个体学习器之间强依赖关系,必须串行生成,如Boosting 并行化方法:个...
贝叶斯决策论 贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记 [h^*(x)=\arg\min\limits_{c\in\Upsilon}R(c\vert x)] $h^*(x)$称为贝叶斯最优分类器,对应的总体风险称为贝叶斯风险 贝叶斯判定准则基于后验概率$P(c\vert x)$,根据贝叶斯定理有 [P(c\vert x)=\frac{P(...
神经元模型 感知机与多层网络 感知机由两层神经元组成,包含输入层和输出层,只有输出层拥有激活函数 其中的权重和阈值可以通过学习得到,更一般地,将阈值看做一个固定输入为-1的哑节点的连接权重,权重和阈值的学习就统一为权重的学习 感知机的学习规则,设样本$(\boldsymbol x,y)$,当前感知机的输出为$\hat y$ [\omega_i \leftarrow \omega...
基本流程 决策树是基于树结构来进行分类,叶子节点对应决策结果,分支节点对应一个属性测试 决策树的递归过程有三种情况导致返回 当前节点包含的样本全部判定为同一类别,无需划分 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分,该节点作为叶子节点 当前节点包含的样本集为空,无法划分,该节点作为叶子节点,决策结果为父节点样本最多的类别 划分选择 决策树的每个节点需...
基本形式 对样本$x=(x_1;x_2;x_3;…;x_d)$,有 [f(x_i)=\omega^Tx+b] 其中$\omega=(\omega_1;\omega_2;…;\omega_d)$ 线性回归 离散属性处理 具有序关系的属性可以连续化,如身高 不具有序关系的属性转化为k维向量 一元线性回归 对于一元线性回归 [f(x_i)=\omega x_i+b] ...
开始 XPath是一门在XML文档中查找信息的语言,通常用于HTML文档的解析,使用路径表达式可以选择文档中的节点 路径选择 有两种路径选择方式 /:选择直接子节点 //:选择所有子孙节点 e.g. 对于下面的文档,选择其中的两个price节点 <?xml version="1.0" encoding="UTF-8"?> <bookstore&g...
经验误差与过拟合 训练误差/经验误差:学习器在训练集上的误差 泛化误差:学习器在新样本上的误差 过拟合:学习器的学习能力过于强大,将样本的特点当做了一般性质 欠拟合:学习器的学习能力低下,没有学习到样本的一般性质 评估方法 使用一个测试集对学习器进行测试,产生的测试误差作为泛化误差的近似,从而评估学习器的泛化能力 对数据集划分出训练集和测试集的方法 ...
前言 本系列文章是对周志华老师的《机器学习》所做的笔记与总结,格式随意,仅做复习参考之用 基本术语 术语 说明 样本 对一个具体对象的描述 属性/特征 反映对象的性质 属性值 针对某个具体对象的特征取值...
前言 本篇文章是对王爽老师的《汇编语言(第三版)》所做的笔记与总结,格式比较随意,权当复习参考之用 基础 编译器:将汇编语言转换为机器语言 汇编语言的组成 汇编指令:机器码的助记符,有对应的机器码 伪指令:没有对应的机器码,由编译器执行 其他符号:如+,-,*,/等,由编译器识别,没有对应的机器码 指令和数据:一段二进制信息,可以被看做数据或者看做程序 CPU读...
前言 在大二做树数据结构课设时,选到的题目是做一个校园地图导航应用,其中需要实现一个寻路算法,并且有一个功能需要展示到达一个地点的多种路线方案,最终采用了K短路算法,在此记录一下 为了说明方便,文中用Python来实现代码 堆优化Dijkstra算法 Dijkstra算法是解决最短路径问题的经典算法,通过逐步扩展已知的最短路径集来找到最短路径,每次从未处理的顶点中选择一个距离源顶点最...