统计学习方法概论

Author Avatar
ahscuml 8月 10, 2018
  • 在其它设备中阅读本文章

统计学习的方法

  • 监督学习
  • 非监督学习
  • 半监督学习
  • 强化学习

《统计学习方法》中讨论的是监督学习

实现统计学习方法的步骤

  1. 得到一个有限的训练数据集合
  2. 确定包含所有可能的模型的假设空间,即学习模型的 集合
  3. 确定模型选择的准则,即学习的 策略
  4. 实现求解最优模型的算法,即学习的 算法
  5. 通过学习方法选择最优模型
  6. 利用学习的最优模型对新数据进行预测与分析

监督学习

基本概念

输入空间、特征空间、输出空间

回归问题

输入变量与输出变量均为连续变量的预测问题

回归问题分类

输入变量个数:

  • 一元回归
  • 多元回归

输入变量和输出变量之间的关系即模型的类型:

  • 线性回归
  • 非线性回归

分类问题

输出变量取有限个离散值
评价指标为分类准确率

标注问题

输入是一个观测序列,输出是一个标记序列或状态序列

统计学习三要素

模型

  1. 什么是模型?
    监督学习中,模型就是所要学习的条件概率分布或决策函数

  2. 什么是假设空间?
    所有模型的集合

策略

统计学习的目标在于从假设空间中选择最优模型

  1. 什么是策略,策略怎么理解?
    按照什么样的准则学习。
  • 损失函数:度量模型一次预测的好坏
  • 风险函数:度量模型平均意义下的好坏
    • 期望风险:损失函数的数学期望,理论上。
    • 经验风险:关于训练数据的平均损失,实际应用上。
  1. 为什么不用期望风险?
    因为期望风险无法直接求出,所以采用经验风险来替代期望风险。

  2. 采用经验风险后的策略?
    经验风险最小化与结构风险最小化

    • 经验风险最小化:数量大的时候可以用经验风险估计期望风险,但是现实数量不大,容易产生过拟合。
    • 结构风险最小化:在经验风险的基础上加上正则化项(模型复杂度相关),避免过拟合

算法

算法是学习模型的具体方法,也就是用什么方法求解最优模型。 化身为最优化问题,也就是求全局最优解。

模型评估与模型选择

模型评估

通过训练误差与测试误差来评估模型

模型选择

  • 条件: 空间含有不同复杂度的模型时
  • 过拟合:学习时选择的模型所包含的参数过多
    一味追求提高对训练数据的预测能力,所选模型的复杂度往往会比真实模型更高
    训练误差和测试误差与模型复杂度的关系

正则化

结构风险最小化策略的实现
正则化: 经验风险 + 正则化项
正则化的作用: 选择经验风险与模型复杂度同时较小的模型

  • 奥卡姆剃刀应用在模型选择中: 在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。

交叉验证

  1. 为什么要使用交叉验证?
    如果数据量大,那么模型选择的简单方法就是区分训练集与测试集。但是往往数据量没有很大,所以采用交叉验证的的方法(重复利用数据)。

简单交叉验证

70%训练集,30%测试集

S折交叉验证

分为S个子集, S-1用于训练集,另外一个用于测试集,重复进行,选择一个最优的模型

留一交叉验证

当S = N的时候采用的方法

泛化能力

  1. 什么是泛化能力
    学习到的模型对未知数据的预测能力
  2. 什么是泛化误差
    实际上就是期望风险
    平时使用测试误差来评价泛化能力,现在通过理论计算来评价泛化能力,通常利用泛化误差的概率上界。

泛化误差上界

定理推导

生成模型与判别模型

生成方法

由数据学习联合概率分布,然后求出条件概率分布
典型模型有: 朴素贝叶斯法 和 隐马尔可夫模型

判别方法

有数据直接学习决策函数或者条件概率分布作为预测模型
典型的判别模型包括: $k$近邻法、感知机、决策树、逻辑斯帝回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。

This blog is under a CC BY-NC-SA 4.0 Unported License
本文链接:https://ahscuml.github.io/统计学习方法概论/