统计学习方法概论
统计学习的方法
- 监督学习
- 非监督学习
- 半监督学习
- 强化学习
《统计学习方法》中讨论的是监督学习
实现统计学习方法的步骤
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的 集合
- 确定模型选择的准则,即学习的 策略
- 实现求解最优模型的算法,即学习的 算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测与分析
监督学习
基本概念
输入空间、特征空间、输出空间
回归问题
输入变量与输出变量均为连续变量的预测问题
回归问题分类
输入变量个数:
- 一元回归
- 多元回归
输入变量和输出变量之间的关系即模型的类型:
- 线性回归
- 非线性回归
分类问题
输出变量取有限个离散值
评价指标为分类准确率
标注问题
输入是一个观测序列,输出是一个标记序列或状态序列
统计学习三要素
模型
什么是模型?
监督学习中,模型就是所要学习的条件概率分布或决策函数什么是假设空间?
所有模型的集合
策略
统计学习的目标在于从假设空间中选择最优模型
- 什么是策略,策略怎么理解?
按照什么样的准则学习。
- 损失函数:度量模型一次预测的好坏
- 风险函数:度量模型平均意义下的好坏
- 期望风险:损失函数的数学期望,理论上。
- 经验风险:关于训练数据的平均损失,实际应用上。
为什么不用期望风险?
因为期望风险无法直接求出,所以采用经验风险来替代期望风险。采用经验风险后的策略?
经验风险最小化与结构风险最小化- 经验风险最小化:数量大的时候可以用经验风险估计期望风险,但是现实数量不大,容易产生过拟合。
- 结构风险最小化:在经验风险的基础上加上正则化项(模型复杂度相关),避免过拟合。
算法
算法是学习模型的具体方法,也就是用什么方法求解最优模型。 化身为最优化问题,也就是求全局最优解。
模型评估与模型选择
模型评估
通过训练误差与测试误差来评估模型
模型选择
- 条件: 空间含有不同复杂度的模型时
- 过拟合:学习时选择的模型所包含的参数过多
一味追求提高对训练数据的预测能力,所选模型的复杂度往往会比真实模型更高
正则化
结构风险最小化策略的实现
正则化: 经验风险 + 正则化项
正则化的作用: 选择经验风险与模型复杂度同时较小的模型
- 奥卡姆剃刀应用在模型选择中: 在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型。
交叉验证
- 为什么要使用交叉验证?
如果数据量大,那么模型选择的简单方法就是区分训练集与测试集。但是往往数据量没有很大,所以采用交叉验证的的方法(重复利用数据)。
简单交叉验证
70%训练集,30%测试集
S折交叉验证
分为S个子集, S-1用于训练集,另外一个用于测试集,重复进行,选择一个最优的模型
留一交叉验证
当S = N的时候采用的方法
泛化能力
- 什么是泛化能力
学习到的模型对未知数据的预测能力 - 什么是泛化误差
实际上就是期望风险
平时使用测试误差来评价泛化能力,现在通过理论计算来评价泛化能力,通常利用泛化误差的概率上界。
泛化误差上界
定理推导
生成模型与判别模型
生成方法
由数据学习联合概率分布,然后求出条件概率分布
典型模型有: 朴素贝叶斯法 和 隐马尔可夫模型
判别方法
有数据直接学习决策函数或者条件概率分布作为预测模型
典型的判别模型包括: $k$近邻法、感知机、决策树、逻辑斯帝回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
This blog is under a CC BY-NC-SA 4.0 Unported License
本文链接:https://ahscuml.github.io/统计学习方法概论/