Catalog
  1. 1.1 统计学习
  2. 1.2 监督学习
    1. 1.2.1 基本概念
    2. 1.2.2 问题的形式化
  3. 1.3 三要素
    1. 1.3.1 模型
    2. 1.3.2 策略
    3. 1.3.3 算法
  4. 1.4 模型评估与模型选择
    1. 1.4.1 训练误差与测试误差
    2. 1.4.2 过拟合与模型选择
  5. 1.5 正则化与交叉验证
    1. 1.5.1 正则化
    2. 1.5.2 交叉验证
  6. 1.6 泛化能力
    1. 1.6.1 泛化误差
    2. 1.6.2 泛化误差上界
  7. 1.7 生成模型与判别模型
  8. 1.8 分类问题
  9. 1.9 标注问题(分类问题,监督学习问题)
  10. 1.10 回归问题
《统计学习方法》(CH01 概述)

1.1 统计学习

监督学习(supervised learning)
非监督学习(unsupervised learning)
半监督学习(semi-supervised learning)
强化学习(reinforcement learning)

1.2 监督学习

分类、标注、回归问题
用于自然语言处理、信息检索、文本数据挖掘

1.2.1 基本概念

  1. 输入空间、特征空间、输出空间:
    • 输入输出变量均为连续变量的预测问题称为回归问题
    • 输出变量为有限个离散变量的预测问题称为分类问题
    • 输入变量与输出变量均为变量序列的预测问题称为标注问题
  2. 联合概率分布$$P(X,Y)$$
  3. 假设空间:输入到输出的映射的集合(学习范围的确定

1.2.2 问题的形式化

学习系统、训练系统、模型之间的关系:

1.3 三要素

方法 = 模型+策略+算法

1.3.1 模型

  1. 条件概率分布:

  2. 决策函数:

1.3.2 策略

  • 损失函数(loss function):度量模型一次预测的好坏,常用有以下几种:

    前三个都是对决策函数

    1. 0-1 loss function(简单粗暴型)
      $$L(Y,f(X))=
      \begin{cases}
      1& \text{Y!=f(X)}\
      0& \text{Y=f(X)}
      \end{cases}$$

    2. quadratic loss function():回归函数 、连续
      $$L(Y,f(X))=(Y-f(X))^2$$

    3. absolute loss function 绝对损失:回归函数、连续

      与平方损失对比,差值更小,平方损失对差值的灵敏度更大

      $$L(Y,f(X))=|Y-f(X)|$$

    4. logarithmic loss function/loglikelihood loss function 条件概率分布

      $$L(Y,P(Y|X))=-logP(Y|X)$$

  • 风险函数(risk function):度量平均意义下模型预测的好坏

    1. 经验风险最小化=$$min$$

    2. 结构风险最小化= 经验风险最小化+模型复杂度

1.3.3 算法

选择最优算法

1.4 模型评估与模型选择

训练误差(training error)和模型的测试误差(test error)

1.4.1 训练误差与测试误差

  • 训练误差(training error)
  • 测试误差(test error)

1.4.2 过拟合与模型选择

  • 多项式拟合问题举例:参数很多==>复杂度高
  • 模型选择方法:正则化与交叉验证

1.5 正则化与交叉验证

1.5.1 正则化

最小化结构风险:

1.5.2 交叉验证

  1. 简单交叉验证
  2. S折交叉验证
  3. 留一交叉验证

1.6 泛化能力

generalization ability是指该模型对位置数据的预测能力

1.6.1 泛化误差

泛化误差就是期望风险

1.6.2 泛化误差上界

泛化误差上界定理:(说明期望风险和预测风险有一个关系)对于二分类问题,但假设空间是有限个函数的集合$$F=\left{ f_1,f_2,……,f_d \right}$$时,对任意一个函数$$f \in
F$$,至少以概率,以下不等式成立:

$$R(f)\leq\hat{R}(f)+\varepsilon(d,N,\delta)$$

其中:

$$\varepsilon(d,N,\delta)=\sqrt {\frac{1}{2N}\left(logd + log\frac{1}{\delta}\right)}$$

$N$为样本量,$d$是被选模型的个数,$\delta$

证明:Pad OK!

1.7 生成模型与判别模型

  • 生成方法:要知道$$x,y$$的联合分布,$$x,y$$都是随机变量
    $$P(Y|X)=\frac{P(X,Y)}{P(X)}$$
  • 判别方法:$$y=f(x)$$或者$$P(Y|X)$$

1.8 分类问题

  • TP(true positive)、FN(false negative)、FP、TN
  • 准确率(Accuracy):分类正确样本除以所有样本数:$$\frac{TP+TN}{TP+TN+FP+FN}$$

  • 精确率(Precision):被分为正例的之中(P’)实际正例占比:$$\frac{TP}{TP+FP}$$

  • 召回率(recall):真实正例(P)中分对的占比:$$\frac{TP}{TP+FN}$$

  • $F_1$值: R和P常常矛盾,F-Score综合评估

    加权调和平均:$$F=\frac{(\alpha^2+1)P*R}{\alpha^2(P+R)}$$

    $$\alpha=1——> F_1$$

1.9 标注问题(分类问题,监督学习问题)

学习和标注:划分词组

1.10 回归问题

  • 一元回归、多元回归
  • 线性回归、非线性回归

最小二乘法(least squares)解决

Donate
  • 微信
  • 支付寶

Comment