Catalog
  1. 1. 前提说明
    1. 1.1 HMM的特点:
    2. 1.2 需要的数学基础
    3. 1.3 动机
  2. 2. HMM的思想
    1. 1.1 原理:熵最大——>等可能性
    2. 1.2 模型
    3. 1.3 学习方法:极大似然估计——>最优化问题
  3. 2. 模型学习的最优化算法(求$$w$$)
    1. 2.1 迭代尺度法
    2. 2.2 拟牛顿法
    3. 2.3 梯度下降法
  4. 3. 三个问题
《统计学习方法》(CH10 HMM算法)

重申要求:

  • 学习思想和原理,就算把公式们忘记了,也能通过基本公式推出来;
  • 一提起来某个方法,就知道在哪里用了它;
    • eg:一提起来矩阵的特征值,就知道……

1. 前提说明

1.1 HMM的特点:

  • 优点:适合对时序数据建模

  • 缺点:训练速度慢,不适合海量数据

1.2 需要的数学基础

  1. 条件概率:$P(A|B)=\frac{P(A,B)}{P(B)}\=>P(A,B)=P(A|B)P(B)\=>P(A,B,C)=P(A|B,C)P(B|C)P(C)$

  2. $IF A,B $ 独立$ P(A|B)=P(A)$

1.3 动机

概率图找联合分布:出现维度灾难

2. HMM的思想

回到

1.1 原理:熵最大——>等可能性

离散随机变量$X$的概率分布是$P(X)$,熵是:$H(P)=-\sum\limits_{x}P(x)logP(x)$

1.2 模型

$$ \begin{equation}
\begin{aligned} \min \limits_{P\in \mathcal {C}}-H(P)=\sum\limits_{x,y}\widetilde P(x)P(y|x)\log P(y|x)\ s.t. E_P(f_i)-E_{\widetilde P}(f_i)=0, i =1,2,\dots,n}\ \sum \limits_y P(y|x)=1 \end{aligned}
\end{equation} $$

后两个是对它的约束条件。

1.3 学习方法:极大似然估计——>最优化问题

$$ \begin{align} L_{\widetilde {P}}(P_w)&=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x)\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x,y)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x)P(y|x)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))}\sum_{y}P(y|x)\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))} \end{align} $$

2. 模型学习的最优化算法(求$$w$$)

2.1 迭代尺度法

2.2 拟牛顿法

  • DFP算法/Davidon-Fletcher-Powell

  • BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

  • 前三个都是对决策函数

    1. 0-1 loss function(简单粗暴型)
      $$L(Y,f(X))=
      \begin{cases}
      1& \text{Y!=f(X)}\
      0& \text{Y=f(X)}
      \end{cases}$$

    2. quadratic loss function():回归函数 、连续
      $$L(Y,f(X))=(Y-f(X))^2$$

    3. absolute loss function 绝对损失:回归函数、连续

      与平方损失对比,差值更小,平方损失对差值的灵敏度更大

      $$L(Y,f(X))=|Y-f(X)|$$

    4. logarithmic loss function/loglikelihood loss function 条件概率分布

      $$L(Y,P(Y|X))=-logP(Y|X)$$

2.3 梯度下降法

  • 3. 三个问题

  1. 为什么HMM对序列数据的处理效果这么好?

    (1)HMM是将前后时刻状态联系在一起,前一个时刻的状态影响后面一个时刻的状态,且当前时刻的观测至于

  2. 在HMM算法在处理过程中都有哪些假设?这些假设造成了什么影响?

Donate
  • 微信
  • 支付寶

Comment