Catalog
  1. 1. 频率派
  2. 2.贝叶斯派别
    1. 1.2 模型
    2. 1.3 学习方法:极大似然估计——>最优化问题
  3. 2. 模型学习的最优化算法(求$$w$$)
    1. 2.1 迭代尺度法
    2. 2.2 拟牛顿法
    3. 2.3 梯度下降法
  4. 3. 实现
机器学习概述

1. 频率派

统计机器学习——>求解最优化

$x$和$y$之间的关系,不是具体的取值

2.贝叶斯派别

概率图模型——> 后验概率 ——> 积分问题 ——> 数值积分 MCML

概率分布是$P(X)$,熵是:$H(P)=-\sum\limits_{x}P(x)logP(x)$

1.2 模型

$$ \begin{equation}
\begin{aligned} \min \limits_{P\in \mathcal {C}}-H(P)=\sum\limits_{x,y}\widetilde P(x)P(y|x)\log P(y|x)\ s.t. E_P(f_i)-E_{\widetilde P}(f_i)=0, i =1,2,\dots,n}\ \sum \limits_y P(y|x)=1 \end{aligned}
\end{equation} $$

后两个是对它的约束条件。

1.3 学习方法:极大似然估计——>最优化问题

$$ \begin{align} L_{\widetilde {P}}(P_w)&=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x)\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x,y)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x)P(y|x)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))}\sum_{y}P(y|x)\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))} \end{align} $$

2. 模型学习的最优化算法(求$$w$$)

2.1 迭代尺度法

2.2 拟牛顿法

  • DFP算法/Davidon-Fletcher-Powell

  • BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

  • 前三个都是对决策函数

    1. 0-1 loss function(简单粗暴型)
      $$L(Y,f(X))=
      \begin{cases}
      1& \text{Y!=f(X)}\
      0& \text{Y=f(X)}
      \end{cases}$$

    2. quadratic loss function():回归函数 、连续
      $$L(Y,f(X))=(Y-f(X))^2$$

    3. absolute loss function 绝对损失:回归函数、连续

      与平方损失对比,差值更小,平方损失对差值的灵敏度更大

      $$L(Y,f(X))=|Y-f(X)|$$

    4. logarithmic loss function/loglikelihood loss function 条件概率分布

      $$L(Y,P(Y|X))=-logP(Y|X)$$

2.3 梯度下降法

  • 3. 实现

Donate
  • 微信
  • 支付寶

Comment