Catalog
  1. 1. Logistic 模型
    1. 1.1 Logistic分布
    2. 1.2 二项Logistic回归模型
    3. 1.3 二项Logistic回归模型参数估计
      1. 1.3.1 极大似然法估计模型参数
  2. 2. 最大熵模型
    1. 2.1 原理:熵最大——>等可能性
    2. 2.2 模型
    3. 2.3 学习方法:极大似然估计——>最优化问题
  3. 3 模型学习的最优化算法(求$$w$$)
    1. 3.1 迭代尺度法
    2. 3.2 拟牛顿法
    3. 3.3 梯度下降法
  4. 4. 实现
《统计学习方法》(CH06 Logistic回归模型与最大熵模型)

Logistic回归模型和最大熵模型在书上的同一章,两者共同点:

  • 都是判别模型
  • 对数线性模型
  • 两种模型的学习方法一般采用极大似然估计, 或正则化的极大似然估计. 可以形式化为无约束最优化问题, 求解方法有IIS, GD, BFGS等

最大熵模型简直难读懂。

1. Logistic 模型

1.1 Logistic分布

逻辑回归是一个把线性回归模型映射为概率的模型, 即把实数空间的输出$[-\infty,+\infty ]$映射到$(0,1)$, 从而获取概率.

1.2 二项Logistic回归模型

  • $odds$(几率)= $\frac{p}{1-p}$
  • $log \ odds$ (对数几率) = $log(\frac{p}{1-p})=\theta_1 x_1 + \theta_2 x_2 + bias$

画一下$logit(p)$, $p \in (0, 1)$, 当$p=0$或$p=1$的时候, $logit$函数属于未定义:

设$\theta_1 x_1 + \theta_2 x_2 + bias=z$, 得出:$log(\frac{p}{1-p})=z$, 等式两边取$e$:
$$\frac{p}{1-p}=e^z$$

$$p=e^z(1-p)=e^z-e^zp$$

$$p(1+e^z)=e^z$$

$$p=\frac{e^z}{1+e^z}$$

分子分母同除$e^z$, 得出:$$p=\frac{1}{1+e^{-z}} \quad p \in (0,1)$$由上面推导, 我们得出了$sigmoid$函数, 终于可以把线性回归模型输出的的实数空间取值映射成为概率了.
$$sigmoid(z)=\frac{1}{1+e^{-z}} \quad p \in (0,1)$$

画一下$sigmoid$函数, 注意$sigmoid(z)$的取值范围:

1.3 二项Logistic回归模型参数估计

极大似然法化为对数似然函数——>梯度下降法和拟牛顿法求解

1.3.1 极大似然法估计模型参数

  1. 写出似然函数

    $$P(Y=1|x)=\pi(x), P(Y = 0|x)=1-\pi(x)$$

    定义似然函数$(likelihood function)$:

    $${\begin{aligned}\prod {i=1}^{N}[\pi(x{i})]^{y_{i}}[1-\pi(x_{i})]^{(1-y_{i})}\end{aligned}}$$

  2. 取对数似然函数

    连乘不好求导,取对数似然函数

    对数似然函数:

    $$L(w) = \log({\begin{aligned}\prod {i=1}^{N}[\pi(x{i})]^{y_{i}}[1-\pi(x_{i})]^{(1-y_{i})}\end{aligned}}) = \sum_{i=1}^{N} y_i \log(\pi(x_{i})) + (1-y_i) \log(1 - \pi(x_{i}))$$

  3. 求导

2. 最大熵模型

$x$和$y$之间的关系,不是具体的取值

2.1 原理:熵最大——>等可能性

离散随机变量$X$的概率分布是$P(X)$,熵是:$H(P)=-\sum\limits_{x}P(x)logP(x)$

2.2 模型

$$ \begin{equation}
\begin{aligned} \min \limits_{P\in \mathcal {C}}-H(P)=\sum\limits_{x,y}\widetilde P(x)P(y|x)\log P(y|x)\ s.t. E_P(f_i)-E_{\widetilde P}(f_i)=0, i =1,2,\dots,n}\ \sum \limits_y P(y|x)=1 \end{aligned}
\end{equation} $$

后两个是对它的约束条件。

2.3 学习方法:极大似然估计——>最优化问题

$$ \begin{align} L_{\widetilde {P}}(P_w)&=\sum \limits_{x,y}\widetilde {P}(x,y)\log{P}(y|x)\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x,y)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x,y}\widetilde{P}(x)P(y|x)\log{(Z_w(x))}\\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))}\sum_{y}P(y|x)\ &=\sum \limits_{x,y}\widetilde {P}(x,y)\sum \limits_{i=1}^{n}w_if_i(x,y) -\sum \limits_{x}\widetilde{P}(x)\log{(Z_w(x))} \end{align} $$

3 模型学习的最优化算法(求$$w$$)

3.1 迭代尺度法

3.2 拟牛顿法

  • DFP算法/Davidon-Fletcher-Powell

  • BFGS算法/Broyden-Fletcher-Goldfarb-Shanno

  • 前三个都是对决策函数

    1. 0-1 loss function(简单粗暴型)
      $$L(Y,f(X))=
      \begin{cases}
      1& \text{Y!=f(X)}\
      0& \text{Y=f(X)}
      \end{cases}$$

    2. quadratic loss function():回归函数 、连续
      $$L(Y,f(X))=(Y-f(X))^2$$

    3. absolute loss function 绝对损失:回归函数、连续

      与平方损失对比,差值更小,平方损失对差值的灵敏度更大

      $$L(Y,f(X))=|Y-f(X)|$$

    4. logarithmic loss function/loglikelihood loss function 条件概率分布

      $$L(Y,P(Y|X))=-logP(Y|X)$$

3.3 梯度下降法

  • 4. 实现

Donate
  • 微信
  • 支付寶

Comment