【统计学习方法】6-回归和最大熵

一句话:本章提到两种应用了概率知识和最优化方法的对数线性数学模型。


首先对本章知识进行定位

  1. 本章知识和前后联系都不是很大,但是 logistic 回归(sigmoid函数)确实十分常用的一个理论知识。
  2. 最大熵模型更是宏观地把回归和分类问题转换成最优化问题的数学模型。

本章公式极多,多为推导,在此大多数将不会列出,如果有兴趣,非常建议阅读原书。


1.逻辑斯谛回归

我们之前接触过 sigmoid 函数,有很多视频中也叫 logistic 函数/回归等,原因大概就在本章。

逻辑斯谛分布(logistic distribution)

随机变量X如果满足:

​ 分布函数:$F(x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}$

​ 概率密度函数:$f(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}$

那么$x$就满足逻辑斯谛分布。

(其中,$\mu$为位置参数,$\gamma >0$为形状参数。)

分布特性:

​ 分布函数呈S形曲线,以点$(\mu,\frac{1}{2})$中心对称。

​ 概率密度函数,就是我们熟悉的——sigmoid函数的样子。

二项逻辑斯谛回归模型

【从分布上升到模型】

满足以下公式的条件概率分布就是二项逻辑斯谛回归模型:

$$P(Y=1|x)=\frac{exp(w\cdot x+b)}{1+exp(w\cdot x+b)}\ P(Y=1|x)=\frac{1}{1+exp(w\cdot x+b)}$$

根据该模型,可以比较两个条件概率值的大小,从而将 x 分到概率值比较大的类别 Y(1或0)中。

可以用极大似然估计法估计模型参数 w。

一个相关的知识概念:

​ 几率(odds):事件发生的概率 与 事件不发生的概率 的比值——$\frac{p}{1-p}$

​ 对数几率(log odds)或 logit 函数:$logit(p)=log\frac{p}{1-p}$

多项逻辑斯谛回归模型

【模型推广】

$$P(Y=k|x)=\frac{exp(w_k\cdot x)}{1+exp(w_k\cdot x)}, k=1,2,…,K-1\ P(Y=K|x)=\frac{1}{1+\Sigma_{k=1}^{K-1}exp(w_k\cdot x)}$$

2.最大熵模型

最大熵原理:(概率模型学习的准则)

在所有可能的概率模型分布中,熵最大的模型是最好的模型。

​ 或者描述为:在满足约束条件的模型集合中,熵最大的模型最好。

回忆第5章内容:

如果X的概率分布是P(X),则为:$H(P)=-\Sigma_xP(x)logP(x)$

熵的一个特性是:$0\leq H(P)\leq log|X|$

  1. 其中,|X| 是 X 的取值的个数。
  2. 这个特性说明——熵有最大值(或者说有取值范围)。

熵取最大值的条件:

  1. 当且仅当 X 的分布是均匀分布时,熵最大。
  2. 在满足约束条件的情况下,把不确定的部分认为是“等可能”的,此时熵最大。

举个栗子:

有两个约束条件

$$P(A)+P(B)=\frac{3}{10}\ P(A)+P(B)+P(C)+P(D)+P(E)=1$$

在缺少其他信息的情况下,可以认为:A 和 B 等概率,各为$\frac{3}{20}$,C、D和E 等概率,各为$\frac{7}{30}$

最大熵模型:

$$P_w(y|x)=\frac{1}{Z_w(x)}exp(\Sigma_{i=1}^nw_if_i(x,y))\Z_w(w)=\Sigma_yexp(\Sigma_{i=1}^nw_if_i(x,y))$$

​ 其中,x 为输入,y 为输出, Zw 函数又叫规范化因子,fi 函数为任意实数值特征函数,w 是权值向量。

3.模型学习

书中使用了很大篇幅证明:最大熵模型学习中的对偶函数极大化等价于最大熵模型的极大似然估计(在此不搬运公式了)。

可以将模型学习总结如下:

模型学习

  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.
  • Copyrights © 2020-2022 Sun Yue

请我喝杯咖啡吧~

支付宝
微信