引言

在指数族分布介绍中提到了充分统计量这个概念，并且介绍了如果一个指数族分布已知充分统计量，就可以基于该统计量得到完整的概率分布表达形式。本节将从概率密度积分和极大似然估计的角度介绍如何通过充分统计量 ϕ ( x ) \phi(x) ϕ(x)求解概率分布 P ( x ∣ η ) P(x\mid \eta) P(x∣η)中的模型参数 η \eta η.。

回顾：指数族分布

指数族分布的一般式表达如下：
P ( x ∣ η ) = h ( x ) e η T ϕ ( x ) − A ( η ) P(x \mid \eta) = h(x) e^{\eta^{T}\phi(x) - A(\eta)} P(x∣η)=h(x)eηTϕ(x)−A(η)
其中， η \eta η表示概率模型/概率分布 P ( x ∣ η ) P(x \mid \eta) P(x∣η)的参数； ϕ ( x ) \phi(x) ϕ(x)表示样本的充分统计量，它本质上是关于样本 x x x的函数； A ( η ) A(\eta) A(η)表示对数配分函数。

从概率密度积分角度观察充分统计量与模型参数间的联系

观察上式， P ( x ∣ η ) P(x\mid \eta) P(x∣η)本质上是关于样本 x x x的概率分布，则 P ( x ∣ η ) P(x \mid \eta) P(x∣η)的概率密度积分结果等于1。即：
∫ x P ( x ∣ η ) d x = 1 \int_{x} P(x \mid \eta) dx = 1 ∫xP(x∣η)dx=1

将指数族分布一般式带入上式，则有：
∫ x h ( x ) e η T ϕ ( x ) − A ( η ) d x = 1 ∫ x h ( x ) e η T ϕ ( x ) e A ( η ) d x = 1 \int_{x} h(x) e^{\eta^{T}\phi(x) - A(\eta)}dx = 1 \\ \int_{x} \frac{h(x) e^{\eta^{T}\phi(x)}}{e^{A(\eta)}}dx = 1 ∫xh(x)eηTϕ(x)−A(η)dx=1∫xeA(η)h(x)eηTϕ(x)dx=1

由于 e A ( η ) e^{A(\eta)} eA(η)中不含 x x x，上式可转化为：
∫ x h ( x ) e η T ϕ ( x ) d x e A ( η ) = 1 e A ( η ) = ∫ x h ( x ) e η T ϕ ( x ) d x \frac{\int_{x}h(x) e^{\eta^{T}\phi(x)} dx}{e^{A(\eta)}} = 1\\ e^{A(\eta)} = \int_{x}h(x)e^{\eta^{T}\phi(x)}dx eA(η)∫xh(x)eηTϕ(x)dx=1eA(η)=∫xh(x)eηTϕ(x)dx

基于该式，观察对数配分函数 A ( η ) A(\eta) A(η)与充分统计量 ϕ ( x ) \phi(x) ϕ(x)之间的联系。上述等式两端对 η \eta η求导：

等式左端：
∂ e A ( η ) ∂ η = e A ( η ) ⋅ A ′ ( η ) \frac{\partial e^{A(\eta)}}{\partial \eta} = e^{A(\eta)}\cdot A'(\eta) ∂η∂eA(η)=eA(η)⋅A′(η)
等式右端：
牛顿-莱布尼兹公式，将偏导提到积分号内部；积分号内部公式只有 η T \eta^{T} ηT和 η \eta η相关。
∂ ∫ x h ( x ) e η T ϕ ( x ) ∂ η = ∫ x h ( x ) e η T ϕ ( x ) ⋅ ϕ ( x ) d x \frac{\partial \int_{x}h(x)e^{\eta^{T}\phi(x)}}{\partial \eta} = \int_{x}h(x)e^{\eta^{T}\phi(x)}\cdot\phi(x)dx ∂η∂∫xh(x)eηTϕ(x)=∫xh(x)eηTϕ(x)⋅ϕ(x)dx

最终有：
e A ( η ) ⋅ A ′ ( η ) = ∫ x h ( x ) e η T ϕ ( x ) ⋅ ϕ ( x ) d x A ′ ( η ) = ∫ x h ( x ) e η T ϕ ( x ) ⋅ ϕ ( x ) d x e A ( η ) e^{A(\eta)}\cdot A'(\eta) = \int_{x}h(x)e^{\eta^{T}\phi(x)}\cdot\phi(x)dx \\ A'(\eta) = \frac{\int_{x}h(x)e^{\eta^{T}\phi(x)}\cdot\phi(x)dx}{e^{A(\eta)}} eA(η)⋅A′(η)=∫xh(x)eηTϕ(x)⋅ϕ(x)dxA′(η)=eA(η)∫xh(x)eηTϕ(x)⋅ϕ(x)dx

由于 e A ( η ) e^{A(\eta)} eA(η)与 x x x无关，因此可以直接加入到积分号内部。
1 e A ( η ) \begin{aligned}\frac{1}{e^{A(\eta)}}\end{aligned} eA(η)1在对 x x x的积分式子中视为常数。
A ′ ( η ) = ∫ x 1 e A ( η ) ⋅ h ( x ) e η T ϕ ( x ) ⋅ ϕ ( x ) d x = ∫ x h ( x ) e η T [ ϕ ( x ) − A ( η ) ] ⋅ ϕ ( x ) d x \begin{aligned} A'(\eta) & = \int_{x} \frac{1}{e^{A(\eta)}}\cdot h(x)e^{\eta^{T}\phi(x)}\cdot\phi(x)dx \\ & = \int_{x} h(x) e^{\eta^{T} \left[\phi(x)- A(\eta) \right]}\cdot\phi(x)dx \end{aligned} A′(η)=∫xeA(η)1⋅h(x)eηTϕ(x)⋅ϕ(x)dx=∫xh(x)eηT[ϕ(x)−A(η)]⋅ϕ(x)dx

观察上式，积分号中的 h ( x ) e η T [ ϕ ( x ) − A ( η ) ] h(x) e^{\eta^{T} [\phi(x)- A(\eta)]} h(x)eηT[ϕ(x)−A(η)]就是概率分布 P ( x ∣ η ) P(x \mid \eta) P(x∣η)的一般式形式。因此，使用 P ( x ∣ η ) P(x \mid \eta) P(x∣η)进行替换：
A ′ ( η ) = ∫ x P ( x ∣ η ) ⋅ ϕ ( x ) d x A'(\eta) = \int_{x} P(x \mid \eta)\cdot \phi(x) dx A′(η)=∫xP(x∣η)⋅ϕ(x)dx
可以将该式写成期望形式：
A ′ ( η ) = E p ( x ∣ η ) [ ϕ ( x ) ] A'(\eta) = \mathbb E_{p(x\mid \eta)}[\phi(x)] A′(η)=Ep(x∣η)[ϕ(x)]

至此，我们发现对数配分函数的一阶导函数与充分统计量之间的关联关系。
实际上，我们已经找到了概率模型 P ( x ∣ η ) P(x \mid \eta) P(x∣η)中的模型参数 η \eta η与充分统计量 ϕ ( x ) \phi(x) ϕ(x)之间的联系：
其中 A ′ ( − 1 ) ( η ) A'^{(-1)}(\eta) A′(−1)(η)表示 A ′ ( η ) A'(\eta) A′(η)的反函数。
η = A ′ ( − 1 ) ( η ) = E P ( x ∣ η ) ( − 1 ) [ ϕ ( x ) ] \eta = A'^{(-1)}(\eta) = \mathbb E^{(-1)}_{P(x \mid \eta)}[\phi(x)] η=A′(−1)(η)=EP(x∣η)(−1)[ϕ(x)]

下面从样本极大似然估计的角度观察似然结果最大的概率模型参数 η M L E \eta_{MLE} ηMLE与充分统计量 ϕ ( x ) \phi(x) ϕ(x)之间的联系。

从极大似然估计角度观察充分统计量与模型参数间的联系

符号定义：假设数据集合 X \mathcal X X中包含 N N N个样本：
X = { x ( 1 ) , x ( 2 ) , ⋯ , x ( N ) } \mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\} X={x(1),x(2),⋯,x(N)}

基于极大似然估计的定义，极大似然估计方法求解最优模型参数 η M L E \eta_{MLE} ηMLE表示如下：
P P P表示概率分布, p p p表示概率密度函数。
η M L E = arg ⁡ max ⁡ η log ⁡ P ( X ∣ η ) = arg ⁡ max ⁡ η ∏ x ( i ) ∈ X p ( x ( i ) ∣ η ) = arg ⁡ max ⁡ η ∑ x ( i ) ∈ X log ⁡ p ( x ( i ) ∣ η ) \begin{aligned} \eta_{MLE} & = \mathop{\arg\max}\limits_{\eta} \log P(\mathcal X \mid \eta) \\ & = \mathop{\arg\max}\limits_{\eta} \prod_{x^{(i)} \in \mathcal X} p(x^{(i)} \mid \eta) \\ & = \mathop{\arg\max}\limits_{\eta} \sum_{x^{(i)} \in \mathcal X} \log p(x^{(i)} \mid \eta) \end{aligned} ηMLE=ηargmaxlogP(X∣η)=ηargmaxx(i)∈X∏p(x(i)∣η)=ηargmaxx(i)∈X∑logp(x(i)∣η)

将指数族分布一般式带入：
arg ⁡ max ⁡ η ∑ x ( i ) ∈ X log ⁡ [ h ( x ( i ) ) e η T ϕ ( x ( i ) ) − A ( η ) ] \begin{aligned} \mathop{\arg\max}\limits_{\eta} \sum_{x^{(i)} \in \mathcal X}\log \left[h(x^{(i)}) e^{\eta^{T} \phi(x^{(i)}) -A(\eta)}\right] \end{aligned} ηargmaxx(i)∈X∑log[h(x(i))eηTϕ(x(i))−A(η)]

将公式展开， log ⁡ \log log带进公式：
arg ⁡ max ⁡ η ∑ x ( i ) ∈ X [ log ⁡ h ( x ( i ) ) + η T ϕ ( x ( i ) ) − A ( η ) ] \mathop{\arg\max}\limits_{\eta} \sum_{x^{(i)} \in \mathcal X}\left[\log h(x^{(i)}) + \eta^{T}\phi(x^{(i)}) - A(\eta)\right] ηargmaxx(i)∈X∑[logh(x(i))+ηTϕ(x(i))−A(η)]

由于求解关于 η \eta η的最优值，因此 log ⁡ h ( x ( i ) ) \log h(x^{(i)}) logh(x(i))与 η \eta η无关。最终将公式化简为：
η M L E = arg ⁡ max ⁡ η ∑ x ( i ) ∈ X [ η T ϕ ( x ( i ) ) − A ( η ) ] \eta_{MLE} =\mathop{\arg\max}\limits_{\eta} \sum_{x^{(i)} \in \mathcal X}\left[\eta^{T}\phi(x^{(i)}) - A(\eta)\right] ηMLE=ηargmaxx(i)∈X∑[ηTϕ(x(i))−A(η)]

为了求解最优值 η M L E \eta_{MLE} ηMLE，我们对上述公式对 η \eta η进行求导：
离散条件下的牛顿莱布尼兹公式。
∂ ∑ x ( i ) ∈ X [ η T ϕ ( x ( i ) ) − A ( η ) ] ∂ η = ∑ x ( i ) ∈ X ∂ [ η T ϕ ( x ( i ) ) − A ( η ) ] ∂ η = ∑ x ( i ) ∈ X ϕ ( x ( i ) ) − ∑ x ( i ) ∈ X A ′ ( η ) \begin{aligned} \frac{\partial \sum_{x^{(i)} \in \mathcal X}\left[\eta^{T}\phi(x^{(i)}) - A(\eta)\right]}{\partial \eta} & = \sum_{x^{(i)} \in \mathcal X} \frac{\partial [\eta^{T}\phi(x^{(i)}) - A(\eta)]}{\partial \eta} \\ & = \sum_{x^{(i)} \in \mathcal X}\phi(x^{(i)}) - \sum_{x^{(i)} \in \mathcal X}A'(\eta) \end{aligned} ∂η∂∑x(i)∈X[ηTϕ(x(i))−A(η)]=x(i)∈X∑∂η∂[ηTϕ(x(i))−A(η)]=x(i)∈X∑ϕ(x(i))−x(i)∈X∑A′(η)

由于 A ′ ( η ) A'(\eta) A′(η)与 i i i无关，因此上式转化为：
∑ x ( i ) ∈ X ϕ ( x ( i ) ) − N ⋅ A ′ ( η ) \sum_{x^{(i)} \in \mathcal X}\phi(x^{(i)}) - N\cdot A'(\eta) x(i)∈X∑ϕ(x(i))−N⋅A′(η)

令 ∂ ∑ x ( i ) ∈ X [ η T ϕ ( x ( i ) ) − A ( η ) ] ∂ η ≜ 0 \begin{aligned}\frac{\partial \sum_{x^{(i)} \in \mathcal X}\left[\eta^{T}\phi(x^{(i)}) - A(\eta)\right]}{\partial \eta} \triangleq 0\end{aligned} ∂η∂∑x(i)∈X[ηTϕ(x(i))−A(η)]≜0，有：
A ′ ( η M L E ) = 1 N ∑ x ( i ) ∈ X ϕ ( x ( i ) ) η M L E = A ′ ( − 1 ) ( η M L E ) A'(\eta_{MLE}) = \frac{1}{N}\sum_{x^{(i)} \in \mathcal X} \phi(x^{(i)}) \\ \eta_{MLE} = A'^{(-1)}(\eta_{MLE}) A′(ηMLE)=N1x(i)∈X∑ϕ(x(i))ηMLE=A′(−1)(ηMLE)

总结

无论是通过概率密度积分角度直接观察 A ′ ( η ) A'(\eta) A′(η)和 ϕ ( x ) \phi(x) ϕ(x)之间关系的方式还是通过极大似然估计方式求解最优模型参数 η M L E \eta_{MLE} ηMLE，都能发现求解 η \eta η最关键的因素就是充分统计量。

这进一步验证了指数族分布中如果已知充分统计量，我们就可以对概率分布进行完整估计。

相关参考：
机器学习-白板推导系列(八)-指数族分布（Exponential Family Distribution）

机器学习笔记之指数族分布——充分统计量与模型参数的关系

机器学习笔记之指数族分布——充分统计量与模型参数的关系

引言

回顾：指数族分布

从概率密度积分角度观察充分统计量与模型参数间的联系

从极大似然估计角度观察充分统计量与模型参数间的联系

总结

[ 申请 ]友情链接：