学校的概率统计课程没有讲到这一部分的内容,但是又比较重要,因此来填个小坑
PS:参考 概率论与数理统计 第五版 浙大 盛骤 谢式千 潘承毅、Blibili@FunInCode
一、随机过程 1.概念用 T T T表示一无限实数集,我们把依赖于参数 t ∈ T t \in T t∈T的一族随机变量 { X t , t ∈ T } \{X_t, t \in T\} {Xt,t∈T},称为随机过程。
参数集
:把
T
T
T(无限实数集)称为参数集
状态
:通常把
t
∈
T
t \in T
t∈T看作时间,称对
X
t
X_t
Xt的观察值
x
x
x为
t
t
t时过程的状态
状态空间
:随机过程
{
X
t
,
t
∈
T
}
\{X_t, t \in T\}
{Xt,t∈T}所有可能的取的状态全体称为随机过程的状态空间
样本函数/样本曲线
:对
{
X
t
,
t
∈
T
}
\{X_t, t \in T\}
{Xt,t∈T}进行一次实验(即在
T
T
T上进行一次全程观测),得到的一个函数
x
(
t
)
,
t
∈
T
x(t), t \in T
x(t),t∈T,称为样本函数或样本曲线。
随机过程可以看作是多维随机变量的延伸,随机过程与其样本函数的关系和数理统计中总体于样本的关系是类似的。
随机过程可根据其在任一时刻 t t t的状态 X X X,是连续型随机变量或离散型随机变量而分为连续型随机过程或离散型随机过程。随机过程还可以依时间参数分类,当 T T T是有限区间或无限区间时称 X t , t ∈ T {X_t, t\in T} Xt,t∈T为连续参数随机过程。对于连续参数随机过程我们常用记号 X ( t ) = X X(t) = X X(t)=X来表示其对参数 t t t的函数依赖关系。当 T T T为离散型随机变量的时候称之为离散参数随机过程或时间序列。
2.随机过程的统计描述 (一)、随机过程的分布函数族给定随机过程 { X ( t ) , t ∈ T } \{X(t), t \in T\} {X(t),t∈T},对于每一个固定的的 t t t,随机变量 X ( t ) X(t) X(t)的随机分布函数一般与 t t t有关,记为: F X ( x ; t ) = P ( X ( t ) ≤ x ) , x ∈ R F_X(x;t) = P(X(t) \leq x), x \in R FX(x;t)=P(X(t)≤x),x∈R 称为随机过程 { X ( t ) , t ∈ T } \{X(t), t\in T\} {X(t),t∈T}的一维分布函数,而 F X ( x ; t ) , t ∈ T F_X(x;t), t \in T FX(x;t),t∈T称为一维分布函数族。
一维分布函数族刻画了随机过程在各个个别时刻的统计特性,为了描述随机过程在不同时刻状态之间的统计联系,一般可以对 ∀ n ( n = 2 , 3 , … ) \forall n (n = 2,3,\dots) ∀n(n=2,3,…)个不同时刻 t 1 , t 2 , … , t n ∈ T t_1, t_2, \dots , t_n \in T t1,t2,…,tn∈T引入随机变量 ( X ( t 1 ) , X ( t 2 ) , … , X ( t n ) ) (X(t_1), X(t_2), \dots , X(t_n)) (X(t1),X(t2),…,X(tn)),它的分布函数记为: F ( x 1 , x 2 , … , x n ; t 1 , t 2 , … , t n ) = P { X ( t 1 ) ≤ x 1 , X ( t 2 ) ≤ x 2 , … , X ( t n ) ≤ x n } , x i ∈ R , i = 1 , 2 , … , n . F(x_1, x_2, \dots, x_n; t_1, t_2, \dots, t_n) = P\{X(t_1) \leq x_1, X(t_2) \leq x_2, \dots, X(t_n) \leq x_n\}, x_i \in R, i = 1, 2, \dots, n. F(x1,x2,…,xn;t1,t2,…,tn)=P{X(t1)≤x1,X(t2)≤x2,…,X(tn)≤xn},xi∈R,i=1,2,…,n. 对于固定的 n n n,称 { F ( x 1 , x 2 , … , x n ; t 1 , t 2 , … , t n ) ; t 1 ∈ T } \{F(x_1, x_2, \dots, x_n; t_1, t_2, \dots, t_n);t_1 \in T\} {F(x1,x2,…,xn;t1,t2,…,tn);t1∈T}为随机过程 { X ( t ) , t ∈ T } \{X(t), t \in T\} {X(t),t∈T}的 n n n维分布函数族。
当 n n n充分大的时候, n n n维分布函数族能够近似的描述随机过程的统计特性,显然 n n n取得越大,则 n n n维分布函数描述随机过程的统计特性也越趋完善。
(二)、随机规程的数字特征在实际的应用中,单纯的通过观察难以确定随机过程的有限维分布函数族,因此需要引入随机过程的的数字特征
均值函数
:对于给定的随机过程
{
X
(
t
)
,
t
∈
T
}
\{X(t) , t \in T\}
{X(t),t∈T},固定
t
∈
T
,
X
(
t
)
t \in T, X(t)
t∈T,X(t)为一维随机变量,它的均值一般与
t
t
t有关,记作:
μ
x
(
t
)
=
E
[
X
(
t
)
]
\mu_x(t) = E[X(t)]
μx(t)=E[X(t)],称之为随即过程
{
X
(
t
)
,
t
∈
T
}
\{X(t) , t \in T\}
{X(t),t∈T}的均值函数。
均值函数 μ x ( t ) \mu_x(t) μx(t)描述了随机过程 X ( t ) X(t) X(t)在各个时刻 t t t的摆动中心
均方值函数/方差函数
、标准差函数:将随机变量
X
(
t
)
X(t)
X(t)的二阶原点矩和二阶中心距分别记为
ψ
X
2
(
t
)
=
E
[
X
2
(
t
)
]
\psi^2_X(t) = E[X^2(t)]
ψX2(t)=E[X2(t)]和
σ
X
2
(
t
)
=
D
X
(
t
)
=
V
a
r
[
X
(
t
)
]
=
E
{
[
X
(
t
)
−
μ
X
(
t
)
]
2
}
\sigma^2_X(t) = D_X(t) = Var[X(t)] = E\{[X(t) - \mu_X(t)]^2\}
σX2(t)=DX(t)=Var[X(t)]=E{[X(t)−μX(t)]2},并分别称之为随机过程
{
X
(
t
)
,
t
∈
T
}
\{X(t) , t \in T\}
{X(t),t∈T}的均方值函数和方差函数,方差函数的平方根
σ
X
(
t
)
\sigma_X(t)
σX(t)称为随机过程的标准差函数
标准差函数反映了随机过程 X ( t ) X(t) X(t)在时刻 t t t对于均值函数 μ X ( t ) \mu_X(t) μX(t)的平均偏离程度。
自相关系数/相关函数
:对于
∀
t
1
,
t
2
∈
T
\forall t_1,t_2 \in T
∀t1,t2∈T,将随机变量
X
(
t
1
)
X(t_1)
X(t1)和
X
(
t
2
)
X(t_2)
X(t2)的二阶混合原点矩记作
R
X
X
(
t
1
,
t
2
)
=
E
(
X
(
t
1
)
X
(
t
2
)
)
R_{XX}(t_1, t_2) = E(X(t_1)X(t_2))
RXX(t1,t2)=E(X(t1)X(t2)),并称之为随机过程
{
X
(
t
)
,
t
∈
T
}
\{X(t), t \in T\}
{X(t),t∈T}的自相关系数,简称相关系数。
自协方差函数/协方差函数
:对于
∀
t
1
,
t
2
∈
T
\forall t_1,t_2 \in T
∀t1,t2∈T,将随机变量
X
(
t
1
)
X(t_1)
X(t1)和
X
(
t
2
)
X(t_2)
X(t2)的二阶混合中心矩记作
C
X
X
(
t
1
,
t
2
)
=
C
o
v
[
X
(
t
1
)
,
X
(
t
2
)
]
=
E
{
[
X
(
t
1
)
−
μ
X
(
t
1
)
]
[
X
(
t
2
)
−
μ
X
(
t
2
)
]
}
C_{XX}(t_1, t_2)=Cov[X(t_1), X(t_2)] = E\{[X(t_1) - \mu_X(t_1)][X(t_2) - \mu_X(t_2)]\}
CXX(t1,t2)=Cov[X(t1),X(t2)]=E{[X(t1)−μX(t1)][X(t2)−μX(t2)]},并称之为随机过程
{
X
(
t
)
,
t
∈
T
}
\{X(t), t \in T\}
{X(t),t∈T}的自协方差系数,简称协方差系数。
运算关系
:
σ
X
2
(
t
)
=
C
X
X
(
t
,
t
)
=
R
X
X
(
t
,
t
)
−
μ
X
2
(
t
)
\sigma^2_X(t) = C_{XX}(t, t) = R_{XX}(t, t) - \mu^2_X(t)
σX2(t)=CXX(t,t)=RXX(t,t)−μX2(t)
正态过程
:当随机过程
{
X
(
t
)
,
t
∈
T
}
\{X(t), t \in T\}
{X(t),t∈T}的每一个有限维分布都是正态分布,即对于
∀
\forall
∀正整数
n
≥
1
n \geq 1
n≥1以及
∀
t
1
,
t
2
,
…
,
t
n
∈
T
,
(
X
(
t
1
)
,
X
(
t
2
)
,
…
,
X
(
t
n
)
)
\forall t_1, t_2, \dots, t_n \in T, (X(t_1), X(t_2),\dots, X(t_n))
∀t1,t2,…,tn∈T,(X(t1),X(t2),…,X(tn))服从
n
n
n维正态分布,则称该随机过程为正态过程。
对于一个由 N N N步构成的随机过程,每一步的结构仅与上一步有关,与之后的步骤、上一步之前的过程均无关,那么该过程即为马尔可夫过程,一般称为马尔科夫链。
马尔科夫链具有三个核心要素:
- 状态空间(States Space)
- 无记忆性(Memorylessness) ( P ( X ∣ X t − 1 , X t − 1 = 2 , … ) = P ( X ∣ X t − 1 ) P(X|X_{t - 1},X_{t - 1=2},\dots) = P(X|X_{t - 1}) P(X∣Xt−1,Xt−1=2,…)=P(X∣Xt−1))
- 转移矩阵(Transition Matrix)
我们以一个简单的例子来进行分析说明:假设有两个选择 A A A、 B B B,遵从以下关系:
设 A t − 1 A_{t - 1} At−1、 B t − 1 B_{t - 1} Bt−1为当前状态的前一个状态, A t A_t At、 B t B_t Bt为当前状态的前一个状态,那么可以列出状态转移矩阵:
A t − 1 B t − 1 A t 0.4 0.5 B t 0.6 0.5 \begin{matrix} & A_{t - 1} & B_{t - 1}\\ A_t & 0.4 & 0.5\\ B_t & 0.6 & 0.5 \end{matrix} AtBtAt−10.40.6Bt−10.50.5
实际上,一般将状态转移矩阵直接写为:
[ 0.4 0.5 0.6 0.5 ] \begin{bmatrix} 0.4 & 0.5\\ 0.6 & 0.5 \end{bmatrix} [0.40.60.50.5]
当我们进行状态概率分布推演的时候,假设前一个状态(假设为初始状态)选择 A A A,则将当前的状态概率分布记作:
[ 1 0 ] T \begin{bmatrix} 1 & 0\\ \end{bmatrix}^T [10]T
将其与状态转移矩阵相乘,得到当前状态(初始状态的下一个状态)为:
[ 0.4 0.5 0.6 0.5 ] × [ 1 0 ] T = [ 0.4 0.6 ] T \begin{bmatrix} 0.4 & 0.5\\ 0.6 & 0.5 \end{bmatrix} \times \begin{bmatrix} 1 & 0\\ \end{bmatrix}^T= \begin{bmatrix} 0.4 & 0.6\\ \end{bmatrix}^T [0.40.60.50.5]×[10]T=[0.40.6]T
相似的,我们继续左乘状态转移矩阵,可得:
[ 0.4 0.5 0.6 0.5 ] 2 × [ 1 0 ] T = [ 0.46 0.54 ] T \begin{bmatrix} 0.4 & 0.5\\ 0.6 & 0.5 \end{bmatrix}^2 \times \begin{bmatrix} 1 & 0\\ \end{bmatrix}^T= \begin{bmatrix} 0.46 & 0.54\\ \end{bmatrix}^T [0.40.60.50.5]2×[10]T=[0.460.54]T
如果我们反复进行状态推演,可以发现,在经过有限次矩阵左乘后,结果将不再发生改变,即:
[ 0.4 0.5 0.6 0.5 ] n × [ 1 0 ] T = [ 0.454545 0.545455 ] T \begin{bmatrix} 0.4 & 0.5\\ 0.6 & 0.5 \end{bmatrix}^n \times \begin{bmatrix} 1 & 0\\ \end{bmatrix}^T= \begin{bmatrix} 0.454545 & 0.545455\\ \end{bmatrix}^T [0.40.60.50.5]n×[10]T=[0.4545450.545455]T
我们再设初始状态选择 B B B,进行如上的状态推演,可以得到:
[ 0.4 0.5 0.6 0.5 ] n × [ 0 1 ] T = [ 0.454545 0.545455 ] T \begin{bmatrix} 0.4 & 0.5\\ 0.6 & 0.5 \end{bmatrix}^n \times \begin{bmatrix} 0 & 1\\ \end{bmatrix}^T= \begin{bmatrix} 0.454545 & 0.545455\\ \end{bmatrix}^T [0.40.60.50.5]n×[01]T=[0.4545450.545455]T
容易发现:初始选择 A A A或 B B B,最终的状态概率分布式相同的。
此时的状态概率分布即为稳态分布(Steady state distribution),且在该例子中,稳态分布是唯一的。
同时我们发现:马尔可夫链模型的状态转移矩阵收敛到的稳定概率分布与初始状态概率分布无关。
(2).稳态推导不难发现,设转移矩阵为 M M M,则马尔可夫链的稳态分布满足: M × X = X M \times X = X M×X=X 那么我们可以通过变换: ( M − E ) × X = 0 (M - E) \times X = 0 (M−E)×X=0 然后只需要求解 X X X便可得到稳态分布。
(3).遍历性、稳态唯一性问题但实际上,并不是所有马尔可夫链都具有唯一的稳态分布,比如如下所示的过程:
不同的初始状态可以导致不同的稳态: A 1 = [ 0 1 0 ] T → [ 0 1 0 ] T A 2 = [ 0 0 1 ] T → [ 0 0 1 ] T A_1=\begin{bmatrix} 0 & 1 & 0\\ \end{bmatrix}^T \rightarrow \begin{bmatrix} 0 & 1 & 0\\ \end{bmatrix}^T\\ A_2 = \begin{bmatrix} 0 & 0 & 1\\ \end{bmatrix}^T \rightarrow \begin{bmatrix} 0 & 0 & 1\\ \end{bmatrix}^T A1=[010]T→[010]TA2=[001]T→[001]T 那么马尔科夫链的稳态分布在何种情况下唯一呢?首先需要引入马尔可夫链的遍历性
如果马尔可夫链的全部状态节点满足以下三条件:
- 常返性:如果从某个节点 X X X出发,在一定条件下通过有限次状态转移能够返回 X X X,那么称节点 X X X具有常返性
- 非周期性:马尔科夫链中的某一状态节点,可以经过KaTeX parse error: Undefined control sequence: \and at position 18: …\times N(N > 0 \̲a̲n̲d̲ ̲K = 2,3,4 \dots…个周期返回原点,那么就称该状态满足周期性。
- 两两联通:状态 A A A和状态 B B B之间具有直接往返路径。
那么该马尔科夫链具有遍历性,且具有唯一的稳态分布。