机器学习

概率图模型

概率图模型,简称图模型,是指用一种用图结构描述多元随机变量之间条件独立关系的概率模型,从而给研究高维空间中的概率模型带来了很大的便捷性。对于一个K维随机变量$X=[X_1,X_2,\cdots,X_K]^T$,其联合概率为高维空间中的分布,一难以直接建模。

在不做任何独立假设条件的情况下,需要$M^K-1$的参数才能表示其概率分布

为什么需要 $M^K - 1$ 个参数?

对于一个 ( $K$) 维离散随机向量 $\mathbf{X} = [X_1, X_2, \cdots, X_K]^T$,假设每个变量 ( $X_i$ ) 有 $M $个可能取值,则联合概率分布需要 $M^K $ 个概率值来完全描述所有可能的取值组合。然而,由于概率分布需要满足归一化约束(所有概率之和为 1),因此只需要 ( $M^K - 1$ ) 个独立参数即可描述整个分布。

为了减少联合概率建模的参数量,首先可以将一个$K$维随机向量$X$的联合概率分解为$K$个条件概率的乘积:
$$
p(x) \triangleq P(X = x)= \prod_{k=1}^K p(x_k|x_1,\cdots,x_{k-1}),
$$
其中$x_k$代表变量$X_k$的取值,如果某些变量之间存在条件独立,其参数量就可以大幅减少。当概率模型中的变量数量比较多时,其条件依赖关系也比较复杂.我们可 以使用图结构的方式将概率模型可视化,以一种直观、简单的方式描述随机变量 之间的条件独立性,并可以将一个复杂的联合概率模型分解为一些简单条件概率模型的组合。

image-20241202134344599

图结构的三个基本问题:(1) 表示问题 (2)学习问题 (3)推断问题。

模型表示

图由一组节点和节点之间的边组成。在概率图模型中,每个节点都表示一 个随机变量(或一组随机变量),边表示这些随机变量之间的概率依赖关系。常见的概率图模型可以分为两类:有向图模型和无向图模型。

image-20241202134803019

有向图模型

有向图模型也称为贝叶斯网络或信念网络,是一类用有向图来描述随机向量概率分布的模型。贝叶斯网络,对于一个$K$维随机向量$X$和一个$K$个节点的有向非循环图$𝐺$,$𝐺$中的每个节点都对应一个随机变量,每个连接$𝑒_{𝑖𝑗}$表示两个随机变量$𝑋𝑖$和$𝑋_𝑗$之间具有非独立的因果关系.令$𝑿{𝜋𝑘}$ 表示变量𝑋𝑘的 所有父节点变量集合,$𝑃(𝑋𝑘|𝑿{𝜋𝑘} )$表示每个随机变量的局部条件概率分布。如果$X$的联合概率分布可 以分解为每个随机变量$𝑋𝑘$的局部条件概率的连乘形式,即
$$
p(\boldsymbol{x}) = \prod
{k=1}^{K} p(x_k|x_{\pi_k}),
$$

这个公式可以由上式中条件概率分布推导出联合概率分布得出。上述的$(G,X)$构成了一个贝叶斯网络。

条件独立性:在贝叶斯网络中,如果两个节点是直接连接的,它们肯定是非条件独立的,是直接因果关系,父节点是因,直接的是果。

如果不是直接连接的,则情况较为复杂如下:

image-20241202140827258

这四种关系分别为:(1) 间接因果关系 (2)间接果因关系 (3)共因关系 (4)共果关系

这四种关系比较抽象,以一个例子来说明:

共因关系是指两个变量($𝑋_1$和$𝑋_3$)都受到同一个变量($𝑋_2$)的影响,其中$𝑋_2$被称为”共同原因”或”共因”。

这种关系有两个重要特征:

  1. 当我们不知道$𝑋_2$的情况时,$𝑋_1$和$𝑋_3$之间会表现出相关性(不独立)
  2. 但当我们知道了$𝑋_2$的值后,$𝑋_1$和$𝑋_3$就变成条件独立的了

举个实际例子:

  • $𝑋_2$是天气(晴/雨)
  • $𝑋_1$是人们带伞的情况
  • $𝑋_3$是地面是否潮湿

如果我们不知道天气情况($𝑋_2$),看到有人带伞($𝑋_1$)就能推测地面可能潮湿($𝑋_3$)。但如果我们已经知道天气情况($𝑋_2$),那么人们是否带伞($𝑋_1$)就与地面是否潮湿($𝑋_3$)没有直接关系了,它们都只是受到天气的影响。

局部马尔科夫性:对于一个更一般的贝叶斯网络,其局部马尔科夫性质为:每个随机变量在给定父节点的情况下,条件独立于它的后代节点。

常见的有向图模型:很多经典的机器学习模型可以使用有向图模型来描述,比如朴素贝叶斯分 类器、隐马尔可夫模型、深度信念网络等。

sigmoid信念网络:为了减少模型参数,可以使用参数化模型来建模有向图模型中的条件概率分布,而sigmoid信念网络是一种简单的参数化模型。sigmoid中的变量取值为${0,1}$,对于变量$X_k$,和它的父节点集合$\pi_k$,其条件概率分布表示为:
$$
p(x_k = 1|\mathbf{x}{\pi_k}, \theta) = \sigma(\theta_0 + \sum{x_i \in \mathbf{x}_{\pi_k}} \theta_i x_i),
$$
其中$\theta$为可以学习的参数,$\sigma$是Logistic函数,假设变量$X_k$的父节点数量为$M$,使用表格的参数为$2^M$而使用sigmoid信念网络只需要$M+1$个参数。值得一提的是,Sigmoid信念网络与Logistic回归模型都采用Logistic函数来计算条件概率.如果假设Sigmoid信念网络中只有一个叶子节点,其所有的父节点之间没有连接,且取值为实数,那么Sigmoid信念网络的网络结构和Logistic回归模型类似。但是,这两个模型的区别在于,Logistic回归模型中的$𝒙$作为一种确定性的参数,而非变量. 因此,Logistic回归模型只建模条件概率$𝑝(𝑦|𝒙)$,是一种判别模型;而Sigmoid信念网络建模联合概率$𝑝(𝒙,𝑦)$,是一 种生成模型.

朴素贝叶斯分类器:其是一种简单的概率分类器,在