高斯分布与边缘化

Gaussian Distribution and Marginalization

Posted by Jerry Zhao on January 9, 2019

高斯分布的表示

高斯分布有两种表达方式

  • 协方差矩阵+均值
  • 信息矩阵+信息矢量

协方差矩阵+均值的方式比较常见,如下

其中对称正定矩阵为随机变量的协方差矩阵,的均值,简记为

信息矩阵+信息矢量的形式可以由上式推导而来

运算中产生的常数项都全部吸收到了 中.

现在定义信息矩阵,信息矢量,则

可记为

联合高斯分布的分解

设随机变量满足联合高斯分布

由条件概率公式可知

联合高斯函数的分解就是根据求出上式中的

下面根据不同的高斯分布表示形式分别推导。

协方差矩阵+均值

以协方差矩阵+均值的形式给出,即

其密度函数可写为

为了求出的表达式,需要用到舒尔补(Schur Complement),即

将上式带入的概率密度函数,并注意到对任意矩阵,有

可以得到

其中

由此可看出,是均值为,协方差矩阵为的高斯分布,记为

同时,是均值为,协方差矩阵为的高斯分布,记为

信息矩阵+信息矢量

以信息矩阵+信息矢量的形式给出,即

通过信息矢量与信息矩阵,可以计算出该分布的均值

因此该分布的概率密度函数可写为(注意到信息矩阵与协方差矩阵为互逆关系)

为了求出的表达式,需要再次用到舒尔补(Schur Complement),不过作用对象与之前不同,即

将上式带入的密度函数中,并令,可得

由此可见,是一个均值为,协方差矩阵为的高斯分布。

同时是一个均值为,协方差矩阵为的高斯分布。

由于最初的是由信息矩阵+信息矢量表示的,因此我们希望也用同样形式表示,不希望引入额外的均值量。

首先,信息矩阵已经得到,分别为

然后,的均值为,则对应的新的信息矢量为

所以完全使用信息矩阵+信息矢量的形式可记为

同理,的均值为,对应的新的信息矢量为

所以完全使用信息矩阵+信息矢量的形式可以记为

总结对比

已知满足联合高斯分布,用协方差矩阵+均值,以及信息矩阵+信息矢量的方式可分别表示为如下

不同表示方式下,将联合高斯分布的分解为,有下表的结果

概率分布 协方差矩阵+均值 信息矩阵+信息矢量

根据协方差矩阵与信息矩阵的互逆关系,从上表还可以得出如下一组关系

边缘化与条件化

所谓边缘化,就是求某个联合概率分布的边缘分布。比如对于联合概率,对进行边缘化,就是对在整个空间中积分,即

由贝叶斯公式可知

因此,对联合高斯分布而言,对边缘化的结果就是上一节求出的,仍然是一个高斯函数。 伴随着边缘化,就是的条件化。

在信息矩阵+信息矢量的表示方式下,边缘化和条件化与最小二乘法有密切关系。在许多基于最小二乘的优化问题中,常有如下形式的优化目标:

其中的协方差矩阵。

为了寻找上式的最小值,常使用迭代优化的方法,每一次迭代都会寻找一个增量使目标函数减小。为了求增量,往往会将在当前处展开为一阶近似(这种处理方式即Gauss-Newton Method),即

其中。则优化的目标变为:

这是关于的二次函数,对求导,并令导数等于0,有

,表示变量的信息矩阵,令,表示信息矢量,则有

以上就是非线性优化时,每次都要求解的线性方程。

在很多优化问题中,待优化的变量有明确意义,比如在SLAM或者SfM问题中,要优化的是所有相机的位姿以及地图中所有三维点的坐标,设由这两个分量的增量构成,即

同时设

则有

为了简化以上方程的求解,往往使用高斯消元法,具体的,对以上方程等式两边左乘

可得

于是原方程可以转换为两个独立方程

可以发现,的系数矩阵和等号右边的结果,与上文中高斯分布的信息矩阵和信息矢量有相同的形式。而的系数矩阵和等号右边的结果,则与高斯分布的信息矩阵和信息向量有相同形式。

也就是说,这里的高斯消元法,等价于对变量做了边缘化,先将边缘化掉,单独求,然后再在已知的情况下求

Reference

  1. State Estimate for Robotics.
  2. Probabilistic Robotics.