高斯分布的表示
高斯分布有两种表达方式
- 协方差矩阵+均值
- 信息矩阵+信息矢量
协方差矩阵+均值的方式比较常见,如下
其中对称正定矩阵为随机变量的协方差矩阵,为的均值,简记为
信息矩阵+信息矢量的形式可以由上式推导而来
运算中产生的常数项都全部吸收到了 中.
现在定义信息矩阵,信息矢量,则
可记为
联合高斯分布的分解
设随机变量满足联合高斯分布
由条件概率公式可知
联合高斯函数的分解就是根据求出上式中的和。
下面根据不同的高斯分布表示形式分别推导。
协方差矩阵+均值
以协方差矩阵+均值的形式给出,即
其密度函数可写为
为了求出和的表达式,需要用到舒尔补(Schur Complement),即
将上式带入的概率密度函数,并注意到对任意矩阵,有
可以得到
其中。
由此可看出,是均值为,协方差矩阵为的高斯分布,记为
同时,是均值为,协方差矩阵为的高斯分布,记为
信息矩阵+信息矢量
以信息矩阵+信息矢量的形式给出,即
通过信息矢量与信息矩阵,可以计算出该分布的均值
因此该分布的概率密度函数可写为(注意到信息矩阵与协方差矩阵为互逆关系)
为了求出和的表达式,需要再次用到舒尔补(Schur Complement),不过作用对象与之前不同,即
将上式带入的密度函数中,并令,可得
由此可见,是一个均值为,协方差矩阵为的高斯分布。
同时是一个均值为,协方差矩阵为的高斯分布。
由于最初的是由信息矩阵+信息矢量表示的,因此我们希望和也用同样形式表示,不希望引入额外的均值量。
首先,信息矩阵已经得到,分别为和。
然后,的均值为,则对应的新的信息矢量为
所以完全使用信息矩阵+信息矢量的形式可记为
同理,的均值为,对应的新的信息矢量为
所以完全使用信息矩阵+信息矢量的形式可以记为
总结对比
已知满足联合高斯分布,用协方差矩阵+均值,以及信息矩阵+信息矢量的方式可分别表示为如下
不同表示方式下,将联合高斯分布的分解为,有下表的结果
概率分布 | 协方差矩阵+均值 | 信息矩阵+信息矢量 |
---|---|---|
根据协方差矩阵与信息矩阵的互逆关系,从上表还可以得出如下一组关系
边缘化与条件化
所谓边缘化,就是求某个联合概率分布的边缘分布。比如对于联合概率,对进行边缘化,就是对在整个空间中积分,即
由贝叶斯公式可知
因此,对联合高斯分布而言,对边缘化的结果就是上一节求出的,仍然是一个高斯函数。 伴随着边缘化,就是对的条件化。
在信息矩阵+信息矢量的表示方式下,边缘化和条件化与最小二乘法有密切关系。在许多基于最小二乘的优化问题中,常有如下形式的优化目标:
其中是的协方差矩阵。
为了寻找上式的最小值,常使用迭代优化的方法,每一次迭代都会寻找一个增量使目标函数减小。为了求增量,往往会将在当前处展开为一阶近似(这种处理方式即Gauss-Newton Method),即
其中。则优化的目标变为:
这是关于的二次函数,对求导,并令导数等于0,有
即
令,表示变量的信息矩阵,令,表示信息矢量,则有
以上就是非线性优化时,每次都要求解的线性方程。
在很多优化问题中,待优化的变量有明确意义,比如在SLAM或者SfM问题中,要优化的是所有相机的位姿以及地图中所有三维点的坐标,设由这两个分量的增量构成,即
同时设
则有
为了简化以上方程的求解,往往使用高斯消元法,具体的,对以上方程等式两边左乘
可得
于是原方程可以转换为两个独立方程
可以发现,的系数矩阵和等号右边的结果,与上文中高斯分布的信息矩阵和信息矢量有相同的形式。而的系数矩阵和等号右边的结果,则与高斯分布的信息矩阵和信息向量有相同形式。
也就是说,这里的高斯消元法,等价于对变量做了边缘化,先将边缘化掉,单独求,然后再在已知的情况下求。
Reference
- State Estimate for Robotics.
- Probabilistic Robotics.