模式识别与机器学习
马春鹏
October 26 2014
目录
绪论 91.1 例子:多项式曲线拟合 101.2 概率论 1.2.1 概率密度 16 201.2.2 期望和协方差 211.2.3 1.2.4 贝叶斯概率 高斯分布 22 241.2.5 重新考察曲线拟合问题 261.3 模型选择 1.2.6 贝叶斯曲线拟合 28 291.4 维度灾难 301.5 决策论 1.5.1 最小化错误分类率 33 341.5.2 最小化期望损失 351.5.3 1.5.4 拒绝选项 推断和决策 35 361.5.5 回归问题的损失函数 381.6 信息论 相对和互信息 391.7 练习 1.6.1 46 44
2概率分布 52
2.3.1 条件高斯分布2.3.2 边缘高斯分布 63 652.3.4 2.3.3 高斯变量的贝叶斯定理 高斯分布的最大似然估计 672.3.5 顺序估计 69 692.3.6 2.3.7 高斯分布的贝叶斯推断 学生t分布 71 752.3.8 周期变量 772.3.9 混合高斯模型 81
2.4.1 最大似然与充分统计量 862.4.2 共轭先验 872.4.3 无信息先验 87
3回归的线性模型 101
3.1 线性基函数模型 101
3.1.1 最大似然与最小平方 1023.1.2 3.1.3 最小平方的几何描述 顺序学习 105 105
3.1.4 正则化最小平方 1053.2 3.1.5 偏置-方差分解 多个输出 106 1083.3 贝叶斯线性回归 1113.3.1 3.3.2 预测分布 参数分布 111 1133.3.3 等价核 1163.4 证据近似 贝叶斯模型比较 1183.5 3.5.1 计算证据函数 121 1213.5.2 最大化证据函数 参数的有效数量 1233.6 固定基函数的局限性 3.5.3 126 1243.7 练习 126
4分类的线性模型 130
4.1.1 二分类 1314.1.2 多分类 1324.1.3 Fisher线性判别函数 用于分类的最小平方方法 133 1354.1.4 4.1.5 与最小平方的关系 1374.1.6 多分类的Fisher判别函数 1384.1.7 感知器算法 139
4.2.1 连续输入 1434.2.2 4.2.3 最大似然解 离散特征 144 1464.2.4 指数族分布 146
4.3.1 固定基函数 1474.3.2 logistic回归 1484.3.3 4.3.4 选代重加权最小平方 多类logistic回归 149 1504.3.5 probit国归 1514.3.6 标准链接函数 152
神经网络 161
5.1 前馈神经网络 5.1.1 权空间对称性 161 1655.2 网络训练 1655.2.1 5.2.2 参数最优化 局部二次近似 168 1695.2.3 使用梯度信息5.3误差反向传播 5.2.4 梯度下降最优化 170 171
170
5.3.1 误差函数导数的计算 1725.3.2 5.3.3 反向传播的效率 一个简单的例子 174 1755.3.4 Jacobian矩阵 175
5.4.1 对角近似 1775.4.2 外积近似 1785.4.3 5.4.4 Hessian矩阵的逆矩阵 有限差 178 1795.4.5 Hessian矩阵的精确计算 1795.4.6 Hessian矩阵的快速乘法 180
5.5 神经网络的正则化 182
5.5.1 相容的高斯先验 1835.5.2 早停止. 1855.5.4 5.5.3 切线传播 不变性 186 1875.5.5 用变换后的数据训练 1895.5.6 5.5.7 软权值共享, 卷积神经网络 190 191
5.7.1 后验参数分布 1985.7.2 超参数最优化 1995.7.3 用于分类的贝叶斯神经网络 200
5.8 练习 202
6核方法
206
6.1 对偶表示, 2066.2 构造核 2076.3 径向基函数网络 6.3.1 Nadaraya-Watson模型 212 2116.4 高斯过程 2146.4.1 6.4.2 用于回归的高斯过程 重新考虑线性回归问题 214 2166.4.3 学习超参数 2196.4.4 6.4.5 用于分类的高斯过程 自动相关性确定 221 2206.4.6 拉普拉斯近似 2226.5练习 6.4.7 与神经网络的联系 225 225
7.1 最大边缘分类器 228
7.1.1 重叠类分布 2317.1.2 7.1.3 与logistic回归的关系 多类SVM 235 2367.1.4 回归间题的SVM 2377.1.5 计算学习理论 240
7.2 相关向量机 241
7.2.1 用于回归的RVM 2417.2.2 7.2.3 稀疏性分析 RVM用于分类 244 247
7.3练习 249
8.1.2 8.1.1 例子:多项式回归, 生成式模型 253 2558.1.3 离散变量 2558.1.4 线性高斯模型 257
8.2.1 图的三个例子 2608.2.2 d-划分 264
8.3 马尔科夫随机场 266
8.3.1 条件独立性质 2678.3.2 8.3.3 分解性质 例子:图像去噪 269 2688.3.4 与有向图的关系 271
图模型中的推断 274
8.4.1 链推断. 2748.4.2 树 2778.4.3 因子图 2778.4.5 8.4.4 最大加和算法 加和-乘积算法 279 2858.4.6 般图的精确推断 2898.4.7 8.4.8 学习图结构、 循环置信传播 289 290练习
9混合模型和EM 293
9.1 K均值聚类 9.1.1 图像分割与压缩 296 2939.2 混合高斯 2979.2.1 9.2.2 用于高斯混合模型的EM 最大似然 2989.3 EM的另 种观点 300 3039.3.1 9.3.2 重新考察高斯混合模型 与K均值的关系 305 3049.3.3 伯努利分布的混合 3069.3.4 贝叶斯线性回归的EM算法 3099.4 9.5 练习 一般形式的EM算法 310 313
10近似推断 316