预测分析 R语言实现 内容简介
R提供了一个免费、开源的环境,这对于学习预测建模以及在真实环境下部署解决方案是很理想的。随着不断增长的社区和大量扩展包的出现,R提供了一个应对一系列问题的切实解决方案。本书可以作为学习预测建模基础知识的指南和参考读物。本书的开篇是关于模型术语和预测建模过程的一个专门章节。后续的每个章节会讲解具体的一类模型(例如神经网络),并把重点放在三个重要问题上:模型如何工作,如何利用R语言训练模型,以及如何利用实际环境下的数据集来衡量和评估模型的性能。通过阅读本书,读者将利用实际环境下的数据集探讨和测试流行的建模技术,并掌握多种预测分析领域的技术。
预测分析 R语言实现 目录
第1章 准备预测建模
1.1 模型
1.1.1 从数据中学习
1.1.2 模型的核心组成部分
1.1.3 我们的第一个模型:k近邻
1.2 模型的类型
1.2.1 有监督、无监督、半监督和强化学习模型
1.2.2 参数化和非参数化模型
1.2.3 回归和分类模型
1.2.4 实时和批处理机器学习模型
1.3 预测建模的过程
1.3.1 定义模型的目标
1.3.2 收集数据
1.3.3 选取模型
1.3.4 数据的预处理
1.3.5 特征工程和降维
1.3.6 训练和评估模型
1.3.7 重复尝试不同模型及模型的最终选择
1.3.8 部署模型
1.4 性能衡量指标
1.4.1 评估回归模型
1.4.2 评估分类模型
1.5 小结
第2章 线性回归
2.1 线性回归入门
2.2 简单线性回归
2.3 多元线性回归
2.3.1 预测CPU性能
2.3.2 预测二手汽车的价格
2.4 评估线性回归模型
2.4.1 残差分析
2.4.2 线性回归的显著性检验
2.4.3 线性回归的性能衡量指标
2.4.4 比较不同的回归模型
2.4.5 在测试集上的性能
2.5 线性回归的问题
2.5.1 多重共线性
2.5.2 离群值
2.6 特征选择
2.7 正则化
2.7.1 岭回归
2.7.2 最小绝对值收缩和选择算子
2.7.3 在R语言里实现正则化
2.8 小结
第3章 逻辑回归
3.1 利用线性回归进行分类
3.2 逻辑回归入门
3.2.1 广义线性模型
3.2.2 解释逻辑回归中的系数
3.2.3 逻辑回归的假设
3.2.4 最大似然估计
3.3 预测心脏病
3.4 评估逻辑回归模型
3.4.1 模型的偏差
3.4.2 测试集的性能
3.5 利用lasso进行正则化
3.6 分类指标
3.7 二元逻辑分类器的扩展
3.7.1 多元逻辑回归
3.7.2 有序逻辑回归
3.8 小结
第4章 神经网络
4.1 生物神经元
4.2 人工神经元
4.3 随机梯度下降
4.3.1 梯度下降和局部极小值
4.3.2 感知器算法
4.3.3 线性分离
4.3.4 逻辑神经元
4.4 多层感知器网络
4.5 预测建筑物的能源效率
4.6 重新进行玻璃类型预测
4.7 预测手写数字
4.8 小结
第5章 支持向量机
5.1 最大边缘分类
5.2 支持向量分类
5.3 核和支持向量机
5.4 预测化学品的生物降解
5.5 交叉验证
5.6 预测信用评分
5.7 用支持向量机进行多类别分类
5.8 小结
第6章 树形方法
6.1 树形模型的直观印象
6.2 训练决策树的算法
6.2.1 分类和回归树
6.2.2 回归模型树
6.2.3 CART分类树
6.2.4 C5.0
6.3 在合成的二维数据上预测类别归属关系
6.4 预测纸币的真实性
6.5 预测复杂的技能学习
6.5.1 在CART树里对模型参数进行调优
6.5.2 树模型中的变量重要性
6.5.3 回归模型树实用示例
6.6 小结
第7章 集成方法
7.1 装袋
7.1.1 边缘和袋外观测数据
7.1.2 用装袋预测复杂技能学习
7.1.3 用装袋预测心脏病
7.1.4 装袋的局限性
7.2 增强
7.3 预测大气中伽马射线的辐射
7.4 利用增强算法预测复杂技能学习
7.5 随机森林
7.6 小结
第8章 概率图模型
8.1 图论入门
8.2 贝叶斯定理
8.3 条件性独立
8.4 贝叶斯网络
8.5 朴素贝叶斯分类器
8.6 隐马尔可夫模型
8.7 预测启动子基因序列
8.8 预测英语单词里的字母特征
8.9 小结
第9章 时间序列分析
9.1 时间序列的基本概念
9.2 一些基本的时间序列
9.2.1 白噪声
9.2.2 随机漫步
9.3 平稳性
9.4 平稳时间序列模型
9.4.1 移动平均模型
9.4.2 自回归模型
9.4.3 自回归移动平均模型
9.5 非平稳时间序列模型
9.5.1 整合自回归移动平均模型
9.5.2 自回归条件异方差模型
9.5.3 广义自回归条件异方差模型
9.6 预测强烈地震
9.7 预测猞猁的诱捕
9.8 预测外汇汇率
9.9 其他时间序列模型
9.10 小结
第10章 主题建模
10.1 主题建模概况
10.2 隐含狄式分布
10.2.1 狄式分布
10.2.2 生成过程
10.2.3 拟合LDA模型
10.3 对在线新闻报道的主题进行建模
10.3.1 模型稳定性
10.3.2 找出主题数量
10.3.3 主题分布
10.3.4 单词分布
10.3.5 LDA扩展模型
10.4 小结
第11章 推荐系统
11.1 评分矩阵
11.2 协同过滤
11.2.1 基于用户的协同过滤
11.2.2 基于商品的协同过滤
11.3 奇异值分解
11.4 R语言和大数据
11.5 预测电影和笑话的推荐
11.6 加载和预处理数据
11.7 对数据进行探索
11.7.1 评估二元的top-N推荐
11.7.2 评估非二元的top-N推荐
11.7.3 评估每种预测方法
11.8 推荐系统的其他方法
11.9 小结
附录
预测分析 R语言实现 精彩文摘
7.5 随机森林
本章我们要讨论的最后一个集成模型是树形模型独有的,它被称为随机森林(random forest)。简而言之,随机森林背后的思想来源于对装袋树的观察。让我们假设特征和目标变量之间的真实关系可以用一个树结构来充分描述。这样很有可能在用适当大小的自助样本进行装袋的过程中,我们在树的上层分裂时总是会挑出相同的特征。
例如。在Skillcraft数据集里,我们预期会看到APM在大部分装袋树顶端被选中作为特征。这是树的相关性的一种形式,它实际上会阻碍我们从装袋中获得方差缩减这个优点的能力。换言之,我们构建的不同树形模型并非真正相互独立,因为它们会具有很多共同的特征和分裂点。结果,最后的取均值过程对于减少集成方差方面也不会那么有效。
为了抵消这个效应,随机森林算法在树的构建过程中引入了一个随机元素。就像装袋一样,随机森林也会用自助样本构建一些树,并使用它们预测结果的均值来形成集成的预测结果。不过,当我们构建单个树时,随机森林算法是具有一个约束条件的。
在树中的每个节点,我们会从输入特征的总数里抽取一个大小为mtry的随机样本。在普通树的构建中,我们在每个节点会考虑所有特征来确定对哪一个进行分裂,而对于随机森林,我们只考虑来自为该节点创建的样本中的特征。我们通常可以采用一个相对较小的mtry值。
本文来自心已碎♂无心醉投稿,不代表电子书资源网立场,如若转载,请联系原作者获取。