摘要
适读人群 :希望提升自身的数据挖掘从业人员;统计专业、计算机科学与信息相关专业的学生;对R有兴趣、希望全面了解R的人;没有编程经验或没有统计基础,但想要尽快入门的数据分析师等。
全面介绍了来自统计分析、机器学习、人工智能等领域的多种数据分析算法,在讲解与之相关的 R代码时,还讨论了这些算法的原理、优缺点与适用背景。本书按照由易到难的原则组织章节主题,读者将获得*好的阅读体验。
R语言与大数据编程实战 作者:李倩星
R语言与大数据编程实战 出版社: 电子工业出版社
R语言与大数据编程实战 内容简介
本书是一本R语言入门读物,它旨在帮助读者迅速构建起与数据分析相关的知识体系,并学习如何使用R软件实现数据分析方法。无论有无编程基础或数学基础,本书都能帮助读者成长为一名合格的数据分析师。本书全面介绍了来自统计分析、机器学习、人工智能等领域的多种数据分析算法,在讲解与之相关的R代码时,还讨论了这些算法的原理、优缺点与适用背景。本书按照由易到难的原则组织章节主题,读者将获得*好的阅读体验。通过阅读本书,读者将对R语言在数据分析领域的应用有一个全面的认识。这种认识不被特定行业所局限,任何行业的读者都能利用本书介绍的数据分析方法解决本行业的数据分析问题。
R语言与大数据编程实战 目录
前言
第1章 R的基本介绍
1.1 强大的R
1.2 R语言在大数据中的应用
1.3 R的安装与启动
1.4 R的向量、矩阵和数组
1.5 R的列表和数据框
1.6 R数据文件的载入和载出
1.7 向R中安装包
第2章 原始数据的探索与预处理
2.1 度量数据集的集中程度
2.2 度量数据集的分散程度
2.3 创建一个数值摘要表
2.4 异常值的观测与说明
2.5 缺失值的填补与处理
第3章 R的数据可视化
3.1 plot()函数和常用的图形参数
3.2 经典的基础图形及用途
3.3 将图形组合起来
3.4 更多的高水平作图函数
3.5 更多的常用作图命令
第4章 R中参数的估计和检验
4.1 使用R进行点估计和区间估计
4.2 与正态总体有关的参数检验
4.3 列联表与独立性检验
4.4 几种检验数据分布的函数
4.5 对非正态总体的区间估计和检验
第5章 R中的方差分析
5.1 方差分析模型的建立
5.2 单因素方差分析
5.3 多因素方差分析
5.4 秩检验和协方差分析
第6章 R中的相关分析和回归分析
6.1 多种相关系数的度量和分析
6.2 线性回归分析及其常规参数
6.3 使用逐步回归筛选自变量
6.4 哑变量和逻辑回归
第7章 更高级的数据可视化
7.1 基础图形的拓展与延伸
7.2 有关多元分布函数的特殊图形
7.3 建立最简单的3D图形
7.4 如何让图形更美观
7.5 更多的绘图包和系统
第8章 R中的聚类分析和判别分析
8.1 几种聚类分析的异同
8.2 使用R实现KNN聚类
8.3 使用R实现系统聚类
8.4 使用R实现快速聚类
8.5 几种判别分析模型综述
第9章 R中的主成分分析和因子分析
9.1 主成分分析的实现与应用
9.2 因子分析的初次构建与完善
9.3 对因子分析模型进行修正
9.4 在降维分析的基础上进行回归分析和聚类分析
第10章 R中的广义线性回归模型
10.1 一般的广义线性回归模型
10.2 Logistic线性回归模型
10.3 泊松回归分析模型
10.4 广义线性模型的交叉验证
第11章 R中的时间序列模型
11.1 将数据转换为时间序列格式
11.2 分解时间序列并检验时间序列的自相关性
11.3 探究时间序列的自相关性
11.4 构建时间序列并预测
第12章 R中的最优化问题
12.1 最优化问题简述
12.2 黄金分割法
12.3 牛顿最优化方法
12.4 最快上升法
12.5 R中的最优化函数
第13章 使用R绘制地理信息图形
13.1 绘制世界、国家、省市地图
13.2 向地图中添加颜色
13.3 向地图中添加标签和线条
13.4 使用其他格式的文件优化地图
第14章 使用R构建支持向量机
14.1 构建一个简单的支持向量机
14.2 优化支持向量机的参数
14.3 比较支持向量机与Logistic回归的优劣
14.4 比较支持向量机和KNN聚类算法的优劣
第15章 实现更高效的流程控制和高级循环
15.1 R中的流程控制
15.2 R中的for循环、while循环和repeat循环
15.3 apply家族中的循环函数
15.4 更多的高级循环函数
第16章 R代码的调试与优化
16.1 R代码的常见信息与警告
16.2 R代码中的错误与错误处理方法
16.3 调试R代码
16.4 向量化编程方法
第17章 构建电影评分预测模型
17.1 获取数据并探索
17.2 利用recommenderlab包处理数据
17.3 建立模型并评估
第18章 贝叶斯垃圾邮件过滤器模型
18.1 贝叶斯模型中的条件概率
18.2 复杂的数据预处理过程
18.3 利用occurrece值构造分类器
R语言与大数据编程实战 精彩文摘
作为一门新兴的编程语言,R是如今值得学习的语言。由统计学家开发出的R语言具有许多奇特性质,本章将较为全面地介绍R的特性和用途,并讲解R的安装方法、变量类型、从其他数据源读取数据、程序包等基本知识。本章帮助读者对R形成整体印象,同时本章内容也是后续章节的基石。
R语言脱胎于S语言,是一门专门用于处理数据探索、统计分析等任务的编程语言。它由统计学家开发完成,在数据分析方面具有天然的优势,运行R程序的R软件是如今最流行的统计软件之一。
与其他统计软件相比,R软件最特别的地方在于它是开源的。这同时意味着:第一,R是免费的;第二,R的用户能够自由地参与到R的开发中。R社区将它的忠实用户聚合在一起,这些用户主要由统计学家、计算机学家、数据分析师等组成,不同领域的用户在R社区中交流碰撞,协助R核心团队丰富和完善R的功能。
R的用户之间具有非常紧密的联系,他们最大的贡献是创建了形形色色的程序包,这些程序包分别封装了一些具有特定作用的函数。如今,R软件已经内置了非常丰富的各类函数库,能够满足绝大多数统计人员的各类需求,它的制图功能也远超其他统计软件。
R的另一个特点在于它支持混合型的编程范式。R是一种解释型的语言,当用户在R软件中编写好一条代码后,R会立即执行它。这种做法的好处在于用户可以即时地看到程序的返回结果,在作图时尤其方便。R是一种面向对象的语言,同时它也支持函数式编程,即用户可以在R中调用现成的或自己编写的函数,这一点与C语言较为相似,但R要比C语言更加灵活。
尽管R的优点很突出,但它也同样具有局限之处。首先,R语言的编程原理较为传统,在处理数据时,R需要将数据全部载入内存,这一点极大地影响了R的运行效率,尽管如今的计算机内存做得越来越大,但在有些大规模数据集的处理工作中,R还是会显得不够得力。其次,R软件的保密性不如SAS等统计软件好,这限制了R在大型商业项目中的应用。最后,由于R软件是由统计学家开发的,因此其语法设计并不特别严谨,有时它会出现一些奇怪的错误。
随着大数据时代的到来,R语言正被越来越多的人关注,不仅是统计分析和数据挖掘,一些研究机器学习和模式识别的专家同样关注到R的发展。根据TIOBE提供的编程语言排行榜,R语言的流行程度在近几年内已经飙升至前十名,其火爆程度只有Python才能与其比肩,而同为统计软件的SAS和MATLAB则一直徘徊于二三十名的位置。
R的优点使它广泛地流行于统计人员和中小型商业公司中。Google、百度等互联网巨头则将R语言看作一个沙盘,使用软件验证各种数据模型的可行性,并最终使用其他语言实现。随着R的用户越来越多样化,其可扩展能力进一步强化,能够解决的问题也越来越丰富。如今,金融、医药、教育、社会科学等每一个需要数据分析的领域都需要精通R的人才。
R语言的起源是统计学家为解决数据分析领域问题而开发的语言,所以和MATLAB、Python等可用于数据处理的语言相比,在数据分析处理方面具有一些独特优势,本节将讲述R语言在大数据领域中的典型应用。
近几年,淘宝、京东等几家电商的价格战打得不亦乐乎,而从电商发布的战果来看,几败具伤的价格战已经无法保证电商的利润,他们开始转向利用大数据分析工具对用户行为进行分析,通过对大数据的充分使用和挖掘在商战中获胜。
本文来自早川希奈子投稿,不代表电子书资源网立场,如若转载,请联系原作者获取。