本书首先介绍如何设置基本的数据科学工具箱,然后带你进入数据改写和预处理阶段,这一部分主要是阐明所有与核心数据科学活动相关的数据分析过程,如数据加载、转换、修复以及数据探索和处理等。最后,通过主要的机器学习算法、图形分析技术,以及所有易于表现结果的可视化工具,实现对数据科学的概述。
本书行文过程以数据科学项目为主体,辅以整洁的代码和简化的示例,能帮助你理解与项目相关的潜在原理和实际数据集。
通过阅读本书,你将学到:
使用Windows、Mac和Linux系统上的Python科学环境设置数据科学工具箱
为数据科学项目准备数据
为了解决数据科学问题,进行数据操作、修复和探索
建立实验流程来检验数据科学假设
为数据科学任务选择更有效和可扩展的学习算法
优化机器学习模型,以获得最佳性能
进行图的探索和聚集分析,充分利用数据中的联系和连接
数据科学导论 Python语言实现 内容简介
本书由两位资深数据科学家撰写,融合其多年从事数据科学相关的教学和科研工作经验,借助现有的Python语法和结构知识,全面而系统地讲解进行数据科学分析和开发的相关工具、技术和最佳实践,包含清晰的代码和简化的示例。通过阅读本书,你将深入理解Python核心概念,成为高效数据科学实践者。
本书共6章,系统介绍了进行数据科学分析和开发所涉及的关键要素。书中首先介绍Python软件及相关工具包的安装和使用;接着不仅讲解数据加载、运算和改写等基本数据准备过程,还详细介绍特征选择、维数约简等高级数据操作方法;并且建立了由训练、验证、测试等过程组成的数据科学流程,结合具体示例深入浅出地讲解了多种机器学习算法;然后介绍了基于图模型的社会网络创建、分析和处理方法;最后讲解数据分析结果的可视化及相关工具的使用方法。
数据科学导论 Python语言实现 目录
第1章 新手上路
1.1 数据科学与Python简介
1.2 Python的安装
1.2.1 Python 2还是Python 3
1.2.2 分步安装
1.2.3 Python核心工具包一瞥
1.2.4 工具包的安装
1.2.5 工具包升级
1.3 科学计算发行版
1.3.1 Anaconda
1.3.2 Enthought Canopy
1.3.3 PythonXY
1.3.4 WinPython
1.4 IPython简介
1.4.1 IPython Notebook
1.4.2 本书使用的数据集和代码
1.5 小结
第2章 数据改写
2.1 数据科学过程
2.2 使用pandas进行数据加载与预处理
2.2.1 数据快捷加载
2.2.2 处理问题数据
2.2.3 处理大数据集
2.2.4 访问其他数据格式
2.2.5 数据预处理
2.2.6 数据选择
2.3 使用分类数据和文本数据
2.4 使用NumPy进行数据处理
2.4.1 NumPy中的N维数组
2.4.2 NumPy ndarray对象基础
2.5 创建NumPy数组
2.5.1 从列表到一维数组
2.5.2 控制内存大小
2.5.3 异构列表
2.5.4 从列表到多维数组
2.5.5 改变数组大小
2.5.6 利用NumPy函数生成数组
2.5.7 直接从文件中获得数组
2.5.8 从pandas提取数据
2.6 NumPy快速操作和计算
2.6.1 矩阵运算
2.6.2 NumPy数组切片和索引
2.6.3 NumPy数组堆叠
2.7 小结
第3章 数据科学流程
3.1 EDA简介
3.2 特征创建
3.3 维数约简
3.3.1 协方差矩阵
3.3.2 主成分分析
3.3.3 一种用于大数据的PCA变型——Randomized PCA
3.3.4 潜在因素分析
3.3.5 线性判别分析
3.3.6 潜在语义分析
3.3.7 独立成分分析
3.3.8 核主成分分析
3.3.9 受限玻耳兹曼机
3.4 异常检测和处理
3.4.1 单变量异常检测
3.4.2 EllipticEnvelope
3.4.3 OneClassSVM
3.5 评分函数
3.5.1 多标号分类
3.5.2 二值分类
3.5.3 回归
3.6 测试和验证
3.7 交叉验证
3.7.1 使用交叉验证迭代器
3.7.2 采样和自举方法
3.8 超参数优化
3.8.1 建立自定义评分函数
3.8.2 减少网格搜索时间
3.9 特征选择
3.9.1 单变量选择
3.9.2 递归消除
3.9.3 稳定性选择与基于L1的选择
3.10 小结
第4章 机器学习
4.1 线性和逻辑回归
4.2 朴素贝叶斯
4.3 K近邻
4.4 高级非线性算法
4.4.1 基于SVM的分类算法
4.4.2 基于SVM的回归算法
4.4.3 调整SVM
4.5 组合策略
4.5.1 基于随机样本的粘合策略
4.5.2 基于弱组合的分袋策略
4.5.3 随机子空间和随机分片
4.5.4 模型序列——AdaBoost
4.5.5 梯度树提升
4.5.6 处理大数据
4.6 自然语言处理一瞥
4.6.1 词语分词
4.6.2 词干提取
4.6.3 词性标注
4.6.4 命名实体识别
4.6.5 停止词
4.6.6 一个完整的数据科学示例——文本分类
4.7 无监督学习概述
4.8 小结
第5章 社会网络分析
5.1 图论简介
5.2 图的算法
5.3 图的加载、输出和采样
5.4 小结
第6章 可视化
6.1 matplotlib基础介绍
6.1.1 曲线绘图
6.1.2 绘制分块图
6.1.3 散点图
6.1.4 直方图
6.1.5 柱状图
6.1.6 图像可视化
6.2 pandas的几个图形示例
6.2.1 箱线图与直方图
6.2.2 散点图
6.2.3 平行坐标
6.3 高级数据学习表示
6.3.1 学习曲线
6.3.2 验证曲线
6.3.3 特征重要性
6.3.4 GBT部分依赖关系图
6.4 小结
数据科学导论 Python语言实现 精彩文摘
作为一个新的领域,读者必须考虑到目前数据科学的界定还不足很清晰,并且在不断地变化。由于该领域南多种学科构成,数据科学家各自的专业领域和能力不同,因此对这一领域的描述也不尽相同。
在这种情况下,作为职业数据科学家,什么才会是你高效地学习和使用的行业工具呢?我们相信Python会是最好的工具,本书将向你提供快速使用Python的所有重要信息。
另外,其他的工具如R和MATLAB是数据科学家解决统汁分析和矩阵操作等具体问题的专用工具。然而,只有Python完整包含了数据科学家所需要的技能集合,这种多功能语言适合开发与演示,不管你是什么背景和专业,都很容易学习和掌握。
本文来自罗金艺还行吧投稿,不代表电子书资源网立场,如若转载,请联系原作者获取。