基于Hadoop的大数据分析和处理 作者:魏祖宽,刘兆宏
基于Hadoop的大数据分析和处理 出版社:电子工业出版社
基于Hadoop的大数据分析和处理 内容简介
本书基于云计算和大数据,介绍大数据处理和分析的技术,分为两部分。第一部分介绍Hadoop基础知识,内容包括:Hadoop的介绍和集群构建、Hadoop的分部式系统架构、MapReduce及其应用、Hadoop的版本特征及进化。第二部分以云计算为主题,详细论述利用Hadoop的大数据分析和处理工具,以及NoSQL技术,内容包括:云计算和Hadoop、*服务中的MapReduce应用、Hadoop应用下的大数据分析、NoSQL、HBase。本书不单纯地讲述理论和概念,而是基于目具体的工具和技术(Hadoop和NoSQL),利用大量实际案例,通过实际的操作和应用来组织大数据处理和分析技术,有利于读者从工程应用的角度进行实际掌握和利用。适合相关专业的本科生、研究生和软件工程师学习。
基于Hadoop的大数据分析和处理 目录
前言
第1章 Hadoop的介绍和集群构建
1.1 Hadoop介绍
1.1.1 云计算和Hadoop
1.1.2 Hadoop的历史
1.2 Hadoop构建案例
1.2.1 欧美构建案例
1.2.2 韩国构建案例
1.3 构建Hadoop集群
1.3.1 分布式文件系统
1.3.2 构建Hadoop集群的准备事项
1.3.3 构建伪分布式
1.3.4 分布式集群(Cluster)构建
1.4 Hadoop分布式文件系统指令
1.5 小 结
第2章 Hadoop分布式处理文件系统
2.1 Hadoop分布式文件系统的设计
2.2 概观Hadoop分布式文件系统的整体构造
2.3 Namenode的角色
2.3.1 元数据管理
2.3.2 元数据的安全保管——Edits和Fslmage文件及Secondary Namenode
2.3.3 Datanode管理
2.4 Datanode的角色
2.4.1 block管理
2.4.2 数据的复制和过程
2.4.3 Datanode添加
2.5 小 结
第3章 大数据和MapReduce
3.1 大数据的概要
3.1.1 大数据的概念
3.1.2 大数据的价值创造
3.2 MapReduce
3.2.1 MapReduce 示例:词频统计(Word Count)
3.2.2 MapReduce开源代码:词频统计(Word Count)——Java基础
3.2.3 MapReduce 开源代码:词频统计(Word Count)——Ruby语言基础
3.3 MapReduce的结构
3.3.1 通过案例了解MapReduce结构
3.3.2 从结构性角度进行的MapReduce最优化方案
3.4 MapReduce的容错性(Fault Tolerance)
3.5 MapReduce的编程
3.5.1 搜索
3.5.2 排序
3.5.3 倒排索引
3.5.4 查找热门词
3.5.5 合算数字
3.6 构建Hadoop:通过MapReduce的案例介绍
3.6.1 单词频率统计MapReduce的编程
3.6.2 MapReduce—用户界面
3.7 小 结
第4章 Hadoop版本特征及进化
4.1 Hadoop 0.1x版本的API
4.2 Hadoop附加功能(append)
4.3 Hadoop安全相关功能
4.4 Hadoop 2.0.0 alpha
4.4.1 安装Hadoop 2.0.0
4.4.2 Hadoop分布式文件系统的更改
4.4.3 跨时代MapReduce框架:YARN
4.5 小 结
第5章 云计算和Hadoop
5.1 大规模Hadoop集群的构建和案例
5.2 云基础设施服务的登场
5.2.1 Amazon云服务
5.3 在Amazon EC2中构建Hadoop集群
5.3.1 Apache Whirr
5.3.2 构建Hadoop 集群
5.4 小 结
第6章 Amazon Elastic MapReduce的倍增利用
6.1 Amazon EMR的活用
6.1.1 Amazon EMR的概念
6.1.2 Amazon EMR的构造
6.1.3 Amazon EMR的特征
6.1.4 Amazon EMR的 Job Flow和Step
6.1.5 使用Amazon EMR前需要了解的事项
6.1.6 Amazon EMR的实战运用
6.2 小 结
第7章 Hadoop应用下的大数据分析
7.1 Hadoop应用下的机器学习(Mahout)
7.1.1 设置及编译
7.1.2 K-means 聚类算法
7.1.3 基于矢量相似度的协同过滤
7.1.4 小结
7.2 基于Hadoop的统计分析Rhive(R and Hive)
7.2.1 R的设置及灵活运用
7.2.2 Hive的设置及灵活运用
7.2.3 RHive的设置及灵活运用
7.2.4 小结
7.3 利用Hadoop的图形数据处理Giraph
7.4 小 结
第8章 数据中的DBMS,NoSQL
8.1 NoSQL出现背景:大数据和Web 2.0
8.1.1 基于Web 2.0的大数据的登场
8.1.2 基于大数据的NoSQL的登场
8.1.3 适合大数据和Web 2.0的数据库NoSQL
8.2 NoSQL的定义和类别特征
8.3 NoSQL数据模型概要和分类
8.4 NoSQL数据模型化
8.4.1 NoSQL数据模型化基本概念
8.4.2 一般的NoSQL建模方法
8.5 主要NoSQL的比较和选择
8.6 小 结
第9章 HBase:Hadoop中的NoSQL
9.1 Hadoop生态界中的HBase
9.2 HBase介绍
9.3 HBase数据模型
9.3.1 map
9.3.2 持续性(persistent)
9.3.3 分布性(distributed)
9.3.4 排序性(sorted)
9.3.5 多维性(multidimensional)
9.3.6 稀疏性(sparse)
9.4 HBase的数据库模式
9.5 HBase构造
9.6 HBase的构建及运行
9.7 HBase的扩展——DuoBase中的HBase
9.8 HBase的用户定义索引
9.8.1 HBase用户定义索引——HFile格式的扩展
9.8.2 HBase用户定义索引——Region的扩展
9.9 小 结
基于Hadoop的大数据分析和处理 精彩文摘
Hadoop 是通过开源代码形式提供的软件平台产品。Hadoop 在近来的许多开放源码项目中受到了广泛关注,它跟开源代码的代表产品 Linux 一样,虽然历史由来并不长,但在近期产生的云计算生态界中,大家尤其对它的必要性产生了关注,并被使用到了很多企业中。这里将介绍云计算和 Hadoop的使用,以及Hadoop 的历史。
本文来自夜遇投稿,不代表电子书资源网立场,如若转载,请联系原作者获取。