摘要
本书适合HBase的初学者,欲深入了解HBase配置、部署、优化和二次开发的软件工程师,以及任何对云计算或者NoSQL相关技术感兴趣的读者。
HBase不睡觉书 作者:杨曦
HBase不睡觉书 出版社:清华大学出版社
HBase不睡觉书 内容简介
HBase是Apache旗下一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。利用HBase技术可在廉价的PC服务器上搭建大规模的存储化集群,使用HBase可以对数十亿级别的大数据进行实时性的高性能读写,在满足高性能的同时还保证了数据存取的原子性。
本书共分为9章,由浅入深地讲解HBase概念、安装、配置、部署,让读者对HBase先有一个感性认识,再从应用角度介绍了高级用法、监控和性能调优。既兼顾了初学者,也适用于想要深入学习HBase的读者。
本书适合于以前没有接触过HBase,或者了解HBase,并希望能够深入掌握的读者,适合HBase应用开发人员和系统管理人员学习使用。
HBase不睡觉书 目录
前言
如何才能不睡着地看本书
如何才能不睡着地看所有书
这本书不是HBase知识大全
技术支持与致谢
第1章 初识HBase
1.1 海量数据与NoSQL
1.2 HBase是怎么来的
1.3 为什么要用HBase
1.4 你必须懂的基本概念
第2章 让HBase跑起来
2.1 本书测试环境
2.2 配置服务器名
2.3 配置SSH免密登录
2.4 安装Hadoop
2.5 安装HBase
第3章 HBase基本操作
3.1 hbase shell的使用
3.2 使用Hue来查看HBase数据
第4章 客户端API入门
4.1 10分钟教程
4.2 30分钟教程
4.3 CRUD一个也不能少
4.4 批量操作
4.5 BufferedMutator(可选)
4.6 Scan扫描
4.7 HBase支持什么数据格式
4.8 总结
第5章 HBase内部探险
5.1 数据模型
5.2 HBase是怎么存储数据的
5.3 一个KeyValue的历险
5.4 Region的定位
第6章 客户端API的高阶用法
6.1 过滤器
6.2 协处理器
第7章 客户端API的管理功能
7.1 列族管理
7.2 表管理
7.3 Region管理
7.4 快照管理
7.5 维护工具管理
7.6 集群状态以及负载(ClusterStatus & ServerLoad)
7.7 Admin的其他方法
7.8 可见性标签管理
第8章 再快一点
8.1 Master和RegionServer的JVM调优
8.2 Region的拆分
8.3 Region的合并
8.4 WAL的优化
8.5 BlockCache的优化
8.6 Memstore的优化
8.7 HFile的合并
8.8 诊断手册
第9章 当HBase遇上MapReduce
9.1 为什么要用MapReduce
9.2 快速入门
9.3 慢速入门:编写自己的MapReduce
9.4 相关类介绍
HBase不睡觉书 精彩文摘
想必大家都用过类似MySQL或者Oracle这样的关系型数据库。一个网站或者系统最核心的表就是用户表,而当用户表的数据达到几千万甚至几亿级别的时候,对单条数据的检索将花费数秒甚至达到分钟级别。实际情况更复杂,查询的操作速度将会受到以下两个因素的影响:
表会被并发地进行插入、编辑以及删除操作。一个大中型网站的并发操作一般能达到几十乃至几百并发,此时单条数据查询的延时将轻而易举地达到分钟级别。
查询语句通常都不是简单地对一个表的查询,而有可能是多个表关联后的复杂查询,甚至有可能有group by或者order by操作,此时,性能下降随之而来。
因此,当关系型数据库的表数据达到一定量级的时候,查询的操作就会慢得无法忍受。姑且不论聘请经验丰富的DBA进行深度优化的成本多少,实际情况是,哪怕是进行了深度的优化,情况仍然不容乐观。原本这种情况只发生在某些垄断行业中,但是现在随着越来越多的“独角兽公司”(估值达到10亿美元以上的公司)的出现,在海量数据下进行快速开发,并进行高效运行的需求越来越多。这可难倒了全世界的关系型数据库专家,世界的数据库技术似乎达到了瓶颈。怎么办呢?
有的专家尝试将关系型数据库做成分布式数据库,把压力分摊到了多个服务器上,但是,随之而来的问题则是很难保证原子性。原子性可是数据库最根本的ACID中的元素啊!如果没有了原子性,数据库就不可靠了,这样的数据库还能用吗?如果增加一些必要的操作,那么原子性是保证了,但是性能却大幅下降了。专家们始终没有办法构建出一个既有完美原子性又兼具高性能的分布式数据库。
就在一筹莫展的时候,有人突然想起,20世纪90年代初期Berkerly大学有位Eric Brewer教授提出了一个CAP理论,如图1-1所示。
本文来自吃鸡只用平底锅投稿,不代表电子书资源网立场,如若转载,请联系原作者获取。