多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《企业数据湖》_张世武等译_2018-12-19_1
《企业数据湖》_张世武等译_2018-12-19_2
《企业数据湖》_张世武等译_2018-12-19_3
内容简介:
XIII
件来实现一个功能完备的数据Hu。读者还将通过运行范例来实现数据Hu的完整性,将前几章
学习的内容结合在一起,完成一个可运行的数据Hu实现。
第12章,贯穿本书,读者通过单一客户视图的形式来理解用例;然而,在浏览本书的过
程中,还有其他与组织相关的用例,读者可对它们进行深入的思考。在这一章中,这种思想
得到了进一步的阐发。读者将理解并实现各种用例,这些用例可以从数据Hu中获得巨大的回
从这些数据使用
该章中,读者还将认识到这些用例的多样性以及企业数据Hu能为这些用例提供多大程度的
帮助。
阅读本书的必备条件
本书面向开发人员、架构师和产品/项目负责人,用于实现基于 Lambda架构的企业数
据湖。书中包括可运行范例,用以帮助读者理解和观察围绕数据Hu及其基本实现的各种概念
为了运行这些范例,需要使用各种开源软件、所需的基础设施和开发IDE。我们努力保持示
例简洁并利用常见的框架和组件。用于运行这些示例的操作系统为 Centos7,但是这些示例
可以在 Linux操作系统的任何版本上运行
本书的目标读者
·致力于实现企业数据Hu的Java开发者和架构师
·致力于实践 Lambda架构和大数据技术的Java开发者
致力于探索大数据技术并渴望利用大数据技术提供解决方案的Java开发者
排版约定
在本书中,不同的文本样式用来区分不同的信息。下面是一些例子,以及每种样式的
代码块样式如下所示
命令行输入或输出样式如下所示
conE
afka-flume-conf propertie
警告或重要的注意事项
提示或技巧
范例下载
本书的范例代码可以从htp/www.packtpub.com通过个人账号下载,也可以访问华章图
书官网htt/www.hzbook.com,通过注册并登.录个人账户下载
本书涉及的代码也托管在 Github上,请参考htps;/ github. com/PacktPublishing/Data-Lake
译者序
1.8企业现状
推荐序
1.9企业数字化转型
关于作者
0数据Hu用例启示
关于技术审核人
1.11总结
前言
第2章数据Hu概念概览
第一部分概述
2.2数据Hu如何帮助企业
第1章数据导论
作的
24数据Hu与数据仓库的区别
1.1探索数据
5数据Hu的构建方法
2什么是企业数据
2.6 Lambda架构驱动的
1.3企业数据管理
2.61数据摄取层——取数据
据与企业的相关性
262批处理层—批量处理已
7企业中数据如何存放
3快速处理层—近实时数据
17.2互联网(企业外部)
2.64数据存储层——存储所有
1.7.3数据持久化存储( RDBMS
或者 NoSQL
26.5服务层—数据交付与导出…25
4传统的数据仓库
2.66数据获取层——从源系统
7消息层—数据传输的保障…26第4章数据Hu中的 Lambda应用…51
26.8探索数据摄取层
4. Hadoop发行版本介绍
42影响企业大数据技术栈选择的
2.7总结
第3章 Lambda架构:一种数据Hu
技术能力
实现模式
42.2是否易于部署和维护
3.1什么是 Lambda架构
42.3集成准备
3.2 Lambda架构简史
43批处理层与数据处理
33 Lambda架构的原则
4.3.1 NameNode服.务.器
3.1容错原则
4.3.2 Secondary NameNode
3.3.2不可变数据原则
34 Lambda架构的组件
434数据存储节点
34.1批处理层
4.3.5快速处理层
342快速处理层
43.6 Flume用于数据获取
3.5 Lambda架构的完整工作原理……44
44服务层
3.6 Lambda架构的优势
44.1数据存储层
3.7 Lambda架构的劣势
44.2数据访问层
38 Lambda架构技术概览
3.9应用 Lambda
企业级ri志分析
第二部分数据Hu的技术组件
39.2获取和分析传感器数据
39.3电子邮件平台实时统计
3.94实时赛事分析
第5章基于 Apache Sqoop的批量
数据获取
3.9.6.安.全.威胁分析
51数据Hu背景中的数据获取
9.7多渠道用户行为分析
数据获取层
3.10 Lambda架构运行范例
512批量数据获取一—技
路线图
2为什么使用 Apache Scoop
521Sqop简史
1第6章基于 Apache Flume的流式
522Sqop的优势
数据获取
523Sqoo的劣势
6.1数据获取
3Sqop的功能
什么是流式数据
Scoop2的架构
6.12批量数据和流式数据
53.2 Stoop1与Sqop2
6.13流式数据获取——技术
53.3 Snoop的功能
534使用 Snoop导入数据
53.5使用 Snoop导出数据
6.1.5 Scoop和 Flume
6.2为什么使用Fume
5.5 Snoop对HDFS的支持
Fume简史
888
22Fume的优势
56.1安装与配置
6.2.3 Flume
5.63Sqp配置(数据库驱动)…91
64Fume架构
6.4.1Fume架构之一:分布式
5.64将HDFS配置为目的地
数据流水线
Scoop数据导入
64.2 Flume架构之二:扇出
56.6Sqp数据导出
643 Flume架构之三:扇入……117
6.7 Swoop job
644Fume架构中的3层设计…118
5.6.8 Scoop
645高级 Flume架构
569SCV用例视角中的 Scoop…10
646 Flume的可靠性级别
57适合使用 Scoop的场景
6.5 Flume事件—流式数据
58不适合使用Sqpp的场景
6.6 Flume Agent
59实时 Scooping是否可行
6.7 Flume Source
6.8 Flume Channel
5.10.1原生大数据 connector……105
5.10.2 Talend
6.10 Flume配置
5.10.3 Pentaho Kettle(PDH-
6.11 Flume事务管理
Pentaho数据集成)
6.12Fume的其他组件
6.12.1 Channel processor
|