多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《Spar**数据分析技术与实战》_1
《Spar**数据分析技术与实战》_2
《Spar**数据分析技术与实战》_3
内容简介:
CDA数据分析师系列丛书
Spar数据分析
技术与实战
经管之家主编董轶群曹正凤赵仁乾王安编著
電子エ掌出版社
Publishing House of Electronics Indust
北京· BEIJING
内容简介
e、ak作为下一代大数据处理引,经过短短几年的飞医式发展,正在以原之势席巻业界,现
为大数据产业中的一股中坚力量
本书着重讲解了spak内核、 Spark Graphx、 Spark SQL、 Spark Streaming和 Spark Mllib的核心
概念与理论框架,井提供了相应的示例与解析
全书共分为8章,其中前4章介绍 Spark内核,主要包括 Spark简介、集群部署、工作原理、核
心概念与操作等:后4章分别介绍 Spark内核的核心组件,每章系统地介绍 Spark的一个组件,并附
以相应的案例分析
本书适合作为高等院校计算机相关专业的研究生学习参考资料,也适合大数据技术初学者阅读
还适合所有愿意对大数据技术有所了解井想要将大数据技术应用于本职工作的读者阅读
未经许可,不得以任何方式复制或抄袭本书之部分或全部内容
版权所有,侵权必究
图书在版编目(CIP)数据
Spar数据分析技术与实战/经管之家主编:董轶群等编著.一北京:电子工业出版社,2017.7
(CDA数据分析师系列丛书)
1,①S….①经…②董…Ⅲ.①数据处理軟件一技术培训一教材V.①TP27
中guo版本图书馆CIP数据核字(2017)第133619号
策划编辑;张慧敏
责任编辑:徐津平
特约编辑:顾慧芳
印刷:北京中新伟业印刷有限公司
装订:北京中新伟业印刷有限公司
北京市海淀区万寿路173信箱邮编:100036
开本:787×x980116印张:145字数:330千字
版次:2017年7月第1版
印次:2017年7月第1次印刷
定价:59.00元
凡所购买电子工业出版社图书有缺损问題,请向购买书店调换。若书店售缺,请与本社发行部联系
联系及邮购电话010)8825488,88258888
质量投诉请发邮件至zls@phei.com.cn,盗版侵权举报请发邮件至dbqaphei.com.cm
本书咨询联系方式:010-51260888-819,
前言
随着电子信息、物联网等产业的高速发展,智能手机、平板电脑、可穿戴设备与物联网设备已
经渗入到现代化生产与生活的各个方面,每时每刻产生着大量的数据,当今社会已经进入敬据爆炸
的时代。各领域中的相关数据不仅量大,而且种类繁多、变化速度快、价值密度低。这些ri益凸显
的大数据特征在全球范guo内掀起了一场全新的思维、技术与商业变革,无论是产业界还是学术界都
在持续加大在大数据技术和相关领域中的投入。“中guo制造2025”战略规划和“互联网+”概念的提
出再次为guo内大数据技术的发展注.入了强劲的动力,大数据技术已被提升到了前所未有的高度,预
示了其未来广阔的发展空间与应用前景。
在大数据背景下,各领域对数据相关服务的需求不断提升,迫切需要一种高效通用的大数据处
理引擎。相对于第一代大数据生态系统 Hadoop中的 Mapreduce, Spark是一种基于_内.存_的、分布式
的大数据处理引華,其计算速度更快,更加适合处理具有较多送代次数的问題; Spark中还提供了丰
富的APH,使其具有极强的易用性;与此同时,Spak实现了“一式”的大数据解决方案,即在 Spark
内核基础上提出了 Spark Graphx、 Spark Streaming、 Spark Mliib、 Spark SQL等组件,使其不仅能
对海量数据进行批处理,同时还具备流式计算、海量数据交互式查询等功能,可以满足包括教育
电信、医疗、金融、电商、政府、智慧城市和.安.全.等诸多领域中的大数据应用需求
Spark作为下ー代大数据处理引撃,经过短短几年的飞跃式发展,正在以原之势席卷业界,现
已成为大数据产业中的一股中坚力量
本书主要针对大数据技术初学者,着重讲解了 Spark内核、 Spark Graphx、 Spark SQL、 Spark
Streaming和 Spark Mllib I的核心概念与理论框架,并提供了相应的示例与解析,以便读者能够尽快
了解Spak
全书其分为8章,其中前4章介绍 Spark内核,主要包括 Spark简介、集群部署、工作原理、核
概念与操作等;后4章分别介绍Spak内核的核心组件,毎章系统地介绍Spak的一个组件,并附
以相应的案例分析
?第1章: Spark导论。概述 Spark的发展背景与起源,对比 Mapreduce介绍了 Spark的特征
原理与应用场景等。
2章:Spak集群部署。该章详细介绍了 Ubuntu下 Spark集群的部署过程与注意事项,首
先利用 Vmware Workstation搭建 Hadoop分布式集群;然后在集群中安装 Scala;最后搭建
Standalone模式的 Spark集群
Spar数据分析技术与实战
第3章:RDD编程。该章对Spak中的弹性分布式数据集( Resilient Distributed Dataset
RD)这一核心概念进行了详细介绍
重点讲解了与之相关的定义、特征及其操作,并附以
相应的示例与解析
第4章: Spark调度管理与应用程序开发。该章述了 Spark底层的工作机制,介绍了 Spark
应用程序从产生作业到最终计算任务的整个流程;基于 Intellij IDEA讲解了 Spark应用程序
的开发过程,并介绍了如何在本地与集群模式下提交运行Spak应用程序
?第5章: Graphx。该章介绍了 Graphx的基本原理,着重讲解了 Graphx中弹性分布式属性
图的定义、表示模型、存储方式以及其上的丰富操作;以经典的 Pagerank与三角形计数等
图计算算法为例,讲解了 Graphx中相关接口的使用方法。
第6章: Spark SQL。该章包含了 Spark SQL概述、SOL语句的处理流程、 Dataframe数据
模型的概念与相关操作等;并将 Spark SQL与Hive相结合,给出了ー个学生信息管理系统
的设计与实现。
第7章: Spark Streaming。该章介绍了 Spark Streaming的发展与应用场景以及批处理时间间
隔、窗口间隔、滑动间隔等核心概念;着重讲解了 Dstream数据模型的概念与相关操作;针
对不同应用场景下的流式计算需求,给出了有状态与无状态模式下的 Spark Streaming应用案
例与解析。
第8章: Spark Mllib。该章介绍了 Spark Mllib中向量、 Labeledpoint、矩阵等核心数据类型
的定义与使用;详细介绍了机器学习中分类、回归、聚类、协同过滤等经典算法的Spak实
现与应用,并附以相应的索例与解析。
由于时间短,加之笔者水平有限,书中难免有疏漏之处,敬请读者朋友批评指正。
轻松注册成为博文视点社区用户(wwwbroadview.com.cn),扫码直达本书页面。
提交劫误:您对书中内容的修改意见可在交勤误处提交,若被采纳,将获赠博文
区积分(在您购买电子书时,积分可用来抵扣相应金额)
交流互动:在顶面下方读者评抢处留下您的疑问或观点,与我们和其他读者一同学习交流
目录
第1章 Spark导论
park的发展
什么是 Spark
Spark主要特征
1.3.1快速
1.3.2简洁易用
.3.3通用
3.4多种运行模式
第2章 Spark集群部署
2.1运行环境说明
2.1.1软硬件环境
2.1.2集群网络环境
2.2安装 Vmware Workstation
2.3安装 Centos6
2.4安装 Hadoop
2.4.1克隆并启动虚拟机
2.4.2网络基本配置
2.4.3安装DK
4.4免密钥登.录配置
2.4.5 Hadoop配置
2.4.6配置从节点
2.4.7配置系统文件
2.4.8启动 Hadoop集群
2.5安装 Scala
78933356
2.6安装 Spark
2.6.1下载并解压Spak安装包
#############################################
|
|