多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《Spar**数据处理:原理_算法与实例》_1
《Spar**数据处理:原理_算法与实例》_2
《Spar**数据处理:原理_算法与实例》_3
内容简介:
①分
男,1976年生人,博士,副教授,硕士生
导师,北京邮电大学数据科学中心主任
2003年至2007年任职于|BM中guo研究
院,担任高级研究员及部门经理,建立旧BM中
guo研究院电信融合网络管理研究方向,主持研
发 Websphere及Tvo电信产品线中多项关键
技术,期间发表多篇guo际会议及刊物论文,并
申请获得多项美guo专利
2007年至2012年创办力欢城(北京)科技有
眼公司,开创中guo无端网络游戏产业,并担任中
guo软件协会网 页游戏专业委员会委员。公司产品
多次荣获guo内互联网业界奖项,2008年获中guo
互联网协会“最具运营价值 Webgame奖项
2012年至今在北京邮电大学信息与通信工
程学院任教,研究方向为电信及互联网大数据
分析、高速数据流挖掘算法,并牵头组建北京
量数据处理中的云计算”,发表大数据分析相
关SCE检索论文十余篇,并独著《 Hadoop
南大学等多所高校的相关课程作为教材使用
林文辉
男,博士,高级工程师,航天信息股份有
自2009年至今在航天信息研究院担任云
平台事业部经理。承担过多个guo家重大课题项
guo有资本金项目、科技部粮食信息化
.安.全.项目、guo资委信息化建设等。主要研究方
向:税务和公安行业大数据应用、云计算
Big Data Processing
with Spark
Spar数据处理
原理、算法与实例
Liu军林文辉方澄◎编著
请筹大学出版社
北京
内容简介
本书以时下最为流行的 Hadoop所存在的缺陷为出发点,深入浅出地介绍了下一代大数据处理
核心技术 Spark的优势和必要性,并以最简洁的指引步骤展示了如何在10分钟内建立一个spu
数据处理环境。在此基础上,以图文并茂和丰富的示例代码讲解的形式系统性地揭示了 Spark的运
行原理、算子使用、算法设计和优化手段,为读者提供了一本快速由浅人深掌握Spak基础能力和高
级技巧的参考书籍
本书共6章,涉及的主题主要包括大数据处理技术从Hadp发展到 Spark的必然性快速体验
Spark的指引、 Spark架构和原理、RDD算子使用方法和示例、 Spark算法设计实例、Spak程序优化
本书适合需要使用spak进行大数据处理的程序员、架构师和产品经理作为技术参考和培训资
料,亦可作为高校研究生和本科生教材
本书封面贴有清华大学出版社防伪标签,无标签者不得销售
版权所有,侵权必究。侵权举报电话:010-6278298913701121933
图书在版编目(CIP)数据
四a数据处理:原理、算法与实例/Liu军,林文辉,方澄编著.北京:清华大学出版社,2016
lSBN978-7-302449959
1.①s…Ⅱ.①Liu…②林…③方…Ⅲ.①数据处理软件Ⅳ.①TP274
中guo版本图书馆CP数据核字(2016)第208312号
责任编辑:Liu洋
封面设计:Chenguo风
责任校对:王荣静
责任印制:沈露
出版发行:清华大学出版社
网址:htp://ww,tup,com,en,hp://www, abook
地址:北京清华大学学研大厦A座
邮编:100084
社总机:0106277017
邮购:01062786544
投稿与读者服务:01062776969,c- ervice(@ tup. tsinghua,edu,cn
质量反馈:01046272015,zhiliang@up.tsinghua.edu.cn
者:北京嘉实印刷有限公司
经销:全guo新华书店
开本:185mm×260mm印张:13
字数:228千字
版次:2016年9月第1版
印次:2016年9月第1次印刷
印数:1-3000
定价:49.00元
产品编号:0715700
前言
自2012年回归校园开始电信与互联网大数据分析科研生涯,我与 Hadoop那头黄
色小象就结下了不解之缘。感谢 GuGe的论文、 Yahoo的资助、 Doug Cutting无与伦比
的聪明才智,以及 Hadoop开源社区无私奉献的参与者,让成千上万跟我们一样的中小
开发者团队拥有了低成本处理大规模数据的能力。HDFS、 MapReduce, Pig、Hive、 HBase
这些技术组件,帮助我们完成了一个又一个TB甚至PB级数据集的分析任务。那头可
爱的黄色小象,陪伴我度过了一个又一个美好的ri子。多么希望这种只用一个技术族
就能解决各种大数据处理问题的美好ri子能一直持续下去,相信这也是很多开发者梦
寐以求的理想guo度。然而,梦想终归是梦想。在两年前的某一天,无意中从网络上的
篇技术文章中看到了 Spark这一新兴技术,文中宣称 Spark性能和功能均优于
Hadoop。将信将疑的我按照文章中的线索找到了spak官网,下载解压后经过短暂试
用,我就被 Spark的简洁、高效、灵活的特性彻底迷住了。从那时起我就知道, Hadoop
我心目中大数据处理王者技术上的真正挑战者到来了。 Spark以分布式_内.存_对象架构
为基础,以RDD转换模式为核心,并辅以丰富的RDD算子,不仅解决了大数据处理迭
代任务的性能问题,还将开发者从简陋的Map/ Reduce编程模式中解放出来,以更加灵
活的方式控制数据的计算过程,并激发无穷的创意。因此,我们的团队逐渐将数据处
理技术栈由 Hadoop转向 Spark。在这个过程中,我们发现目前已有的 Spark相关书籍
大多集中在介绍 Spark技术的基础原理以及 Spark相关工具(例如 SparkSQL、 Spark
等)的基本使用方法上。而要学习如何使用 Spark中提供的丰富算子进行算法设计
时,只能以大浪淘沙的方式从网络中零散的资料中寻找参考。因此,我们觉得如果有
本能以丰富示例介绍 Spark程序和数据挖掘算法设计的书籍,应当能更好地帮助
ark开发者提高学习效率,这也就是我们撰写本书的原动力
基于这一原动力,本书突出以实例的方式介绍和展示 Spark程序和算法设计的方
法。第1章以科技史上最为著名的6个失败预言引出了大数据时代以及 Hadoop技术
出现的必然性,然后通过 Hadoop与 Spark的对比揭示了 Hadoop的局限性和 Spark的
优势。第2章以简洁明了的方式说明了如何以最快的方式搭建一个Spak运行环境
并通过 Shell环境体验 Spark的强大功能。第3章以图文并茂的形式讲解了 Spark的工
作原理、架构与运行机制,并着重介绍了 Spark的核心RDD的变换过程。第4章以大
量示例代码的形式详细说明了 Spark丰富的算子,包括创建算子、变换算子、行动算子
‖l前言
和缓存算子。为了帮助读者掌握使用 Spark设计和实现复杂算法的方法,第5章以10
个常见算法实例展示了 Spark处理复杂数据处理工作的能力。第6章从合理分配资
源、控制并行度等9个方面介绍了优化 Spark性能、拓展 Spark功能的方法
与市面上大部分 Spark书籍不同,除原理性文字外,本书还提供了大量的 Spark代
码实例,完成这些代码是一项艰巨的工作。因此,除本书的作者外,我们必须要感谢为
文中代码编写和测试作出了巨大贡献的参与者,他们是来自北京邮电大学数据科学中
心的研究生梁阳、林澍荣、王蒙、秦超、Qiu德扬等同学,以及北京浩瀚深度信息技术股份
有限公司大数据专家张硕、宋若宁。
由于作者水平有限,加之开源社区的高度活跃性, Spark技术仍在快速发展中
此,书中难免会存在不足之处,还请读者见谅并批评指正。意见、建议或交流请发电子
邮件至liujun@bupt.edu.cn
北京邮电大学数据科学中心Liu军
016年8月
#############################################
|
|