多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《实战Elasticsearch、Logstash、Kibana:分布式大数据搜索与ri志挖掘及可视化解决方案》_1 ... ...
《实战Elasticsearch、Logstash、Kibana:分布式大数据搜索与ri志挖掘及可视化解决方案》_2 ... ...
《实战Elasticsearch、Logstash、Kibana:分布式大数据搜索与ri志挖掘及可视化解决方案》_3 ... ...
内容简介:
高凯,男,博士毕业于上海交通大学计算机应用技
术专业,省级重点学科“计算机软件与理论”中
信息检索与云计算”方向学术带头人,硕士研究
生导师;中guo计算机学会会员,中guo中文信息处理
学会会员,英guo学术期刊 Intemational Joumal of
Computer Applications in Technolog.编委会委员
5th、6th、7 th International Conference on
Modelling, Identification and Contro程序委员会委
员;主要研究方向为自然语言处
网络信息检
索、社会网络计算、大数据搜索与挖掘、云计算
等;近几年出版了《信息检索与智能处理》、《大
数据搜索与挖掘》、《网络信息检索技术及搜索引
擎系统开发》等学术专著及《数据库原理与应
用)、《计算机专业英语)、( Android程序设计基
础教程》等多部教材,在guo内外学术期刊 Expert
Systems With Applications, Intemational Joumal on
Inteligent Information and Database System
International Journal on Modelling, Identification and
Contro、(中文信息学报》、《电子学报》、
型微型计算机系统》等以及 PAKDD等guo际学术会议
上发表学术论文几十篇;申请软件著作权登记十余
项;主持及参与guo家、省级科研课题多项
实战
Elasticsearch
Logstash
Kiana
分布式大数据搜索与ri志挖掘及可视化解决方案
高凯编菩
清华大学出版社
北京
内容简介
对大数据的搜索与挖掘在当今网络时代是很有必要的。本书提出的分布式大数据搜索与ri志挖掘
及可视化解决方案是基于 Elastiesearch、 Logstash和 Kiana而形成的,它能有效应对海量大数据所带来的
分布式存储与处理、全文检索
化等的挑战。构建在全文检索开源软件 Lucene之上的
Elastiesearch,不仅能对海量规模的数据完成分布式索引与检索,还能提供数据聚合分析; Logstash能有效
于各种不同数据源的ri志信息; Kiana能得出可视化分析结果。本书讲解有关 Elasticseareh
Logstash、 Kiana的使用,相关内容以模块化的方式进行组织,注重实战,强调实践,内容新颖,组织合理
本书可为高校相关专业(如计算机科学与技术、软件工程、情报学、图书馆学、信息管理与信息系统)学
生的学习和科研工作提供帮助,同时对于从事大数据搜索与挖据、信息检索与智能处理技术的工程技术人
员和希望了解网络信息检索与分析技术的爱好者也具有较高的参考价值
本书封面贴有清华大学出版社防伪标签,无标签者不得销售
版权所有,侵权必究。侵权举报电话:010-62782989137011219
图书在版编目(CIP)数据
实战 Elasticsearch、 Logstash、 Kiana——分布式大数据搜索与ri志挖掘及可视化解决方案/高凯编著
北京:清华大学出版社,2015(2015.11重印
ISBN 978
39984-1
①实…Ⅱ.①高
①互联网络一情报检索Ⅳ.①G354.4
中guo版本图书馆CIP数据核字(2015)第086511号
责任编辑:焦虹Li晔
封面设计:Fu瑞学
责任校对:徐俊伟
责任印制:杨艳
出版发行:清华大学出版社
w.tup.comcn,http://www.wqbook.com
地址:北京清华大学学研大厦A座
社总机:010-62770175
购:010-62786544
投稿与读者服务:010-62
c-service tup. tsinghua. edu. cn
R E: 010-62772015, zhiliang(@ tup tsinghua. edu. en
om.cn,010-6279595
印装者:北京鑫海金澳胶印有限公
经销:全guo新华书店
开本:185mm×260mm
印张:15.25字数:371千字
版次:2015年6月第1版
印次:2015年11月第2次印刷
印数
定价:49.00元
产品编号:062546-01
序:言
计算、智慧城市、移动互联网、大数据与物联网已经成为大数据时
代的前瞻技术,实现了人、机器与实物的多维互联互通,监测数据、内容
数据、社交数据、关系数据裂变式增长,大数据时代全方位地到来。大
据具有多(体量大)、快(生成速度快)、好(价值大)、省(高效)的特征,传
统的信息搜索、数据挖掘与知识呈现理论技术难以满足当下多样化的需
求。大数据的理念与理论已经成为了人所共知的科学常识,但是大数据
搜索、挖掘与可视化等落地的工程实践尚有较大距离,也是当下的工程
本书从分布式大数据搜索、ri志挖掘与可视化三个角度出发,以非
结构化文本信息、半结构化的ri志数据为处理对象,进行宏观解决方案
与微观方法技巧全面阐释。具体地说,如何利用在全文检索开源软件
Lucene之上的 Elasticsearch对大数据进行分布式计算与全文检索;如
何利用 Logstash对ri志文件智能分析与处理;如何利用web接口
Kiana对ri志进行高效的搜索、可视化、分析等各种操作是,是本书
论述重点。
从工程实践的角度掌握 ElasticSearch、 Logstash、 Kiana的基本使
用方法和技巧,很有必要。目前,guo内专门针对 Elastics
Logstash、 Kiana进行介绍的书很少,本书是目前guo内较早的一本综合
介绍ELK架构的编著,涉及范围广泛,内容新颖,条理清晰,组织合理
高凯老师是我多年的朋友,我们都在大数据搜索与挖据方向上从事
教学、科研与开发工作。高凯博士严谨的治学态度、理论联系实际的做
法以及敬业的态度也一直为我所学习。非常荣幸能够有这个机会来为
高老师的新著作序,认真拜读后,我以为本书实战性很强,是大数据搜索
与挖掘所需的上乘之作,是大数据“知著、见微、晓意”的必备工具,值得
推荐!
2015.5.5
(张华平博士,副教授,北京理工大学大数据搜索挖掘实验室主任
ICTCLAS及 NLPIR分词软件发明者)
前言
建立在分布式系统之上的大数据搜索与挖据应用,是当今IT业的
研究与工程实践热点之一。在 DB-Engines公布的2015年度最受欢迎
的数据库系统中, Elasticsearch名列前茅。作为开源分布式检索与数
据处理平台, Elasticsearch不仅仅是一个数据库,它还是一个基
Lucene构建的开源、分布式、 RESTfuL信息检索框架。基于
Elasticsearch+ Logstash+ Kiana的信息处理架构,为编程人员提供了
种分布式可扩展的信息存储和全文检索机制以及基于 Logstash的ri
志处理机制、基于 Kiana的挖据结果可视化机制。它不仅能对海量规
模的数据完成分布式索引与检索,还能提供数据聚合分析和可视化。因
此,从实战的角度掌握 Elasticsearch、 Logstash、 Kiana的基本使用方法
和技巧,很有必要。
大数据这个术语的出现,大概可追溯到基于 Lucene的 Apache开
源项目 Nutch,从200年开始,大数据开始成为互联网行业的流行词
汇,也吸引了越来越多的关注。物联网、云计算、移动互联网、手机与平
板电脑、PC以及遍布各个角落的各种各样的传感器,无一不是大数据的
来源方或承载方。可以说,大数据就在我们身边。从_阿.里_巴巴、1号店
京东商城等电子商务数据,到QQ等即时聊天内容,再到 GuGe、Bing
百度,又到社会网络与微博、微 信等,都在生产、承载着大数据。随着信
息处理量的增大,对大数据的分布式存储、快速搜索与挖掘显得特别必
要。例如,挖掘用户的行为习惯和喜好,从凌乱纷繁的大数据背后找到
符合
合用户兴趣和习惯的产品和服务,并对产品和服务进行有针对性的调
整和优化,本身就藴含着巨大的商机。但是,传统的基于关系型数据库
管理系统的方法,在高效处理大数据时显得有些力不从心。虽然开源的
全文检索工具Luce能处理非结构化和半结构化的信息,但其某些版3用
本在分布式处理方面的不足限制了它在大数据方面的应用。我们希望
找到一个快速的分布式信息检索解决方案,希望它是一个零配置和易于
上手的全文检索模式,希望它能够简单地使用JSON通过HTTP索引
数据,更希望它支持分布式处理并支持系统扩展,能够实时搜索,并且稳
定、可靠
|
|