多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《大数据智能》_1
《大数据智能》_2
《大数据智能》_3
内容简介:
作者简介
Liu知远,2011年清华大学博士毕业,现
任清华大学计算机系助理研究员。研究
兴趣为自然语言处理与社会计算。曾获
清华大学优秀博士论文、中guo人工智能
学会优秀博士论文、清华大学优秀博士
后等称号
liuzy@tsinghua.edu.cn
崔安颀,2013年清华大学博士毕业,
任加拿大滑铁卢大学博士后研究员
与智能问答创业,部分产品已在微 信
手机等多种平台上线。研究兴趣为情感
分析、问答系统与社交媒体分析
caq@cage. info
赵鑫,2014年北京大学博士毕业,现任
中guo人民大学信息学院计算机系教师
研究兴趣为社交媒体数据挖捉与自然语
言处理。曾获北京大学优秀博士论文、
微软学者等称号
batmanfly@gmail.com
张开旭,2012年清华大学博士毕业,曾
经和现在就职于BAT和创业公司。研究
兴趣为自然语言处理与机器学习
zhangkaixu @outlook. c
Han文,2015年清华大学博士毕业,现
王清华大学计算机系博士后研究员。研
究兴趣为计算机系统。曾带领学生团队
搭建清华大学“学堂在线”MOOC平
台初版并成功上线
hanwentao@tsinghua.edu.cn
张永锋,清华大学计算机系博士生,加
州大学圣克鲁兹分校访问学者。研究兴
趣为信息检索、个性化推荐与计算经济
学。曾获西贝尔学者、百度学者、微软
学者等称号
yongfeng(foxmail. com
网时代的机器学习和自然语言
楫嵌
BIG DATA
NT画uGEN⑥E
Liu知远崔安顾等著
電子工業出屣社
ublishing House of Electronics Industry
北京 BELJING
内容简介
本书是一本介绍大数据智能分析的科普书籍,旨在让更多的人了解和学习互联网时代的机器学习和自
然语言处理技术,以期让大数据技术更好地为我们的生产和生活服务
全书包括大数据智能基础和大数据智能应用两个部分,共8章。大数据智能基础部分有三章:第1章
以深度学习为例介绍大数据智能的计算框架;第2章以知识图谱为例介绍大数据智能的知识库;第3章介
绍大数据的计算处理系统。大数据智能应用部分有5章:第4章介绍智能问答,第5章介绍主题模型,第
6章介绍个性化推荐,第7章介绍情感分析与意见挖掘,第8章介绍面向社会媒体内容的分析与应用。最
后在本书的后记部分为读者追踪大数据智能的最新学术材料提供了建议
本书适合作为高等院校计算机相关专业的研究生学习参考资料,也适合电脑爱好者阅读。作者特别希
望本书能够帮助所有愿意对大数据技术有所了解,以及想要将大数据技术应用于本职工作的读者
不得以任何方式复制或抄袭本书之部分或全部内容
侵权必究
图书在版编目(C|P)数据
大数据智能:互联网时代的机器学习和自然语言处理技术/Liu知远等著.一北京:电子工业出版社,20161
ISBN978-7-121-27648-4
1.①大…Ⅱ.①Liu…②崔
①机器学习②自然语言处理Ⅳ.①TP181②TP39
中guo版本图书馆CIP数据核字(2015)第281768号
顾慧芳
徐津平
顾慧芳
印刷:三河市双峰印刷装订有限公司
装订:三河市双峰印刷装订有限公司
出版发行:电子工业出版社
北京市海淀区万寿路173信箱邮编100036
开本:787×980116印张:1475字数:322千字
版次:2016年1月第1版
016年5月第2次印刷
印数:3001~5000册定价:49.00
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系
联系及邮购电话010)88254888。
质量投诉请发邮件至zts@phei.com.cn,盗版侵权举报请发邮件至dbq@phei.com.cn
服务热线010)88258888
天才并不是自生自长在深林荒野里的怪物,是由可以使天才生长的民众产生、长育出
来的,所以没有这种民众,就没有天才
鲁迅
千淘万漉虽辛苦,吹尽狂沙始到金
[唐]Liu禹锡
大数据时代与人工智能
在进入21世纪前后,很多人预测这将会是怎样的世纪。有人说这将是生命科学的时代
也有人说这将是知识经济的时代,不一而足。现在15年过去了,随着互联网的高速发展
大量的事实强有力地告诉我们,这必将是大数据的时代,是智能信息处理的黄金时代
自2012年美guo奥巴MA政府发布大数据研发倡议以来,关于大数据的研究与思考在全球
蔚然成风,已经有很多专著面世,既有侧重趋势分析的,如舍恩伯格和库克耶的《大数据
时代》(盛杨燕和周涛教授译),涂子沛的《大数据》和《数据之巅》,也有偏重技术讲解的
如莱斯科夫等人的《大数据》(王斌教授译)、张俊林的《大数据ri知录》、杨巨龙的《大数
据技术全解》,等等。相信随着大数据ge命的不断深入推进,会有更多的专著出版
前人已对大数据的内涵进行过很多探讨与总结,其中比较著名的是所谓的3V定义
大容量( Volume)、高速度( Velocity)和多形态( Variety)。3V的概念最早于2001年由Mai
塔集团( Meta Group)分析员道格莱尼( Doug Laney)提出,后来被高德纳咨询公司( Gartner)
正式用来描述大数据。此外还有很多研究者提出更多的V来描述大数据,例如真实性
( Veracity),等等。既然有如此众多珠玉在前,我们推出这本书,当然希望讲一些不同的东
西,这点不同的东西就是智能
人工智能一直是研究者们非常感兴趣的话题,并且由于众多科幻电影或小说作品的影
响而广为人知。1946年第一台电子计算机问世之后不久,英guo著名学者T灵就发表了一篇
重要论文(题名《计算机器与智能》 Computing Machinery and intelligence),探讨了创造具
有智能的机器的可能性,并提出了著名的“T灵测试”,即如果一台机器与人类进行对话
能够不被分辨出其机器的身份,那么就可以认为这台机器具有了智能。自1956年达特茅斯
研讨会正式提出了“人工智能”的研究提案以来,人们开始了至今长达半个多世纪的曲折
我们且不去纠结“什么是智能”这样哲学层面的命题(有兴趣的读者可以参阅罗素和
诺维格的《人工智能
种现代方法》 Artificial Intelligence; A Modern4 pproach以及杰
夫Huo金斯的《智能时代》 On Intelligence),而是先来谈谈人工智能与大数据有什么关系?
要回答这个问题,我们来看一个人是如何获得智能的。一个呱呱坠地、只会哭泣的婴儿
最后长成思维健全的成人,至少要经历十几年与周围世界交互和学习的过程。从降临到这
个世界的那一刻起,婴儿无时无刻不在通过眼睛、耳朵、鼻子、皮肤接收着这个世界的信
息:图像、声音、味觉、触觉,等等。你有没有发现,无论从数据的规模、速度还是形态
来看,这些信息无疑是典型的大数据。因此,人类习得语言、思维等智能的过程,就是从
大数据学习的过程。智能不是无源之水,它并不是凭空从人脑中生长出来的。同样,人工
智能希望让机器拥有智能,也需要以大数据作为学习的素材。可以说,大数据将是实现人
工智能的重要支撑,而人工智能是大数据研究的重要目标之一。
但是,在人工智能研究早期人们并不这样认为。早在1957年,由于人工智能系统在简
单实例上的优越性能,研究者们曾信心满怀地认为,10年内计算机将能成为guo际象棋冠军
而通过简单的句法规则变换和词典单词替换就可以实现机器翻译。事实证明,人们远远低
估了人类智能的复杂性。即使在guo际象棋这样规则和目标极为简单清晰的任务上,直到40
年后的1997年,由IBM推出的深蓝超级计算机才宣告打败人类世界冠军卡斯帕罗夫。而
在机器翻译这样更加复杂的任务(人们甚至连优质翻译的标准都无法达成共识,并清晰地
告诉机器)上,计算机至今还无法与人类翻译的水平相提并论
当时的问题在于,人们远远低估了智能的深度和复杂度。智能是分不同层次的。对于
简单的智能任务(如对有限句式的翻译等),我们当然可以简单制定几条规则就能完成。但
是对于语言理解、逻辑推理等高级智能,简单方法就束手无策了
生物界从简单的单细胞生物进化到人类的过程,也是智能不断进化的过程。最简单的
单细胞生物草履虫,虽然没有神经系统,却已经能够根据外界信号和刺激进行反应,实现
趋利避害,我们可以将其视作最简单的智能。而巴甫洛夫关于的狗的条件反射实验,则向
我们证明了相对更高级的智能水平,可以根据两种外界信号(铃声与食物)的关联关系
#############################################
|
|