多种网盘链接检测插件 购买前,请先检测网盘链接是否有效
《驾驭文本:文本的发现组织和处理》_1
《驾驭文本:文本的发现组织和处理》_2
《驾驭文本:文本的发现组织和处理》_3
内容简介:
Grant S. Ingersoll-位工程师、讲师
相培训师,也? Lucene代码的提交者以
及机器学习项目 Mahout的联合始人
Thomas s. Morton是 Opennlp和
Maximum Entropy(最大)的主要开
安drew L. Farris是一位技术顾问、软
件开发人员及 Mahout、 Lucene和Sor
的贡献者
驾驭文本
文本的发现、组织和处理
laminatext
How to Find. Organize, and Manipulate It
Grant S, Ingersoll
美] Thomas S. Morton著
安drew L. Faris
王斌译
電子工掌出版社
Publishing House of Electronics Industry
北京· BEUING
内容简介
文本处理是目前互联网内容应用(如搜索引、推荐引撃)的关键技术。本书函盖了文本处
理概念和技术的多个方面,包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分
类、聚类、标签生成、摘要、问答等。本书的特点在于通过实例来理解文本处理的这些概念和技
术,读者利用现有的开源工具就可以自己实现这些实例。本书适合互联网文本内容处理领域的开发
人员阅读,也适合有志于加入这一领域的学生、从业人员阅读。即使对于己经从事多年文本处理研
究和开发工作的人员来说,本书也不失为一种有益的补充性读物
Onginal English language edition published by Manning Publications, USA. Copyright 02013 by
Manning Publications. Simplified Chinese-language edition copyright (@2015 by Publishing House of
Electronics Industry. All rights reserved
本书简体中文版专有出版权由 Manning Publications投予电子工业出版社。未经许可,不得以
任何方式复制或抄袭本书的任何部分。专有出版权受法律保护
版权贸易合同登记号图字:01-2014-57
图书在版编目(CIP)数据
驾文本:文本的发現、组织和处理(美)英格索尔( Ingersoll,G,S.),(美)莫顿(Mtom,TS.)
(美)法里斯( Farris,A.L)著:王斌译.一北京:电子工业出版社,2015.7
书名原文: Taming text how to find, organize, and manipulate it
ISBN9787-121-25230-3
1.①驾“I.①英…②莫…③法…④王….①自然语言处理一研究N.OTP391
中guo版本图书馆CIP数据核字(2014)第302750号
策划辑:符隆美
责任编辑:徐津平
印刷:北京天宇星印刷厂
装订:北京天宇星印刷
出版发行:电子工业出版社
北京市海淀区万寿路173信箱郎编:100036
开本:787×9801/16印张:21.25字数:350千字
版次:2015年7月第1版
印次:2016年9月第2次印刷
定价:79.007
凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部
联系,联系及郎购电话010)88254888,882588。
质量投诉请发郎件至zits(aphei.com.cn,盗版侵权举报请发郎件至dbqq(aphei.com.cn
本书咨询联系方式:010-5126088-819faq(@phei.com.cn
译者序
不知不觉,我进入信息内容处理这个领域已经有近20年了。这些年中,我的研
究涉及机器醐译、Web搜索、跨语言检索、垃圾邮件过滤、问答、推荐、文本分类
聚类、情感分析等诸多技术或应用,也开发了多个原型以及实用系统。我十分高兴
能够在这个有趣的领域不断地学习新技术,了解并开发新应用。与此同时,我也亲
眼目睹了很多优秀的技术书籍不断涌现。完全出于兴趣爱好以及与大家分享的个人
追求,我先后翻译了《信息检索导论》、《大数据:互联网大规模数据挖掘与分布
式处理》、《机器学习实战》、《 Mahout实战》等教材或技术书籍。现在,我又推
荐给大家手边的这本《驾取文本》
文本处理是很多应用的基本技术,包括上面提到的搜索、推荐、问答应用都离
不开文本处理。“驾驭”文本对于这些系统至关重要。然而,文本特别是自然语言
文本本身的情况十分复杂,处理起来十分烦琐,难度很大。如何利用已有开源工具
高效地“驾驭”文本是本书的目标。很显然,对于文本处理开发人员来说,这本书
能够提供支撑。当然,由于自然语言文本固有的歧义性,文本处理技术特别是深层
理解”技术还远未成熟,研究人员还在不断努力,全方面真正“驾驭”文本是所
有文本处理工作人员的终极梦想
本书介绍了文本搜索、模糊字符串匹配、命名实体识别、文本聚类分类标注等
多种文本处理关键技术,并通过融合上述技术构建了一个简单的事实型问答系统
所有的单项技术都有可供下载使用的数据集和相应的运行代码,读者可以下载这些
驾取文本:文本的发现、组织和处理
代码和数据进行尝试,以便能够更加深人地理解这些技术
本书作者都是开源社区的重要贡献者,他们在文本处理领域具有丰富的开发经
验。这些经验也都体现在本书的内容写作中。
感谢出版社和编辑部的辛勤工作,感谢实验室领导、同事以及译者家人对翻译
本书的支持
因本人各方面水平有限,现有译文中肯定存在许多不足。希望读者能够和我进
行联系,以便能够不断改进。来信请联系wbxi2008@gmail.com
2015年3月15ri于中关村
#############################################
|