电子书:《强化学习》_赵地等译

[复制链接]
查看1203 | 回复1 | 2019-12-25 13:35:49 | 显示全部楼层 |阅读模式

多种网盘链接检测插件
购买前,请先检测网盘链接是否有效


                       

《强化学习》_赵地等译_1

《强化学习》_赵地等译_1

《强化学习》_赵地等译_2

《强化学习》_赵地等译_2

《强化学习》_赵地等译_3

《强化学习》_赵地等译_3


内容简介:

GR
enforcement Learning
State-of-the-Art
强化学习
MA可·威宁( Marco Wiering
[荷】MADing·范·奥特罗( Martijn van Oter编著
赵地Liu莹邓仰东欧阳建权苏统华

G想出盐

图书在版编目(c|P)数据
MA可·威宁( Marco wiering),(荷)MADing·范·奥特罗( Martijn van
Otterlo)编著;赵地等译,一北京:机械工业出版社,2018
(智能科学与技术丛书)
书名原文: Reinforcement Learning: State-of-the-Art
ISBN978-7-111-60022-0
I.强…I1.①MA…②MA…③赵…Ⅲ.机器学习ⅣV.TP181
中guo版本图书馆CP数据核字(2018)第110203号
本书版权登记号:图字01-20166249
Translation from the English language edition: Reinforcement Leaming: State-of-the-Art edited
by Marco Wiering and Martin van Otterlo
Copyright o Springer-Verlag Berlin Heidelberg 2012.
Springer is part of Springer Science+ Business Media
All rights reserved.
本书中文简体字版由 Springer授权机械工业出版社独家出版。未经出版者书面许可,不得以任何
方式复制或抄袭本书内容
本书包括六大部分,详细介绍了强化学习中各领域的基本理论和研究内容,内容包括:MDP、动
态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略选代的最小二乘法、迁移学习、贝
叶斯强化学习、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分
可观察MDP、博奔论和多学习器强化学习等内容,并述强化学习与心理和神经科学、游戏领域、机
器人领域的关系和应用,有助于研究者了解强化学习领域,发现新的研究方向
本书适合作为高等院校机器学习、人工智能相关课程的参考书,也可作为人工智能领域技术人员的参
考用书
出版发行:机械工业出版社(土京市西精区百万庄大街22号政接码:100037
责任编辑:唐晓琳
责任校对:殷虹
印刷:北京市兆成印刷有限责任公司
版次:2018年6月第1版第1次印刷
开本:185mmx260mm1/16
印张:30.5
书号:ISBN978-7-11
定价:119.00元
凡购本书,如有缺页、倒页、了
投稿热线010)88379604
68995259读者信箱: hzjsjt@ hzbook con
版权所有·侵权必究

Reinforcement Learning: State-of-the-Ar
强化学习在越来越多的实际问题中取得了突破性成果。基于强化学习的 AlphaGo围棋
程序连挫人类围棋冠军,赚足了眼球,而随后出现的新一代 AlphaGo Zero则以100:0大败
AlphaL。 AlphaGo是GuGe旗下 DeepMind公司研发的人工智能下棋软件,主要由策略网络
Policy Network)、快速走子( Fast Rollout)、价值网络( Value Network)三个部分组成,并
通过蒙特卡罗树搜索( Monte Carlo Tree Search)把三个部分有机连接,形成一个完整的系
统。升级版的 AlphaGo Zero最大限度地降低了人类棋谱的先验知识,完全通过强化学习的
我对弈提升棋力,青出于蓝而胜于蓝。现在强化学习的主攻热点转向了游戏以及机器人领
域,强化学习在解决更多实际问题方面大有可为,同时也激发起强化学习研究领域的活力和
热度
强化学习是机器学习中与监督学习以及无监督学习平行的一种类型,它是(自主)智
能体完成与外界环境交互任务的重要手段,通过最大化奖励函数的学习方法获取从环境状
态到行为的映射函数。强化学习成为一个独立研究分支已有超过50年的历史,而20世纪
80年代提出的MA尔可夫决策过程( Markov Decision Proces,MDP)构成了现代强化学习的
基本描述框架。之后强化学习在理论、算法、应用上取得了长足的发展。对于真正想要在
强化学习领域进行创新研究的学者而言,需要扎扎实实地研读强化学习方面的经典书籍和
文献
本书的编著者开篇就提出了目标:写一本值得向同学、同事及领域研究者推荐的讨论强
化学习最新技术的好书。本书的特色鲜明,值得一读。第一是主题新颖。本书主要聚焦于发
生在2000年到2012年间的最新发展。我们可以从第二~四部分看到发生在强化学习领域的
最新动向和最新技术。撰写本书的作者以年轻学者为主,这也从一个侧面印证了本书的新颖
度。第二是体例完整、涵盖的研究领域广泛。本书包含19章,其中第1章对强化学习的基
本算法和框架做了全面的介绍,之后的17章对常规解决框架、构建性问题表示、概率建模
手段以及经典应用领域进行详细评述,而最后一章则纵览全书进行讨论和发散。第三是组织
精巧。内容从前到后具有一定的递增性,但又保持了各部分的相对独立性,方便读者根据兴
趨选读相应篇章。最后,本书时刻围绕前沿性和开放性问题。作者在大胆发表自己的真知烁
见的同时,不忘客观地审视当前的不足。这是本书不同于市面上很多书籍的重要特质。所以
本书可以让你迅速跟上强化学习的发展现状。
本书的翻译工作由中guo科学院计算机网络信息中心的赵地研究员发起并组建翻译团队
其中赵地研究员负责第1、2和8章的翻译工作,中guo科学院大学的Liu莹教授负责前言、第
3~7章和第12章的翻译任务,清华大学的邓仰东教授承担第9~11章的翻译工作,湘潭
大学的欧阳建权教授主持第13~16章的翻译,最后第17~19章的翻译由哈尔滨工业大学
的苏统华教授完成。除了每章的负责人,还有很多研究生参与了部分翻译工作,特此向他们
表示感谢
本书几乎涵盖了经典强化学习的全部内容,甚至包括作为深度强化学习萌芽的重要成果
DFQ。但毕竟因时间问题未能及时顾及最近几年才发展出来的更多深度强化学习技术。我们

的翻译团队也期待能在未来再次合作,推出围绕深度强化学习的专著
由于本书涉及的广度和深度较大,加上译者水平有限,译文中难免存在一些问题,真诚
地希望读者朋友们批评指正
最后要向机械工业出版社的Zhu劼编辑和唐晓琳编辑表示深深的谢意,她们在流程管理和
宇编辑上提供的帮助对于本书的顺利出版至关重要
2018年4月


化学习是一门有50多年历史的学科,但是,由于受到MA尔可夫决策过程理论的影响
其现代形式在20世纪80年代才逐渐兴起,并于90年代后期在教科书中建立起了完整的体
系。在本书中, Martijn van Otterlo和 Marco wiering这两位在该领域备受尊敬的、活跃的研
究人员通过委托撰写,汇编出版了21世纪以来描述强化学习主要发展的一系列文章。这些
文章都是综述而不是创新研究,每一篇都很权威地论述了强化学习的一个领域,包括神经和
行为等方面的研究以及计算方面的考虑。对想要更进一步学习的学生和研究最新动态的科研
人员来说,本书是一个宝贵的资源
本人在这个领域已经工作了很长时间,这些文章的作者有两个突出的特点。第一,他
们都很年轻。其中16篇文章的第一作者都是在过去7年内获得博士学位的(有些仍然是学
生)。这无疑是一个非常好的信号,说明这个领域正在重生并十分具有活力。第二,三分之二
的作者来自欧洲。部分原因是由于本书的编辑来自欧洲,这似乎也反映出强化学习研究的重
心正在东移,从北美洲移到了欧洲
Richard s. sutton
2011年10月



回复

使用道具 举报

泡沫之夏 | 2019-12-25 13:35:53 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则