机器学习圣经PRML作者Bishop20年后新作中文版出版!
机器学习圣经PRML作者Bishop20年后新书《深度学习:基础与概念》出版。作者克里斯托弗·M. 毕晓普(Christopher M. Bishop)微软公司技术研究员、微软研究 院 科学智 能 中 心(Microsoft Research AI4Science)负责人。剑桥达尔文学院院士、英国皇家工程院院士、爱丁堡皇家学会院士和伦敦皇家学会院士。曾出版经典著作《模式识别与机器学习》(Pattern Recognition and Machine Learning)。
本书全面且深入地呈现了深度学习领域的知识体系,系统梳理了该领域的核心知识,阐述了深度学习的关键概念、基础理论及核心思想,剖析了当代深度学习架构与技术。
《深度学习:基础与概念》由三位图灵奖得主:2024 年诺贝尔物理学奖得主杰弗里·辛顿(Geoffrey Hinton)、2018 年图灵奖得主杨立昆(Yann LeCun)、2018 年图灵奖得主约书亚·本吉奥 (Yoshua Bengio)作序推荐。共同推荐。
本书全面且深入地呈现了深度学习领域的知识体系,系统梳理了该领域的核心知识,阐述了深度学习的关键概念、基础理论及核心思想,剖析了当代深度学习架构与 技术。
全书共 20 章。本书首先介绍深度学习的发展历程、基本概念及其在诸多领域(如 医疗诊断、图像合成等)产生的深远影响;继而深入探讨支撑深度学习的数学原理, 包括概率、标准分布等;在网络模型方面,从单层网络逐步深入到多层网络、深度神 经网络,详细讲解其结构、功能、优化方法及其在分类、回归等任务中的应用,同时 涵盖卷积网络、Transformer 等前沿架构及其在计算机视觉、自然语言处理等领域的独 特作用。本书还对正则化、采样、潜变量、生成对抗网络、自编码器、扩散模型等关 键技术展开深入分析,阐释其原理、算法流程及实际应用场景。
对于机器学习领域的新手,本书是全面且系统的入门教材,可引领其踏入深度学 习的知识殿堂;对于机器学习领域的从业者,本书是深化专业知识、紧跟技术前沿的 有力工具;对于相关专业的学生,本书是学习深度学习课程、开展学术研究的优质参 考资料。无论是理论学习、实践应用还是学术研究,本书都是读者在深度学习领域探 索与前行的重要指引。
本书目标
机器学习的影响力不断扩大,相关出版物数量和涵盖范围呈爆炸式增长,创新的 步伐仍在持续加快。对于这一领域的新人来说,仅是掌握核心思想就已经足够艰巨, 更不用说赶上研究前沿了。在这样的背景下,本书将帮助机器学习的新手及有经验的 从业者全面理解支撑深度学习的基础理论,以及现代深度学习架构和技术的关键概念, 为读者未来在专业领域的深造打下坚实的基础。鉴于深度学习领域知识的广泛性和变 化速度,我们有意避免写一本涵盖最新研究的全面综述。相反,我们在本书中展现了 对深度学习关键思想、基础和概念的提炼,这些基础和概念在该领域过去和将来的快 速发展中历久弥新。例如,在撰写本书时,大语言模型正在迅速演进,然而其底层的 Transformer 架构和注意力机制在过去 5 年基本保持不变,并且机器学习的许多核心原 则已被人们熟知数十年。
负责任地使用技术
深度学习是一项功能强大、适用范围广泛的技术,具有为世界创造巨大价值和应 对社会最紧迫挑战的潜力。这些特点也意味着有人可能蓄意滥用深度学习技术,引发 意外伤害。我们选择不讨论深度学习使用中的伦理或社会层面问题,因为这些话题非 常复杂,超出了本书作为计算机教材的讨论范畴。不过,我们仍然希望读者通过本书 加深对底层技术及其工作原理的理解,并希望本书为上述问题的讨论做出有价值的贡 献。我们强烈建议读者关注技术工作更广泛的影响,并在学习技术本身的同时,了解 如何负责任地使用深度学习和人工智能。
本书的内容结构
本书分为 20 章,每一章均探讨一个具体的主题。我们以线性结构组织本书内 容,即每章的内容仅依赖于前面章节中的材料。本书非常适合用来教授两个学期的本科或研究生机器学习课程,同样也适合那些正在积极研究或自学深度学习的读者 参考。
要清晰地理解机器学习,必然需要具备一定程度的高等数学知识。具体来说,机器学习的核心由三个数学领域构成:概率论、线性代数和多元微积分(也称多变量微 积分)。本书提供了对所需概率论概念的完备介绍,还通过附录 A 概括了线性代数的 一些有用结论。尽管附录 B 和附录 C 分别提供了关于变分法和拉格朗日乘子的介绍, 但我们假定读者已经熟悉多变量微积分的基本概念。本书的重点是传达清晰的概念理 解,强调的是那些在现实世界中具有实用价值的技术,而不是抽象的理论。我们尽可 能从多个互补的视角(例如文本描述、图表和数学公式)呈现复杂的概念。此外,我 们使用独立的板块总结了许多关键算法,这些总结虽然没有提高算法的计算效率,但 是补充了文中的数学说明。因此,我们希望不同背景的读者都能理解本书中的内容。
从概念上讲,本书或许自然而然会被视为 Networks for Pattern Recognition(Bishop, 1995b)的后续作品,后者首次从统计学角度全面介绍了神经网络。本书可以看作 Pattern Recognition and Machine Learning(Bishop, 2006)的“姊妹篇”,虽然后者 出版于深度学习革命之前,但是其中涵盖了机器学习领域更广泛的议题。本书采用 了 Pattern Recognition and Machine Learning 中的一部分相关内容并进行了改写,以 更专注于深入学习所需的基础概念,确保内容能自成一体。但这也意味着 Pattern Recognition and Machine Learning 中的很多有趣且历久弥新的机器学习议题并没有出 现在这本新书中。例如,Pattern Recognition and Machine Learning 深入讨论了贝叶斯 方法,而本书几乎不讲贝叶斯方法。
本书实拍
第一章样章试读: