大模型0基础开发入门与实践:第8章 “大力出奇迹”的哲学:大语言模型的核心技术揭秘
第8章 “大力出奇迹”的哲学:大语言模型的核心技术揭秘
1. 引言
在过去的几章里,我们精心研究了如何设计一个更聪明的“大脑”(神经网络架构),如何让它高效地学习(训练范式)。现在,我们面临一个简单而又深刻的问题:如果想让这个“大脑”变得更聪明,最有效的方法是什么?
在AI的早期,研究者们尝试了各种精巧的算法和复杂的特征工程,试图用“巧劲”来提升模型性能。然而,自2017年以来,尤其是随着GPT系列模型的演进,人们发现了一条看似“简单粗暴”却被证明是通往通用人工智能(AGI)的康庄大道——扩大规模(Scaling)。
这便是大语言模型(Large Language Model, LLM)领域最核心的哲学之一:“大力出奇迹”。研究者们发现,当模型的参数量、用于训练的数据量和投入的计算量,这三者等比例地、持续地跨越数个数量级时,模型的性能不仅会稳步提升,更会在某个临界点之后,涌现出小型模型完全不具备的、令人惊叹的“智能”。
这就像建造一座摩天大楼。你可以优化10层楼的设计,让它更坚固、更美观。但无论你怎么优化,它也无法拥有100层楼才能提供的城市视野。要达到那种高度,唯一的方法就是投入更多的钢筋、混凝土和工程力量,向上建造。
本章,我们将深入探索“大力出奇迹”背后的科学依据和工程奇迹。
本章学习目标: