大模型引言
什么是大模型?
大模型,通常指大规模预训练语言模型,它是一个基于Transformer架构,在海量文本数据上训练而成的深度学习模型。
您可以将其理解为一个吸收了互联网级别知识的“超级大脑”。它不像传统AI那样是“专才”(如下围棋的AlphaGo只会下围棋),而是一个“通才”,能够通过自然语言对话,灵活处理各种任务,如回答问题、撰写文章、翻译、编程、逻辑推理等。
为什么是“大”?
“大”是质变的关键,主要体现在三个相互支撑的维度:
-
参数规模大:知识的容量
-
参数是模型内部学到的“知识单元”,数量从数亿到数万亿不等(例如,GPT-3有1750亿个参数)。
-
参数越多,模型的“脑容量”就越大,能存储和理解的规律、知识就越复杂、越细微。
-
-
训练数据海量:学习的素材
-
训练数据通常达到数万亿个词元,覆盖了互联网上的百科、新闻、书籍、代码等。
-
海量数据确保了模型能接触到人类语言的多样性和丰富的世界知识,避免成为“井底之蛙”。
-
-
计算资源消耗大:实现的成本
-
训练如此庞大的模型需要成千上万的高性能GPU/TPU运算数周甚至数月,成本极高。
-
这是支撑前两个“大”的物理基础,构成了极高的技术门槛。
-
“大”的终极体现:涌现能力
当以上三个维度突破某个临界点后,模型会“突然”展