大模型训练全流程
第一阶段:预训练(Pre-training)
数据收集与处理
预训练是构建大型语言模型的基础阶段。在这个阶段,我们从互联网上收集海量文本数据(如网页、书籍等),并将其转化为令牌序列。这个阶段,数据质量至关重要,需要经过过滤、去重和语言分类等步骤。
数据来源:主要使用Common Crawl等大规模网络爬虫数据集。这些数据集包含了数十亿个网页,但原始数据质量参差不齐,需要经过严格的筛选。
数据过滤流程:
- URL过滤:去除恶意网站、垃圾网站、成人内容等
- 文本提取:从HTML中提取纯文本内容,去除导航、广告等无关信息
- 语言过滤:主要保留英文内容(如FineWeb数据集要求65%以上为英文)
- 去重处理:去除重复或高度相似的内容
- PII移除:去除个人身份信息,保护隐私
数据规模:以FineWeb数据集为例,经过处理后约为44TB,包含约15万亿个令牌。虽然互联网数据量巨大,但经过质量筛选后,实际用于训练的数据量相对可控。
令牌化(Tokenization)
基本原理:文本需要转换为模型能够理解的数字