AIGC学习笔记—minimind详解+训练+推理
前言
这个开源项目是带我的一个导师,推荐我看的,记录一下整个过程,总结一下收获。这个项目的slogan是“大道至简”,确实很简。作者说是这个项目为了帮助初学者快速入门大语言模型(LLM),通过从零开始训练一个仅26MB的微型语言模型MiniMind,最快可在3小时内完成。降低学习LLM的门槛,让更多人能够轻松上手。
MiniMind极其轻量,约为GPT-3的1/7000,适合普通个人GPU进行快速推理和训练。项目基于DeepSeek-V2和Llama3结构,涵盖数据处理、预训练、指令微调(SFT)、偏好优化(DPO)等全部阶段,支持混合专家(MoE)模型。所有代码、数据集及其来源均公开,兼容主流框架,如transformers和DeepSpeed,支持单机单卡及多卡训练,并提供模型测试及OpenAI API接口。
下面放一个官方给的结果
一、使用conda搭建环境
这里不做过多赘述了,创建一个这个项目的独立虚拟环境,在这个环境下装所需的库,如下是我的软硬件环境配置(根据自己情况酌情变动):
- Windows11
- Python == 3.9
- Pytorch == 2.1.2
- CUDA == 11.8
- requirements.txt
二、准备数据集
下载到./dataset/
目录下
MiniMind训练数据集 | 下载地址 |
tokenizer训练集 | HuggingFace / 百度网盘 |
Pretrain数据 | Seq-Monkey官方 / 百度网盘 / HuggingFace |
SFT数据 | 匠数大模型SFT数据集 |
DPO数据 | Huggingface |
这里我就是用官方的了,后续我会打包整体的上传上去,免费下载,要不**某网盘还得冲svip,为了这个会员我差点叫了一声爸爸.....但是这里我想解释一下这个数据集,因为一开始我确实不了解,记录下来
Tokenizer训练集:这个数据集用于训练分词器(tokenizer),其任务是将文本数据转化为模型可以处理的词汇单元。
Pretrain数据:用于模型的预训练确保模型能够学习通用的语言模式。
SFT数据:该数据集专门用于指令微调(SFT),使模型能够更好地理解和执行用户的具体指令。SFT是提高模型实际应用能力的重要步骤。
DPO数据:这个数据集主要用于偏好优化(DPO),旨在帮助模型通过用户反馈来改进模型输出的质量和相关性,从而更好地满足用户需求。
三、训练tokenizer
话不多说先上代码,在记录一下我在看这个代码中了解的知识以及总结。
def train_tokenizer():
# 读取JSONL文件并提取文本数据
def read_texts_from_jsonl(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
for line in f:
data = json.loads(line)
yield data['text']
# 数据集路径
data_path = './dataset/tokenizer/tokenizer_train.jsonl'
# 初始化分词器(tokenizer),使用BPE模型
tokenizer = Tokenizer(models.BPE())
# 预处理为字节级别
tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)
# 定义特殊token
special_tokens = ["<unk>", "<s>", "</s>"] # 未知token、开始token、结束token
# 设置训练器并添加特殊token
trainer = trainers.BpeTrainer(
vocab_size=6400, # 词汇表大小
special_tokens=special_tokens, # 确保这三个token被包含
show_progress=True,
# 初始化字母表
initial_alphabet=pre_tokenizers.ByteLevel.alphabet()
)
# 读取文本数据
texts = read_texts_from_jsonl(data_path)
print(texts)
exit()
# 训练tokenizer
tokenizer.train_from_iterator(texts, trainer=trainer)
# 设置解码器
tokenizer.decoder = decoders.ByteLevel()
# 检查特殊token的索引
assert tokenizer.token_to_id("<unk>") == 0
assert tokenizer.token_to_id("<s>") == 1
assert tokenizer.token_to_id("</s>") == 2
# 保存tokenizer
tokenizer_dir = "./model/yzh_minimind_tokenizer"
os.makedirs(tokenizer_dir, exist_ok=True)
tokenizer.save(os.path.join(tokenizer_dir, "tokenizer.json")) # 保存tokenizer模型
# 保存BPE模型
tokenizer.model.save("./model/yzh_minimind_tokenizer")
# 手动创建配置文件
config = {
"add_bos_token": False,
"add_eos_token": False,
"add_prefix_space": True,
"added_tokens_decoder": {
"0": {
"content": "<unk>",
"lstrip": False,
"normalized": False,
"rstrip": False,
"single_word": False,
"special": True
},
"1": {
"content": "<s>",
"lstrip": False,
"normalized": False,
"rstrip": False,
"single_word": False,
"special": True
},
"2": {
"content": "</s>",
"lstrip": False,
"normalized": False,
"rstrip": False,
"single_word": False,
"special": True
}
},
"additional_special_tokens": [],
"bos_token": "<s>",
"clean_up_tokenization_spaces": False,
"eos_token": "</s>",
"legacy": True,
"model_max_length": 1000000000000000019884624838656,
"pad_token": None,
"sp_model_kwargs": {},
"spaces_between_special_tokens": False,
"tokenizer_class": "PreTrainedTokenizerFast",
"unk_token": "<unk>",
"use_default_system_prompt": False,
"chat_template": "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<s>user\\n' + content + '</s>\\n<s>assistant\\n' }}{% elif message['role'] == 'assistant' %}{{ content + '</s>' + '\\n' }}{% endif %}{% endfor %}"
}
# 保存配置文件
with open(os.path.join(tokenizer_dir, "tokenizer_config.json"), "w", encoding="utf-8") as config_file:
json.dump(config, config_file, ensure_ascii=False, indent=4)
print("Tokenizer training completed and saved.")
从代码上来看,分词器使用的是BPE模型Tokenizer(models.BPE()),这条代码就是初始化一个字节对编码(Byte Pair Encoding,BPE)分词器,直接使用库就可以,但是这里我建议同学们去了解一下BPE,这里我推荐一篇博客,供大家学习。BPE 算法原理及使用指南【深入浅出】-CSDN博客
小辉问:这里面有几个库的函数解释一下
gpt答:
tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)
- 功能:设置分词器的预处理器为
ByteLevel
。ByteLevel
:这一预处理器会将输入文本处理为字节级别的tokens,保留每个字节的原始表示,适用于处理各种字符(如中文、特殊符号等)。add_prefix_space=False
表示在每个词的前面不添加空格,适合某些特定的模型需求。
trainer = trainers.BpeTrainer( vocab_size=6400,
special_tokens=special_tokens,
show_progress=True, initial_alphabet=pre_tokenizers.ByteLevel.alphabet() )
- 功能:创建一个
BpeTrainer
实例,用于训练基于字节对编码(BPE)的分词器。vocab_size=6400
:指定词汇表的大小为6400,这意味着训练后分词器将保留6400个最常用的tokens。special_tokens=special_tokens
:将预定义的特殊tokens(如<unk>
、<s>
、</s>
)传递给训练器,确保这些tokens在训练过程中被考虑。show_progress=True
:在训练过程中显示进度条,方便监控训练进展。initial_alphabet=pre_tokenizers.ByteLevel.alphabet()
:使用字节级预处理器的字母表作为训练的初始字母表,确保所有可能的字节都被考虑。
tokenizer.train_from_iterator(texts, trainer=trainer)
- 功能:开始训练分词器。
train_from_iterator(texts, trainer=trainer)
:使用提供的文本迭代器和训练器来训练分词器。分词器会根据传入的文本数据学习如何将文本划分为tokens。
tokenizer.decoder = decoders.ByteLevel()
- 功能:设置分词器的解码器为
ByteLevel
。ByteLevel()
:该解码器用于将token IDs转换回原始文本,能够正确处理字节级表示,确保解码时还原出与输入文本一致的内容。这一过程是确保模型输出可读性的重要环节。小辉问:为什么要手动定义config?
gpt答:因为配置文件的结构与
Tokenizer(models.BPE())
推理的过程是密切相关的,配置文件的结构和内容直接影响Tokenizer(models.BPE())
在推理时的性能和效果。一个合理的配置文件可以确保分词器在处理输入文本时的一致性和有效性,从而提高模型的整体表现。
如下两图则表明训练完成,这个过程挺吃内存的,我的电脑是16GB,如果说内存复制失败,重启,再跑一下试试,我看起来16G刚刚够用.....
四、数据预处理
处理文本数据,从原始文本数据集中提取文本内容、将其编码为 token ID,并以二进制格式存储到文件中,以便后续模型的预训练使用。它还处理了一些潜在的错误情况,并在处理完后将多个文件合并为一个最终的预训练数据文件。具体工作如下:
处理文本数据
-
process_seq_monkey
函数负责读取一个 JSON Lines 格式的数据集文件 (mobvoi_seq_monkey_general_open_corpus.jsonl
),并对文本内容进行处理。 -
它按指定的块大小(默认为 50,000 行)逐块读取数据。
提取与编码
-
对于每一块中的每个对象,它提取文本内容,并检查内容长度是否超过 512 个字符。如果文本长度超过 512,则跳过该条记录。
-
使用一个 tokenizer 将提取的文本内容转换为 token ID,并在文本前后添加开始和结束标记(
bos_token
和eos_token
)。 -
将转换后的 token ID 添加到
doc_ids
列表中。
错误处理
-
在处理过程中,如果遇到 Unicode 解码错误,将打印出错误信息,并跳过该行记录。
数据存储
-
一旦
doc_ids
列表的长度超过 1,000,000,便将其转换为 NumPy 数组,并以二进制格式写入一个输出文件 (clean_seq_monkey.bin
)。 -
处理完一块后,会更新块索引并打印处理信息。
-
在处理完所有数据后,如果
doc_ids
列表中还有剩余的数据,便进行最后一次存储。
预训练数据合并
-
pretrain_process
函数负责调用process_seq_monkey
函数,并合并所有处理后的数据。 -
它从指定的二进制文件中读取数据,并将其加载为 NumPy 数组。
-
最后,将所有合并的数据写入一个新的二进制文件 (
pretrain_data.bin
)。
def process_seq_monkey(chunk_size=50000):
doc_ids = [] # 初始化一个空列表,用于存储文档的token ID
chunk_idx = 0 # 初始化块索引
# 使用jsonlines库打开JSON Lines格式的数据集文件
with jsonlines.open('./dataset/dataset/mobvoi_seq_monkey_general_open_corpus.jsonl') as reader:
while True:
# 读取指定大小的块数据
chunk = list(itertools.islice(reader, chunk_size))
if not chunk: # 如果没有更多数据,退出循环
break
# 遍历当前块中的每一项
for idx, obj in enumerate(chunk):
try:
content = obj.get('text', '') # 获取文本内容
if len(content) > 512: # 如果文本长度大于512,则跳过
continue
# 使用tokenizer将文本转换为token ID,并添加开始和结束标记
text_id = tokenizer(f'{bos_token}{content}{eos_token}').data['input_ids']
doc_ids += text_id # 将token ID添加到列表中
except UnicodeDecodeError as e: # 捕获解码错误
print(f"Skipping invalid line {chunk_idx * chunk_size + idx + 1}: {e}") # 打印错误信息,跳过无效行
continue
chunk_idx += 1 # 更新块索引
print(f"Processed chunk {chunk_idx} with {chunk_size} lines") # 打印处理的块信息
# 如果doc_ids列表的长度超过1000000,进行数据存储
if len(doc_ids) > 1000000:
arr = np.array(doc_ids, dtype=np.uint16) # 将doc_ids转换为NumPy数组
# 以追加模式打开输出文件
with open(f'./dataset/clean_seq_monkey.bin', 'ab') as f:
f.write(arr.tobytes()) # 将数组的字节写入文件
doc_ids = [] # 清空doc_ids列表,以便下一块数据使用
# 如果还有剩余的doc_ids,进行最后一次数据存储
if doc_ids:
arr = np.array(doc_ids, dtype=np.uint16) # 将剩余的doc_ids转换为NumPy数组
with open(f'./dataset/clean_seq_monkey.bin', 'ab') as f:
f.write(arr.tobytes()) # 将数组的字节写入文件
def pretrain_process():
# process_wiki_clean()
process_seq_monkey()
data_path_list = [
# './dataset/clean-wikipedia-cn.bin',
'./dataset/clean_seq_monkey.bin'
]
data_lst = []
for data_path in data_path_list:
with open(data_path, 'rb') as f:
data = np.fromfile(f, dtype=np.uint16)
data_lst.append(data)
arr = np.concatenate(data_lst)
print(arr.shape)
with open('./dataset/pretrain_data.bin', 'wb') as f:
f.write(arr.tobytes())
pretrain_process()
五、模型预训练
执行1-pretrain.py,这里就不放代码了,但是可以详细读一读,我们可以理解为训练一个Transformer模型,Transformer预训练的主要目的是通过大规模无监督文本学习,掌握语言的广泛表示能力,从而为不同的下游任务(如机器翻译、文本分类、文本生成等)提供通用的语言理解能力,并减少对有标注数据的依赖,同时增强模型的泛化能力。
预训练的目标可以分为以下几点:
- 学习通用语言模式:通过在大量文本数据上进行预训练,Transformer模型能够捕捉到语言中的词汇关系、句子结构、语法规则以及上下文依赖等知识。这使得模型在面对不同语言任务时能够更好地理解文本的含义。
- 提高下游任务的性能:预训练后的模型已经掌握了丰富的语言知识,因此在处理特定任务时,只需进行少量的微调(fine-tuning),模型就能快速适应,并在这些任务上取得较好的效果。例如,预训练的模型可以应用于情感分析、问答系统等任务中,显著提升效果。
- 减少标注数据的需求:由于预训练是基于无监督数据的,减少了对大量标注数据的依赖。在后续任务中,仅需要少量的有标注数据进行微调即可。这极大地降低了数据收集和标注的成本。
- 模型泛化能力增强:通过在大量且多样化的文本数据上进行训练,预训练的Transformer模型具备更强的泛化能力,能够适应各种不同类型的文本任务,而不局限于特定领域的数据。
六、SFT监督微调
在语言模型领域,SFT 是常见的一个阶段,用于在预训练模型基础上,通过监督学习将模型微调到更具体的任务上。微调的过程中,模型通过大量的标注数据进行训练,调整参数,以提高在对话任务上的表现。可以看看这个训练代码3-full_sft.py,和预训练代码风格类似,支持分布式数据并行训练,和wandb可视化训练的过程。生成以下模型
七、测试预训练模型
python 0-eval_pretrain.py
测试结果:
八、测试sft模型
python 2-eval.py
测试结果:
根据上面的结果,不难看出一件事儿,就是预训练模型虽然是“接话”式回答,却产生了重复生成的现象,这是一个经典问题,通过我的mentor的指导,可以考虑加在采样的时候加上惩罚loss,解决这个问题是不错的事情,可以加深理解......后续这个解决方案,和结果一定会更新。
sft测试结果明显很受预训练模型的影响,但是回答问题却不是“接话”式的,后续加上lora和dpo看看效果怎么样