Megatron-Core 进行大规模语言模型(LLM)训练【专题2】
6. Evaluation and Tasks
我们提供了多个命令行参数,详细信息见以下脚本,用于处理各种zero-shot和微调的下游任务。然而,您也可以根据需要在其他语料库上微调预训练模型。为此,只需添加–finetune标志,并调整输入文件和训练参数即可。在微调时,迭代次数将重置为零,优化器和内部状态也会重新初始化。如果微调因任何原因中断,继续训练时请务必移除–finetune标志,否则训练将从头开始。
由于评估所需的内存显著低于训练,因此将并行训练的模型合并,以便在较少的GPU上进行下游任务可能是有利的。以下脚本实现了这一功能。该示例读取一个使用4-way张量并行和4-way管道并行的GPT模型,并输出一个使用2-way张量和2-way管道并行的模型。
python tools/checkpoint/convert.py \ # 运行 checkpoint 转换脚本--model-type GPT \ # 指定模型类型为 GPT--load-dir checkpo