自定义格式化数据(BYOFD)(81)
自定义格式化数据(BYOFD,Bring Your Own Formatted Data)
我们可以自行完全掌控数据集的格式化与预处理过程。在此情况下,训练器的唯一工作便是对已完成格式化的提示词(prompts)进行分词处理。需要再次强调的是,格式化后的数据必须与基础模型在预训练阶段所接触的数据结构保持一致,这一点至关重要。
因此,我们可以通过定义一个格式化函数,并调用数据集的map()方法将该函数应用于数据集中的每一个元素,以此完成对小型数据集的格式化。但需注意,Hugging Face 数据集基于 Python 字典构建,所以若要创建一个包含格式化提示词的列,我们需要定义一个返回字典的函数
def byofd_formatting_func(examples):
messages = examples["messages"