Alpaca指令微调实战:Dolly-15K数据增强让LLaMA-2效果飙升82%
实战项目:使用 Dolly-15K 数据集构建 Alpaca 指令风格训练数据
一、Dolly-15K 数据集与 Alpaca 格式解析
1.1 原始数据集结构解析
Dolly-15K 是由 Databricks 团队开源的指令微调数据集,包含 15,000 条高质量训练样本。原始数据结构如下:
[{"instruction": "Write a poem about autumn","context": ""<