数据集格式化内容提要解析 (70)
数据集格式化内容提要解析
- 数据集格式化
-
- 内容提要
- 导入(Imports)库
- 目标
- 前置知识
- 分词示例
数据集格式化
内容提要
在本次课程中,我们将:
- 理解定义合适对话模板的重要性
- 探讨多种格式化方案,包括自定义格式化函数与模板
- 配置分词器(tokenizer)和模型的嵌入层(embedding layer)
- 探究打包数据集(packed datasets)以及用于数据加载的不同数据整理器(data collators)
导入(Imports)库
为保证代码结构清晰,某一课程所用代码中需要的所有库,都会在代码开头统一导入。本课程需要导入以下库:
import torch
from datasets import load_dataset, Dataset
from peft import prepare_model_for_kbit_training, get_p