huggingface/trl的单卡训练reward model示例
#!/usr/bin/env python3
"""
基于Hugging Face TRL的Reward Model训练示例
使用偏好数据集训练reward model,用于强化学习中的奖励信号
"""import os
import json
import argparse
from typing import Dict, Optional
import torch
from transformers import (AutoTokenizer,AutoModelForSequenceClassification