当前位置：首页 > news >正文

使用Hugging Face训练自定义重排模型(Reranker)完全指南

news 2025/11/3 23:29:53

使用Hugging Face训练自定义重排模型(Reranker)完全指南

在信息检索和搜索系统中，重排模型(Reranker)扮演着至关重要的角色。它们能够对初步检索到的文档进行精确排序，确保最相关的内容出现在结果列表的顶部。本文将详细介绍如何使用Hugging Face提供的工具和库来训练自己的重排模型，并提供完整的安装、训练和部署流程。

什么是重排模型

重排模型(Reranker)是一种特殊类型的神经网络模型，专门用于评估查询(query)和文档(document)之间的相关性。与嵌入模型(Embedding Model)不同，重排模型不会将文本转换为向量，而是直接输出一个相关性得分。这使得重排模型能够捕捉到更细微的语义关系，提高搜索结果的质量。

在这里插入图片描述

重排模型在检索流程中的位置

在典型的检索增强生成(RAG)系统中，重排模型通常位于检索流程的第二阶段：

初步检索：使用向量数据库和嵌入模型快速检索出大量潜在相关文档
重排序：使用重排模型对初步检索的结果进行精确排序
生成：将排序后的最相关文档提供给大语言模型，生成最终回答

这种"检索-重排-生成"的流程能够显著提高系统的准确性和效率。

在这里插入图片描述

环境准备与安装

安装必要依赖

# 安装所需的库
!pip install transformers datasets torch accelerate evaluate
!pip install InstructorEmbedding  # 用于对比实验
!pip install sentence-transformers  # 用于模型训练和评估

配置训练环境

# 导入必要的库
import os
import torch
import numpy as np
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import TrainingArguments, Trainer
from sentence_transformers import SentenceTransformer, CrossEncoder
from sentence_transformers.cross_encoder import CrossEncoder
import evaluate

# 设置随机种子，确保实验可重现
def set_seed(seed: int):
    """
    设置所有随机种子以确保实验结果可重现
    
    参数:
        seed: 随机种子值
    """
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed_all(seed)

set_seed(42)

# 检查GPU可用性
device = torch.device("cuda" if torch.cuda.available() else "cpu")
print(f"使用设备: {device}")

数据准备

训练重排模型需要特定格式的数据集，通常包含查询、文档和相关性标签三个要素。

加载示例数据集

# 加载MSMARCO数据集作为示例
# MSMARCO是一个大规模的问答和自然语言处理数据集
dataset = load_dataset("ms_marco", "v2.1")
print(f"数据集结构: {dataset}")

# 查看数据集示例
print("训练集示例:")
print(dataset["train"][0])

数据预处理

def preprocess_function(examples):
    """
    预处理数据集中的样本，为重排模型训练准备输入
    
    参数:
        examples: 数据集样本
        
    返回:
        处理后的样本字典
    """
    # 提取查询和文档
    queries = examples["query"]
    documents = examples["passages"]["passage_text"]
    
    # 获取标签（相关性得分）
    # MSMARCO数据集中，1表示相关，0表示不相关
    labels = examples["relevance"]
    
    # 构建模型输入
    model_inputs = {
        "query": queries,
        "document": documents,
        "label": labels
    }
    
    return model_inputs

# 应用预处理函数
processed_dataset = dataset.map(preprocess_function, batched=True)

# 分割数据集
train_dataset = processed_dataset["train"].select(range(10000))  # 选取部分数据用于训练
eval_dataset = processed_dataset["validation"].select(range(1000))  # 选取部分数据用于验证

创建自定义数据集

如果你有自己的数据，可以按照以下格式准备：

# 自定义数据集示例
from datasets import Dataset

# 准备数据
custom_data = {
    "query": ["如何训练重排模型?", "深度学习入门教程", "Python编程基础"],
    "document": ["本教程介绍了重排模型的训练方法", "深度学习是机器学习的一个分支", "Python是一种简单易学的编程语言"],
    "label": [1, 0, 1]  # 1表示相关，0表示不相关
}

# 创建数据集
custom_dataset = Dataset.from_dict(custom_data)
print(custom_dataset)

模型训练

重排模型的训练本质上是一个分类或回归问题，我们可以利用预训练的语言模型进行微调。

准备模型

# 选择基础模型
model_name = "google/bert_uncased_L-4_H-512_A-8"  # 使用小型BERT模型作为示例

# 初始化分类器模型
model = AutoModelForSequenceClassification.from_pretrained(
    model_name,
    num_labels=1  # 使用1表示回归问题（输出相关性分数）
)

# 初始化tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)

定义数据处理函数

def tokenize_function(examples):
    """
    对输入的查询和文档进行tokenize处理
    
    参数:
        examples: 包含query和document的样本
        
    返回:
        tokenize后的结果
    """
    # 将查询和文档拼接，使用[SEP]分隔
    texts = [q + tokenizer.sep_token + d for q, d in zip(examples["query"], examples["document"])]
    
    # tokenize文本
    result = tokenizer(
        texts,
        padding="max_length",
        truncation=True,
        max_length=512,
        return_tensors="pt"
    )
    
    # 添加标签
    result["labels"] = examples["label"]
    
    return result

# 应用tokenize函数
tokenized_train = train_dataset.map(tokenize_function, batched=True)
tokenized_eval = eval_dataset.map(tokenize_function, batched=True)

使用Trainer进行训练

# 定义评估指标
metric = evaluate.load("accuracy")

def compute_metrics(eval_pred):
    """
    计算评估指标
    
    参数:
        eval_pred: 预测结果
        
    返回:
        评估指标字典
    """
    predictions, labels = eval_pred
    predictions = predictions.reshape(-1)
    predictions = (predictions > 0.5).astype(int)  # 二分类阈值设为0.5
    return metric.compute(predictions=predictions, references=labels)

# 定义训练参数
training_args = TrainingArguments(
    output_dir="./results/reranker-model",
    learning_rate=5e-5,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    push_to_hub=False,  # 设置为True可以将模型上传到HuggingFace Hub
)

# 初始化Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_eval,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)

# 开始训练
print("开始训练模型...")
trainer.train()

# 保存模型
trainer.save_model("./reranker-model-final")
print("模型已保存到 ./reranker-model-final")

使用sentence-transformers训练

除了使用transformers库，还可以使用sentence-transformers库提供的CrossEncoder来训练重排模型，这通常更加简便：

# 准备数据
train_samples = []
for sample in train_dataset:
    train_samples.append((sample["query"], sample["document"], sample["label"]))

eval_samples = []
for sample in eval_dataset:
    eval_samples.append((sample["query"], sample["document"], sample["label"]))

# 初始化CrossEncoder
cross_encoder = CrossEncoder(
    model_name,
    num_labels=1,  # 回归任务
    max_length=512,
    device=device
)

# 训练模型
cross_encoder.fit(
    train_dataloader=train_samples,
    evaluator=eval_samples,
    epochs=3,
    warmup_steps=500,
    output_path="./cross-encoder-reranker"
)

模型评估

评估重排模型的性能对于了解其有效性至关重要。

使用测试集评估

# 加载测试数据
test_dataset = processed_dataset["test"].select(range(1000))
tokenized_test = test_dataset.map(tokenize_function, batched=True)

# 评估模型
test_results = trainer.evaluate(tokenized_test)
print(f"测试结果: {test_results}")

评估指标

重排模型常用的评估指标包括：

import numpy as np
from sklearn.metrics import ndcg_score, precision_recall_curve, auc

def evaluate_reranker(queries, documents, relevance, predictions):
    """
    评估重排模型性能的函数
    
    参数:
        queries: 查询列表
        documents: 文档列表
        relevance: 真实相关性标签
        predictions: 模型预测的相关性分数
        
    返回:
        包含各项评估指标的字典
    """
    # 计算MRR (Mean Reciprocal Rank)
    def calculate_mrr(relevances, predictions):
        # 按预测分数排序
        sorted_indices = np.argsort(predictions)[::-1]
        sorted_relevances = relevance[sorted_indices]
        
        # 找到第一个相关文档的位置
        for i, rel in enumerate(sorted_relevances):
            if rel > 0:
                return 1.0 / (i + 1)
        return 0.0
    
    # 计算NDCG (Normalized Discounted Cumulative Gain)
    ndcg = ndcg_score([relevance], [predictions])
    
    # 计算MRR
    mrr = calculate_mrr(relevance, predictions)
    
    # 计算Precision-Recall曲线下面积
    precision, recall, _ = precision_recall_curve(relevance, predictions)
    pr_auc = auc(recall, precision)
    
    return {
        "NDCG": ndcg,
        "MRR": mrr,
        "PR AUC": pr_auc
    }

# 获取预测结果
predictions = trainer.predict(tokenized_test)
predicted_scores = predictions.predictions.reshape(-1)

# 评估重排模型
test_queries = test_dataset["query"]
test_documents = test_dataset["document"]
test_relevance = np.array(test_dataset["label"])

evaluation_results = evaluate_reranker(
    test_queries,
    test_documents,
    test_relevance,
    predicted_scores
)

print("评估结果:")
for metric, value in evaluation_results.items():
    print(f"{metric}: {value:.4f}")

模型部署

训练好的重排模型可以通过多种方式进行部署和使用。

使用Hugging Face Transformers

# 加载保存的模型
from transformers import AutoModelForSequenceClassification, AutoTokenizer

saved_model_path = "./reranker-model-final"
loaded_model = AutoModelForSequenceClassification.from_pretrained(saved_model_path)
loaded_tokenizer = AutoTokenizer.from_pretrained(saved_model_path)

def rerank_documents(query, documents, model, tokenizer, device="cpu"):
    """
    使用训练好的重排模型对文档进行重新排序
    
    参数:
        query: 用户查询
        documents: 待排序的文档列表
        model: 重排模型
        tokenizer: 分词器
        device: 计算设备
        
    返回:
        按相关性降序排列的(文档,得分)列表
    """
    # 将模型移至指定设备
    model = model.to(device)
    model.eval()
    
    # 准备输入
    inputs = []
    for doc in documents:
        inputs.append(query + tokenizer.sep_token + doc)
    
    # Tokenize输入
    encoded_inputs = tokenizer(
        inputs,
        padding=True,
        truncation=True,
        max_length=512,
        return_tensors="pt"
    ).to(device)
    
    # 预测相关性得分
    with torch.no_grad():
        outputs = model(**encoded_inputs)
        scores = outputs.logits.squeeze(-1).tolist()
    
    # 将文档与得分配对并排序
    doc_score_pairs = list(zip(documents, scores))
    ranked_results = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    
    return ranked_results

# 示例用法
query = "如何训练深度学习模型"
docs = [
    "深度学习模型训练需要大量数据和计算资源",
    "Python是一种流行的编程语言",
    "TensorFlow和PyTorch是常用的深度学习框架",
    "训练深度学习模型通常需要GPU加速"
]

ranked_docs = rerank_documents(query, docs, loaded_model, loaded_tokenizer)
print("重排序结果:")
for doc, score in ranked_docs:
    print(f"得分: {score:.4f} - 文档: {doc}")

使用sentence-transformers

# 加载训练好的CrossEncoder
from sentence_transformers.cross_encoder import CrossEncoder

cross_encoder_path = "./cross-encoder-reranker"
cross_encoder = CrossEncoder(cross_encoder_path)

def rerank_with_cross_encoder(query, documents):
    """
    使用CrossEncoder进行文档重排序
    
    参数:
        query: 用户查询
        documents: 文档列表
        
    返回:
        按相关性排序的(文档,得分)列表
    """
    # 准备输入对
    query_doc_pairs = [(query, doc) for doc in documents]
    
    # 预测得分
    scores = cross_encoder.predict(query_doc_pairs)
    
    # 将文档与得分配对并排序
    doc_score_pairs = list(zip(documents, scores))
    ranked_results = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
    
    return ranked_results

# 使用CrossEncoder进行重排序
ranked_with_cross_encoder = rerank_with_cross_encoder(query, docs)
print("\nCrossEncoder重排序结果:")
for doc, score in ranked_with_cross_encoder:
    print(f"得分: {score:.4f} - 文档: {doc}")

部署到生产环境

对于生产环境，可以考虑以下部署方式：

# 使用Flask创建API
from flask import Flask, request, jsonify

app = Flask(__name__)

# 加载模型(全局变量)
model_path = "./reranker-model-final"
model = AutoModelForSequenceClassification.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

@app.route('/rerank', methods=['POST'])
def rerank_api():
    """
    重排序API端点
    
    请求体格式:
    {
        "query": "用户查询",
        "documents": ["文档1", "文档2", ...]
    }
    
    返回:
    {
        "ranked_documents": [
            {"document": "文档内容", "score": 得分},
            ...
        ]
    }
    """
    data = request.json
    query = data.get('query', '')
    documents = data.get('documents', [])
    
    if not query or not documents:
        return jsonify({"error": "查询和文档不能为空"}), 400
    
    # 调用重排序函数
    ranked_docs = rerank_documents(query, documents, model, tokenizer)
    
    # 格式化结果
    result = {
        "ranked_documents": [
            {"document": doc, "score": float(score)} 
            for doc, score in ranked_docs
        ]
    }
    
    return jsonify(result)

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

# 测试API (使用curl或Python requests)
"""
import requests

url = "http://localhost:5000/rerank"
payload = {
    "query": "如何训练深度学习模型",
    "documents": [
        "深度学习模型训练需要大量数据和计算资源",
        "Python是一种流行的编程语言",
        "TensorFlow和PyTorch是常用的深度学习框架",
        "训练深度学习模型通常需要GPU加速"
    ]
}
response = requests.post(url, json=payload)
print(response.json())
"""

实际应用案例

让我们来看一个结合向量搜索和重排模型的完整RAG系统示例。

搭建RAG系统

# 导入必要的库
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 1. 知识库准备
documents = [
    "TensorFlow是由Google开发的开源机器学习框架，适用于大规模分布式训练。",
    "PyTorch是由Facebook AI Research开发的深度学习框架，以动态计算图著称。",
    "深度学习是机器学习的一个子领域，使用多层神经网络进行特征学习。",
    "自然语言处理(NLP)是AI的一个分支，专注于计算机理解和生成人类语言。",
    "卷积神经网络(CNN)主要用于图像处理，通过卷积层提取特征。",
    "循环神经网络(RNN)适合处理序列数据，如文本和时间序列。",
    "Transformer模型通过自注意力机制处理序列数据，是现代NLP模型的基础。",
    "BERT是由Google开发的预训练语言模型，基于Transformer架构。",
    "GPT是由OpenAI开发的自回归语言模型，用于生成文本。",
    "迁移学习是一种方法，允许将一个任务上学到的知识应用到另一个相关任务。"
]

# 2. 嵌入模型初始化
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')

# 3. 生成文档嵌入
document_embeddings = embedding_model.encode(documents)

# 4. 加载重排模型
reranker = CrossEncoder('./cross-encoder-reranker')

def rag_system(query, top_k=5):
    """
    完整的检索增强生成系统
    
    参数:
        query: 用户查询
        top_k: 初始检索的文档数量
        
    返回:
        重排序后的文档列表
    """
    # 步骤1: 向量搜索 - 初步检索
    query_embedding = embedding_model.encode([query])[0]
    
    # 计算余弦相似度
    similarities = cosine_similarity([query_embedding], document_embeddings)[0]
    
    # 获取前top_k个结果
    top_indices = np.argsort(similarities)[-top_k:][::-1]
    retrieved_docs = [documents[i] for i in top_indices]
    
    # 步骤2: 使用重排模型进行精确排序
    query_doc_pairs = [(query, doc) for doc in retrieved_docs]
    rerank_scores = reranker.predict(query_doc_pairs)
    
    # 对检索结果重新排序
    reranked_results = [(retrieved_docs[i], rerank_scores[i]) 
                         for i in range(len(retrieved_docs))]
    reranked_results.sort(key=lambda x: x[1], reverse=True)
    
    return reranked_results

# 测试RAG系统
test_query = "深度学习框架有哪些？"
results = rag_system(test_query)

print(f"查询: {test_query}")
print("\n重排序后的文档:")
for doc, score in results:
    print(f"得分: {score:.4f} - {doc}")

进阶优化技巧

要进一步提升重排模型的性能，可以考虑以下优化技巧：

使用更好的基础模型

# 使用更强大的基础模型
advanced_model_name = "microsoft/deberta-v3-base"  # 或其他强大的预训练模型

# 初始化模型
advanced_model = AutoModelForSequenceClassification.from_pretrained(
    advanced_model_name,
    num_labels=1
)
advanced_tokenizer = AutoTokenizer.from_pretrained(advanced_model_name)

增强数据集质量

# 使用硬负样本挖掘(Hard Negative Mining)提升数据质量
def generate_hard_negatives(query, positive_docs, embedding_model, corpus, top_k=5):
    """
    为查询生成硬负样本
    
    参数:
        query: 查询
        positive_docs: 相关文档列表
        embedding_model: 嵌入模型
        corpus: 文档语料库
        top_k: 返回的硬负样本数量
        
    返回:
        硬负样本列表
    """
    # 生成查询嵌入
    query_embedding = embedding_model.encode(query)
    
    # 生成语料库嵌入(在实际应用中应该预先计算)
    corpus_embeddings = embedding_model.encode(corpus)
    
    # 计算相似度
    similarities = cosine_similarity([query_embedding], corpus_embeddings)[0]
    
    # 获取相似文档，但排除正例
    ranked_indices = np.argsort(similarities)[::-1]
    hard_negatives = []
    
    for idx in ranked_indices:
        doc = corpus[idx]
        # 排除正例文档
        if doc not in positive_docs:
            hard_negatives.append(doc)
            if len(hard_negatives) >= top_k:
                break
                
    return hard_negatives

# 示例用法
query = "什么是深度学习"
positive_docs = ["深度学习是机器学习的一个子领域，使用多层神经网络进行特征学习。"]
hard_negs = generate_hard_negatives(query, positive_docs, embedding_model, documents)

print("硬负样本:")
for doc in hard_negs:
    print(f"- {doc}")

多阶段训练策略

# 多阶段训练示例
def multi_stage_training():
    """
    多阶段训练策略
    """
    print("第一阶段：使用一般数据进行训练")
    # 使用一般训练数据
    trainer.train()
    
    print("第二阶段：使用硬负样本进行微调")
    # 准备硬负样本数据集
    # ...
    
    # 使用较小的学习率进行微调
    finetuning_args = TrainingArguments(
        output_dir="./results/reranker-model-finetuned",
        learning_rate=1e-5,  # 更小的学习率
        per_device_train_batch_size=16,
        per_device_eval_batch_size=16,
        num_train_epochs=2,
        weight_decay=0.01,
        evaluation_strategy="epoch",
        save_strategy="epoch",
        load_best_model_at_end=True,
    )
    
    # 更新Trainer
    # trainer.args = finetuning_args
    # trainer.train_dataset = hard_negative_dataset
    
    # 继续训练
    # trainer.train()

蒸馏技术应用

# 知识蒸馏示例
def knowledge_distillation():
    """
    知识蒸馏：从大型教师模型迁移知识到小型学生模型
    """
    # 加载教师模型
    teacher_model_name = "cross-encoder/ms-marco-MiniLM-L-12-v2"
    teacher_model = CrossEncoder(teacher_model_name)
    
    # 准备数据集
    distillation_examples = []
    for sample in train_dataset:
        distillation_examples.append((sample["query"], sample["document"]))
    
    # 使用教师模型生成软标签
    teacher_scores = teacher_model.predict(distillation_examples)
    
    # 准备学生模型训练数据
    student_train_data = []
    for i, (query, doc) in enumerate(distillation_examples):
        student_train_data.append((query, doc, float(teacher_scores[i])))
    
    # 训练学生模型(使用教师生成的软标签)
    student_model = CrossEncoder(
        "google/bert_uncased_L-4_H-512_A-8",
        num_labels=1
    )
    
    # 学生模型训练
    student_model.fit(
        train_dataloader=student_train_data,
        epochs=3,
        output_path="./distilled-reranker"
    )