当前位置：首页 > news >正文

基于Transformers的文本相似度

news 2025/8/10 1:40:30

一：文本匹配与文本相似度介绍

1.1 什么是文本匹配任务

文本匹配（Text Match）是一个较为宽泛的概念，基本上只要涉及到两段文本之间关系的，都可以被看作是一种文本匹配的任务，只是在具体的场景下，不同的任务对匹配二字的定义可能是存在差异的，具体的任务场景包括文本相似度计算、问答匹配、对话匹配、文本推理等等，另外，如之前介绍的抽取式机器阅读理解和多项选择，本质上也都是文本匹配。
本文章重点关注文本相似度任务，即判断两段文本是不是表达了同样的语义。

1.2 文本相似度举例

二：基于Transformers的解决方案

2.1 解决方案1

数据处理格式
- 输入数据由两个句子组成，分别为 Sentence A 和 Sentence B，并用特殊标记 [CLS] 和 [SEP] 进行分隔。
- [CLS] 是一个特殊的标记，通常用于表示整个输入序列的聚合信息，适用于分类任务。
- [SEP] 是分隔符，用于区分不同的句子或文本段。

模型训练方式
- 在模型训练过程中，输入的句子对将被送入 Transformer 模型（如 BERT）。
- 模型的输出将用于计算句子对之间的相似度，输出的相似度值范围为 0 或 1，表示两个句子是否相似。

三：代码实战演练（交互模式）

数据集
- simCLUE/train_pair_1w.json
- 数据集下载：https://github.com/CLUEbenchmark/SimCLUE/tree/main
- 数据集样式：
预训练模型
- hfl/chinese-macbert-base
- 训练方式：模型输出维度为2，softmax后取最大下标

3.1 Step1 导入相关包

from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from datasets import load_dataset

3.2 Step2 加载数据集

dataset = load_dataset("json", data_files="./train_pair_1w.json", split="train")

3.3 Step3 划分数据集

datasets = dataset.train_test_split(test_size=0.2)

3.4 Step4 数据集预处理

import torch

tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-macbert-base")

def process_function(examples):
    tokenized_examples = tokenizer(examples["sentence1"], examples["sentence2"], max_length=128, truncation=True)
    tokenized_examples["labels"] = [int(label) for label in examples["label"]]
    return tokenized_examples

tokenized_datasets = datasets.map(process_function, batched=True, remove_columns=datasets["train"].column_names)

3.5 Step5 创建模型

from transformers import BertForSequenceClassification 
model = AutoModelForSequenceClassification.from_pretrained("hfl/chinese-macbert-base")

3.6 Step6 创建评估函数

import evaluate

acc_metric = evaluate.load("accuracy")
f1_metirc = evaluate.load("f1")

def eval_metric(eval_predict):
    predictions, labels = eval_predict
    predictions = predictions.argmax(axis=-1)
    acc = acc_metric.compute(predictions=predictions, references=labels)
    f1 = f1_metirc.compute(predictions=predictions, references=labels)
    acc.update(f1)
    return acc

3.7 Step7 创建TrainingArguments

train_args = TrainingArguments(output_dir="./cross_model",      # 输出文件夹
                               per_device_train_batch_size=32,  # 训练时的batch_size
                               per_device_eval_batch_size=32,   # 验证时的batch_size
                               logging_steps=10,                # log 打印的频率
                               eval_strategy="epoch",           # 评估策略
                               save_strategy="epoch",           # 保存策略
                               save_total_limit=3,              # 最大保存数
                               learning_rate=2e-5,              # 学习率
                               weight_decay=0.01,               # weight_decay
                               metric_for_best_model="f1",      # 设定评估指标
                               load_best_model_at_end=True)     # 训练完成后加载最优模型

3.8 Step8 创建Trainer

from transformers import DataCollatorWithPadding
trainer = Trainer(model=model, 
                  args=train_args, 
                  tokenizer=tokenizer,
                  train_dataset=tokenized_datasets["train"], 
                  eval_dataset=tokenized_datasets["test"], 
                  data_collator=DataCollatorWithPadding(tokenizer=tokenizer),
                  compute_metrics=eval_metric)

3.9 Step9 模型训练

trainer.train()

3.10 Step10 模型评估

trainer.evaluate(tokenized_datasets["test"])

3.11 Step11 模型预测

model.config.id2label = {0: "不相似", 1: "相似"}
pipe = pipeline("text-classification", model=model, tokenizer=tokenizer, device=0)
result = pipe({"text": "我喜欢北京", "text_pair": "天气怎样"})

四：代码实战演练（交互模式优化）

问题：如果我们需要从很多个候选项中匹配出最相似的选项。那么上面的方法就失效了，因为你不知道具体有多少个选项，所以就无法确定模型输出多少维。
解决方法：
- 让模型只输出一个数值。根据数值（score）的大小来对预测值进行分类。使用均方误差来计算损失。
- 举例：假设需要在句子B和C中找出最相似的句子。那么就可以分别计算A和B、A和C的相似度值（score），然后对这两个值进行softmax后，取最大值作为匹配结果。例图如下：

4.1 Step4 数据集预处理优化

因为我们需要使用均方误差损失，所以需要将label的值从int类型转换为float类型，方便后续计算。

import torch

tokenizer = AutoTokenizer.from_pretrained("hfl/chinese-macbert-base")

def process_function(examples):
    tokenized_examples = tokenizer(examples["sentence1"], examples["sentence2"], max_length=128, truncation=True)
    tokenized_examples["labels"] = [float(label) for label in examples["label"]] # 优化部分
    return tokenized_examples

tokenized_datasets = datasets.map(process_function, batched=True, remove_columns=datasets["train"].column_names)

4.2 Step5 创建模型优化

因为我们现在的模型只需要输出一个结果，所以模型的num_labels要设为1。当不指定这个参数值时，默认为2。

model = AutoModelForSequenceClassification.from_pretrained("hfl/chinese-macbert-base", num_labels=1)

4.3 Step6 创建评估函数优化

因为输出只有一个结果，所以我们规定，当输出的值大于0.5时，我们认为预测试为1（相似）。反之，预测值为0（不相似）。还有，上面将label转换成了float，现在需要转回int。

def eval_metric(eval_predict):
    predictions, labels = eval_predict
    predictions = [int(p > 0.5) for p in predictions] # 优化部分
    labels = [int(l) for l in labels]
    # predictions = predictions.argmax(axis=-1)
    acc = acc_metric.compute(predictions=predictions, references=labels)
    f1 = f1_metirc.compute(predictions=predictions, references=labels)
    acc.update(f1)
    return acc

4.4 Step11 模型预测优化

因为pipeline中没有对softmax后的结果进行处理，所以我们只需要获取模型的原始输出，不需要进行任何后处理，所以设置参数function_to_apply="none"。然后自己处理原始数据：当模型返回的score大于0.5时，预测标签为“相似”。反之，则为“不相似”。

result = pipe({"text": "我喜欢北京", "text_pair": "天气怎样"}, function_to_apply="none")
result["label"] = "相似" if result["score"] > 0.5 else "不相似"

查看全文

http://www.dtcms.com/a/44974.html

小红书自动评论

大模型—如何从huggingface上下载并调用模型

每天一个Flutter开发小项目 (8) : 掌握Flutter网络请求 - 构建每日名言应用

RuoYi框架介绍，以及如何基于Python使用RuoYi框架

DeepSeek 使用窍门与提示词写法指南

Spark基础篇 RDD、DataFrame与DataSet的关系、适用场景与演进趋势

聊聊Java的SPI机制

SocketCAN(linux中启用CAN)

fs 文件系统模块

linux-docker及docker-compose相关命令

驱动开发系列40 - Linux 显卡驱动KMD代码分析（一） - 设备初始化过程

langchain4j+local-ai小试牛刀

辛格迪客户案例 | 鼎康生物电子合约系统(eSign)项目

基于Kerberos认证对接华为云Elasticsearch

【时序预测】在线学习：算法选择（从线性模型到深度学习解析）

（南京观海微电子）——倍压设计与应用

Python----数据分析（Numpy：安装，数组创建，切片和索引，数组的属性，数据类型，数组形状，数组的运算，基本函数）

【大模型】fp32 和 fp16 的区别，混合精度的原理。

中科大计算机网络原理 1.5 Internt结构和ISP

OSI七层模型：从入门到精通的全面解析

ES from size聚合查询10000聚合查询，是每个分片先聚合，再统计。还是所有节点查询1万条后，再聚合

Linux服务器防火墙白名单访问策略的配置示例

电子电气架构 --- 汽车行业技术变革

2023-Moectf-wp

EtherCAT总线学习笔记

【Python】基础语法三

微服务学习（2）：实现SpringAMQP对RabbitMQ的消息收发

普通人高效使用DeepSeek指南?

复现NC图表：二分图 (bipartite plot) 网络绘制（三种方法）-应用于细胞互作受配体展示-调控网络展示等等

Windows安装sql server2017