当前位置：首页 > news >正文

GLUE任务

news 2025/10/5 6:56:40

GLUE（General Language Understanding Evaluation） 是 NLP 里非常重要的一个评测基准，几乎所有预训练模型（BERT、RoBERTa、GPT-2…）都用它来证明效果。

1. 什么是 GLUE？

全称：General Language Understanding Evaluation benchmark
提出时间：2018 年
作用：一个 NLP 综合测评平台，用一系列下游任务来测试模型的语言理解能力。
类似于“语言理解的期末考试”。

2. GLUE 包含哪些任务？

GLUE 总共 9 个任务，涵盖了 句子分类、文本相似度、自然语言推理 等。

任务	数据集	任务类型	举例
CoLA	语法可接受性	判断句子是否语法正确	"He is runs" ❌
SST-2	情感分类	积极/消极	"This movie is great" → Positive
MRPC	语义相似度	两句是否语义相同	"He is a teacher" vs "He teaches" → 同义
QQP	问题相似度	两个问题是否重复	"How to learn NLP?" vs "Best way to study NLP?"
STS-B	语义文本相似度	输出 0~5 的相似度分数	"A man is eating" vs "Someone eats"
MNLI	自然语言推理	前提-假设关系（蕴含/矛盾/中立）	Premise: "A man is running" → Hypothesis: "A man is moving" (蕴含)
QNLI	问答	判断句子是否包含答案	Question: "Where is Paris?" → Sentence: "Paris is in France"
RTE	识别文本蕴含	判断句子是否蕴含	"The dog barked" → "The animal made a noise"
WNLI	Winograd 代词消歧	判断代词指代	"The trophy doesn’t fit in the suitcase because it is too big." ("it" → trophy)

3. 评估方式

每个任务都有标准数据集（训练/验证/测试集）
模型在这些任务上 fine-tune，然后提交预测结果
GLUE 提供统一的 leaderboard 排行榜

常见指标：

Accuracy
F1
Matthews correlation (for CoLA)
Pearson/Spearman (for STS-B)

最终给一个 平均分数，衡量模型综合能力。

总结：

GLUE = NLP 模型的综合测评基准
包含 9 个任务，覆盖情感分析、相似度、推理等
评估方式：统一指标 + leaderboard 排名
后来有更难的 SuperGLUE

http://www.dtcms.com/a/442318.html

相关文章：

【VS2022】LNK assimp64.lib找不到文件_openframework

【架构艺术】构建变更风险防控能力市场的一些经验

代做网站推广的公司wix做网站手机乱了

操作系统应用开发(二十一)RustDesk 域名访问故障—东方仙盟筑基期

做网站的都是直男癌吗创业做网站

JPA/Hibernate 批量插入实战：告别低效，实现真正的 MySQL 批量写入

做企业网站需要准备什么材料口碑最好的旅游软件排名

鸿蒙开发4--鸿蒙页面导航Router与参数传递详解

容器生命周期与管理策略

依托 Amazon Bedrock 生成式 AI 能力，结合 Slack 生态与亚马逊云科技服务构建企业级图像生成 App 的全流程解析

设计师可以做兼职的网站国外优惠卷网站如何做

小企业常用的进销存软件有哪些

Filebeat+Kafka+ELK 日志采集实战

『C++成长记』一颗会搜索的二叉树

【经验分享】JWE 详解：比 JWT 更安全的令牌技术

【连载6】数据库未来发展趋势展望，附例子，避坑指南以及面试题

【深度学习计算机视觉】09：语义分割和数据集——核心概念与关键技术解析

直播网站建设重庆数据分析师35岁以后怎么办

【Ray大模型分布式训练】

浦东做营销网站天津网站建设制作

网站建设网银江西门户网站建设

[初学C语言]C语言数据类型和变量

资源提示符

人机协同如何突破功能分配的 “天花板”？

Spring Cloud Netflix Ribbon：微服务的客户端负载均衡利器

Docker 数据卷与存储机制（持久化与共享实战）

做环评工作的常用网站电商网站分析

【常用字符串相关函数】

unsigned 是等于 unsigned int

营销型企业网站建设案例网站建设功能分为几种