当前位置: 首页 > news >正文

GLUE任务

GLUE(General Language Understanding Evaluation) 是 NLP 里非常重要的一个评测基准,几乎所有预训练模型(BERT、RoBERTa、GPT-2…)都用它来证明效果。


1. 什么是 GLUE?

  • 全称:General Language Understanding Evaluation benchmark

  • 提出时间:2018 年

  • 作用:一个 NLP 综合测评平台,用一系列下游任务来测试模型的语言理解能力。

  • 类似于“语言理解的期末考试”。


2. GLUE 包含哪些任务?

GLUE 总共 9 个任务,涵盖了 句子分类、文本相似度、自然语言推理 等。

任务数据集任务类型举例
CoLA语法可接受性判断句子是否语法正确"He is runs" ❌
SST-2情感分类积极/消极"This movie is great" → Positive
MRPC语义相似度两句是否语义相同"He is a teacher" vs "He teaches" → 同义
QQP问题相似度两个问题是否重复"How to learn NLP?" vs "Best way to study NLP?"
STS-B语义文本相似度输出 0~5 的相似度分数"A man is eating" vs "Someone eats"
MNLI自然语言推理前提-假设关系(蕴含/矛盾/中立)Premise: "A man is running" → Hypothesis: "A man is moving" (蕴含)
QNLI问答判断句子是否包含答案Question: "Where is Paris?" → Sentence: "Paris is in France"
RTE识别文本蕴含判断句子是否蕴含"The dog barked" → "The animal made a noise"
WNLIWinograd 代词消歧判断代词指代"The trophy doesn’t fit in the suitcase because it is too big." ("it" → trophy)

3. 评估方式

  • 每个任务都有标准数据集(训练/验证/测试集)

  • 模型在这些任务上 fine-tune,然后提交预测结果

  • GLUE 提供统一的 leaderboard 排行榜

常见指标:

  • Accuracy

  • F1

  • Matthews correlation (for CoLA)

  • Pearson/Spearman (for STS-B)

最终给一个 平均分数,衡量模型综合能力。


 总结

  • GLUE = NLP 模型的综合测评基准

  • 包含 9 个任务,覆盖情感分析、相似度、推理等

  • 评估方式:统一指标 + leaderboard 排名

  • 后来有更难的 SuperGLUE

http://www.dtcms.com/a/442318.html

相关文章:

  • 【VS2022】LNK assimp64.lib找不到文件_openframework
  • 【架构艺术】构建变更风险防控能力市场的一些经验
  • 代做网站推广的公司wix做网站手机乱了
  • 操作系统应用开发(二十一)RustDesk 域名访问故障—东方仙盟筑基期
  • 做网站的都是直男癌吗创业做网站
  • JPA/Hibernate 批量插入实战:告别低效,实现真正的 MySQL 批量写入
  • 做企业网站需要准备什么材料口碑最好的旅游软件排名
  • 鸿蒙开发4--鸿蒙页面导航Router与参数传递详解
  • 容器生命周期与管理策略
  • 依托 Amazon Bedrock 生成式 AI 能力,结合 Slack 生态与亚马逊云科技服务构建企业级图像生成 App 的全流程解析
  • 设计师可以做兼职的网站国外优惠卷网站如何做
  • 小企业常用的进销存软件有哪些
  • Filebeat+Kafka+ELK 日志采集实战
  • 『C++成长记』一颗会搜索的二叉树
  • 【经验分享】JWE 详解:比 JWT 更安全的令牌技术
  • 【连载6】数据库未来发展趋势展望,附例子,避坑指南以及面试题
  • 【深度学习计算机视觉】09:语义分割和数据集——核心概念与关键技术解析
  • 直播网站建设重庆数据分析师35岁以后怎么办
  • 【Ray大模型分布式训练】
  • 浦东做营销网站天津网站建设制作
  • 网站建设网银江西门户网站建设
  • [初学C语言]C语言数据类型和变量
  • 资源提示符
  • 人机协同如何突破功能分配的 “天花板”?
  • Spring Cloud Netflix Ribbon:微服务的客户端负载均衡利器
  • Docker 数据卷与存储机制(持久化与共享实战)
  • 做环评工作的常用网站电商网站分析
  • 【常用字符串相关函数】
  • unsigned 是等于 unsigned int
  • 营销型企业网站建设案例网站建设功能分为几种