GLUE任务
GLUE(General Language Understanding Evaluation) 是 NLP 里非常重要的一个评测基准,几乎所有预训练模型(BERT、RoBERTa、GPT-2…)都用它来证明效果。
1. 什么是 GLUE?
全称:General Language Understanding Evaluation benchmark
提出时间:2018 年
作用:一个 NLP 综合测评平台,用一系列下游任务来测试模型的语言理解能力。
类似于“语言理解的期末考试”。
2. GLUE 包含哪些任务?
GLUE 总共 9 个任务,涵盖了 句子分类、文本相似度、自然语言推理 等。
任务 | 数据集 | 任务类型 | 举例 |
---|---|---|---|
CoLA | 语法可接受性 | 判断句子是否语法正确 | "He is runs" ❌ |
SST-2 | 情感分类 | 积极/消极 | "This movie is great" → Positive |
MRPC | 语义相似度 | 两句是否语义相同 | "He is a teacher" vs "He teaches" → 同义 |
QQP | 问题相似度 | 两个问题是否重复 | "How to learn NLP?" vs "Best way to study NLP?" |
STS-B | 语义文本相似度 | 输出 0~5 的相似度分数 | "A man is eating" vs "Someone eats" |
MNLI | 自然语言推理 | 前提-假设关系(蕴含/矛盾/中立) | Premise: "A man is running" → Hypothesis: "A man is moving" (蕴含) |
QNLI | 问答 | 判断句子是否包含答案 | Question: "Where is Paris?" → Sentence: "Paris is in France" |
RTE | 识别文本蕴含 | 判断句子是否蕴含 | "The dog barked" → "The animal made a noise" |
WNLI | Winograd 代词消歧 | 判断代词指代 | "The trophy doesn’t fit in the suitcase because it is too big." ("it" → trophy) |
3. 评估方式
每个任务都有标准数据集(训练/验证/测试集)
模型在这些任务上 fine-tune,然后提交预测结果
GLUE 提供统一的 leaderboard 排行榜
常见指标:
Accuracy
F1
Matthews correlation (for CoLA)
Pearson/Spearman (for STS-B)
最终给一个 平均分数,衡量模型综合能力。
总结:
GLUE = NLP 模型的综合测评基准
包含 9 个任务,覆盖情感分析、相似度、推理等
评估方式:统一指标 + leaderboard 排名
后来有更难的 SuperGLUE