Language Models are Few-Shot Learners: 开箱即用的GPT-3(四)
Result续
Winograd-Style Tasks
Winograd-Style Tasks 是自然语言处理中的一类经典任务。它源于 Winograd Schema Challenge(WSC),主要涉及确定代词指的是哪个单词,旨在评估模型的常识推理和自然语言理解能力。
这个任务中的具体通常包含高度歧义的代词,但从语义角度看,人类很容易确定其指代对象。例如 “市议会拒绝了妇女团体提出的游行申请,因为他们担心暴力问题”,这里的 “他们” 显然指的是 “市议会”。模型需要利用常识和语义信息来正确解析这类代词的指代关系。
The Winograd Schemas Challenge [LDM12] is a classical task in NLP that involves determining which word a pronoun refers to, when the pronoun is grammatically ambiguous but semantically unambiguous to a human.
当前的一些fine-tune的模型已经接近了人类的水平,但是在一个更高级的数据集Winogrande dataset上还差点意思,当然GPT-3也是在这两个数据集上完成了测试。