当前位置：首页 > news >正文

从 MMLU 到 HumanEval：为什么评估大型语言模型（LLM）的基准至关重要？

news 2025/9/4 8:40:58

大型语言模型（LLM）如同雨后春笋般涌现，GPT-4、LLaMA、Claude 等 modeller 在各种认知任务上展现出惊人的能力。然而，面对琳琅满目的模型，我们该如何公正、有效地评估它们的真实水平？是看它们能否写出优美的诗歌，还是更能解决复杂的数学问题？

本篇文章将深入探讨几种主流的 LLM 评估基准，如 MMLU、HumanEval 等，解释它们的核心原理、评估侧重点，并阐述为什么选择正确的基准是理解和比较 LLM 能力的关键。文章中将包含代码示例，帮助您理解评测过程。

① 引言 · LLM 评测的“试金石”

评估 LLM，就像给学生考试。如果考试题目过于简单，就无法区分出不同学生的真实水平；如果题目偏门，也无法体现学生在核心知识点的掌握程度。对于 LLM 而言，评测基准 (Benchmark) 就是试金石，它为我们提供了一套标准化、可量化的方法来测试模型的理解、推理、生成等多种能力。

为什么 LLM 评测如此重要？

模型选型：帮助开发者和研究者根据具体需求，选择最适合的 LLM。

能力衡量：量化模型在不同领域的表现，如常识推理、编码能力、语言理解等。

进展跟踪：驱动模型研究与迭代，推动 LLM 能力的不断提升。

科学透明：提供客观依据，避免“黑箱”决策，增强模型应用的可靠性。

“选对基准，事半功倍。” 不同的任务需要不同的评估工具。

② MMLU · 衡量 LLM 的“博学”程度

MMLU (Massive Multitask Language Understanding) 是目前衡量 LLM 在广泛学科领域知识掌握程度的最流行、最具代表性的基准之一。它旨在测试模型在 57 个不同学科（包括人文、社科、STEM 等）上的零样本 (Zero-shot) 和少样本 (Few-shot) 推理能力。

核心原理：

MMLU 的核心思想是，一个真正强大的 LLM 应该能够像人类一样，在接触过的信息基础上，理解和回答各种专业领域的问题。

数据集构成：

包含 57 个科目，每个科目下有大量的多项选择题 (Multiple Choice Questions, MCQ)。

题目涵盖入门级到专家级难度。

例如，可能包含“微积分”、“美国历史”、“法律”、“医学”等科目。

评测方式：

零样本 (Zero-shot): 模型在没有看到任何题目示例的情况下，直接回答问题。

少样本 (Few-shot): 在回答测试问题前，模型会看到少量（如 5 个）来自同一科目的示例问题及其答案。这能帮助模型更好地理解题目类型和上下文。

评估指标： Accuracy (准确率) 是 MMLU 的主要指标。

MMLU 的优点：

全面性：覆盖了极广的学科范围，能很好地体现模型的“博学”程度。

标准化：提供了一致的评测框架，便于不同模型间的比较。

挑战性：许多问题需要深厚的知识储备和推理能力。

MMLU 的局限性：

主要侧重知识记忆与检索：对模型的推理、规划、创造性等方面评估相对有限。

多项选择题形式：有时模型可能通过“猜测”答对，而非真正的理解。

可能存在数据泄露风险：随着模型训练数据的不断扩大，是否存在 MMLU 数据集出现在模型训练集中的情况，是持续被讨论的问题。

代码示例（概念性）：

假设我们有一个 MMLU 数据集 sample，内容是科目、问题、选项和正确答案：

<PYTHON>

# MMLU 数据集样本 (简化)

mmlu_data = [

{"subject": "physics", "question": "What is the SI unit of force?",

"options": {"A": "Joule", "B": "Newton", "C": "Watt", "D": "Pascal"}, "answer": "B"},

{"subject": "history", "question": "Who was the first president of the USA?",

"options": {"A": "Thomas Jefferson", "B": "Abraham Lincoln", "C": "George Washington", "D": "John Adams"}, "answer": "C"},

# ... 更多科目和问题

]

def evaluate_mmlu_zero_shot(model, dataset):

correct_count = 0

total_count = 0

for item in dataset:

total_count += 1

prompt = f"Question: {item['question']}\nOptions: {item['options']['A']}, {item['options']['B']}, {item['options']['C']}, {item['options']['D']}\nAnswer: "

# 假设 model.predict() 返回模型生成的答案 (如 "B")

predicted_answer = model.predict(prompt)

if predicted_answer.strip().upper() == item['answer']:

correct_count += 1

# print(f"Correct: {item['question']} -> {predicted_answer}") # 打印正确答案

# else:

# print(f"Incorrect: {item['question']} -> Predicted: {predicted_answer}, Actual: {item['answer']}") # 打印错误答案

accuracy = (correct_count / total_count) * 100

print(f"MMLU Zero-shot Accuracy: {accuracy:.2f}%")

return accuracy

# 假设有一个 mock_model 对象，可以模拟 predict 方法

class MockLLM:

def predict(self, prompt):

# 模拟模型根据问题回答，这里简化为基于关键词匹配

if "SI unit of force" in prompt: return "B"

if "first president of the USA" in prompt: return "C"

return "A" # 默认回答

mock_model = MockLLM()

# evaluate_mmlu_zero_shot(mock_model, mmlu_data) # 实际运行时会调用模型

③ HumanEval · 衡量 LLM 的“编程思维”

在软件开发领域，代码生成能力是衡量 AI Agent 或 LLM 的一个关键维度。HumanEval 是由 OpenAI 发布的、专门用于评估 LLM 代码生成能力的基准。它包含了 164 个经过精心设计的编程问题，每个问题都要求模型根据函数签名、文档字符串和若干测试用例，编写出正确的 Python 函数。

核心原理：

HumanEval 旨在模拟软件开发中的一个核心场景：开发者需要理解需求（文档字符串），并编写出满足这些需求的代码（函数体）。通过执行模型生成的代码并检查其是否通过预设的测试用例，来评估其编程能力。

数据集构成：

包含 164 个编程问题。

每个问题提供：

task_id: 任务唯一标识。

prompt: 包含函数签名、文档字符串，以及一些函数体（可能为空或部分实现）。

canonical_solution: (用于参考，不直接给模型) 问题的标准答案。

test: 包含一系列用于验证模型输出的 Python 测试代码（assert 语句）。

entry_point: 模型需要实现的函数名。

评测方式：

模型接收 prompt，生成函数体。

将生成的代码与 entry_point 结合，并在一个安全隔离的环境（如 Docker 容器）中运行。

执行 test 中定义的断言，检查生成的代码是否与预期一致。

评估指标：

Pass@k: 这是 HumanEval 的核心指标。它表示模型生成 k 个独立的代码样本，其中至少有一个样本能够通过所有测试用例的概率。

通常报告 Pass@1 (单个样本通过率), Pass@10, Pass@100 等。Pass@1 直接反映了模型生成“正确”代码的能力，而较高的 Pass@k 则说明模型在生成多样化、可修复的尝试中表现更佳。

HumanEval 的优点：

直接衡量可执行能力：评估的是模型是否能生成实际运行的代码，而非仅仅是文本。

注重逻辑与推理：编写正确的代码需要严谨的逻辑思维和对算法的理解。

软件开发相关性：对于面向软件开发的 LLM (如 Copilot, StarCoder) 具有直接的参考价值。

HumanEval 的局限性：

主要面向 Python：目前数据集以 Python 为主，对其他语言的评估覆盖不足。

偏重函数实现：对整个软件项目的结构设计、大型系统集成等能力评估有限。

测试用例的完整性：模型的表现很大程度上依赖于测试用例的覆盖度和质量。

代码示例（核心评测脚本逻辑，简化）：

import subprocess

import json

import os # 用于文件操作

# human_eval_dataset 是一个列表，每个元素是一个问题的字典，包含 prompt, test, entry_point 等

# 假设我们已经加载了 HumanEval 的数据集

# from datasets import load_dataset

# human_eval_dataset = load_dataset("codeparrot/github-code", "human-eval")['test'] # 实际加载方式

# 这是一个模拟的 HumanEval 数据集项

sample_problem = {

"task_id": "HumanEval/0",

"prompt": """def fib(n):

\"\"\"

Given a positive integer n, return the nth Fibonacci number.

"\"\"\"

\n""",

"test": """\nassert fib(0) == 0

assert fib(1) == 1

assert fib(2) == 1

assert fib(3) == 2

assert fib(4) == 3

assert fib(5) == 5

assert fib(6) == 8

assert fib(7) == 13

assert fib(8) == 21

assert fib(9) == 34

assert fib(10) == 55

""",

"entry_point": "fib"

}

def execute_and_test(model, problem_data):

"""

使用模型生成代码，并在隔离环境中运行测试。

返回 True 如果所有测试通过, False 否则。

"""

entry_point = problem_data["entry_point"]

prompt = problem_data["prompt"]

tests = problem_data["test"]

# --- 1. 使用模型生成函数体 ---

# 假设 model.generate_code(prompt) 调用 LLM 返回完整函数定义

# 例如: "def fib(n):\n if n < 0:\n return 'Invalid input'\n elif n == 0:\n return 0\n elif n == 1:\n return 1\n else:\n a, b = 0, 1\n for _ in range(n - 1):\n a, b = b, a + b\n return b"

try:

generated_function_body = model.generate_code(prompt)

except Exception as e:

print(f"Error generating code for {problem_data['task_id']}: {e}")

return False # 生成失败

# --- 2. 组合成完整代码 ---

full_code = generated_function_body + "\n" + tests

# --- 3. 在隔离环境中执行 ---

# 创建一个临时文件来存放代码

temp_file_name = f"temp_solution_{problem_data['task_id'].replace('/', '_')}.py"

with open(temp_file_name, "w") as f:

f.write(full_code)

# 使用 subprocess 调用 Python 解释器执行测试

# 实际评测会使用 Docker 隔离，这里简化为直接调用 python

try:

# 使用 'python -m unittest <temp_file_name>' 也可以，主要看测试组织方式

# 对于 HumanEval，通常是导入并执行 assert 语句

# 这里直接模拟 subprocess 执行，假设脚本能产生非零退出码（错误）或零退出码（成功）

# 更正规的做法是：将测试代码也包装成一个可执行的 unittest.TestCase

# subprocess.run(['python', '-c', f'from {entry_point} import *; {tests}'], check=True)

# 简化：模拟测试执行

result = subprocess.run(['python', '-c', full_code], capture_output=True, text=True, check=False) # check=False 避免因错误中断

if result.returncode == 0:

# 检查 stdout/stderr 是否有异常输出，尽管 retcode = 0

# LLM 可能会输出额外信息，需要谨慎处理

if "AssertionError" in result.stderr or "AssertionError" in result.stdout:

return False # 即使 returncode=0, 也可能存在断言失败，复杂场景需细化

return True # 所有测试通过 (最简化的判断)

else:

# print(f"Execution failed for {problem_data['task_id']}: {result.stderr}")

return False # 测试未通过

except Exception as e:

print(f"Execution error for {problem_data['task_id']}: {e}")

return False

finally:

# 清理临时文件

if os.path.exists(temp_file_name):

os.remove(temp_file_name)

# 模拟一个 LLM 能够生成代码（非常简陋的模拟）

class MockCodeLLM:

def generate_code(self, prompt):

if "fib(n)" in prompt:

return '''def fib(n):

"""

Given a positive integer n, return the nth Fibonacci number.

"""

if n < 0:

raise ValueError("Input must be a non-negative integer")

elif n == 0:

return 0

elif n == 1:

return 1

else:

a, b = 0, 1

for _ in range(n - 1):

a, b = b, a + b

return b'''

# return "def fib(n):\n return n # 故意错误的代码" # 用于测试失败

return "def fib(n):\n pass # 故意空的代码" # 模拟空实现

# mock_code_model = MockCodeLLM()

# if execute_and_test(mock_code_model, sample_problem):

# print(f"Problem {sample_problem['task_id']} passed.")

# else:

# print(f"Problem {sample_problem['task_id']} failed.")

⑤ 进阶与趋势 · 更多基准与评测挑战

除了 MMLU 和 HumanEval，还有许多其他的评测基准，它们侧重于 LLM 的不同能力：

GLUE / SuperGLUE: 衡量语言理解能力，如文本蕴含、文本相似度、问题回答等。

ARC (AI2 Reasoning Challenge): 侧重于科学推理，包含常识性问题和需要复杂推理的问题。

HellaSwag: 自动推理任务，要求模型从多个选项中选择最合乎常理的句子续写。

GSM8K: 衡量基础数学应用题的解决能力。

Big-Bench: 一个包含数百种任务的超大型基准，旨在探索 LLM 的极限能力。

评测 LLM 的挑战：

训练数据污染：模型可能在训练过程中“见过”评测题目，导致过高分数。需要构建动态、新颖的评测集。

多模态评测：如何公平地评估模型在文本、图像、音频等多种模态下的综合和交叉能力？

安全性与公平性：模型是否存在偏见、是否会生成有害内容？这些也需要专门的评测。

“涌现能力”的定义与衡量： LLM 在规模增大后出现的“能力飞跃”，如何对其进行有效量化？

评测成本：运行大型模型进行全维度评测，耗时耗力且成本高昂。

结语：

选择合适的评测基准，是理解和驾驭 LLM 能力的关键。MMLU 让我们看到模型的“知识广度”，HumanEval 则检验了其“编程智慧”。随着 LLM 技术日新月异，我们也需要不断探索和发展更全面、更具挑战性的评测方法，以确保 AI 技术真正造福人类。

创作不易，如果本文为您提供了新的视角或知识，请不吝点赞、收藏、关注。您的认可是我前进的动力！

查看全文

http://www.dtcms.com/a/365341.html

策略模式 + 工厂模式

海伯森检测应用案例之--光学板轮廓及瑕疵检测

嵌入式 Linux 启动流程详解 (以 ARM + U-Boot 为例)

[Ai Agent] 打造一个真正可落地的客服智能体

论文理解：Reflexion: Language Agents with Verbal Reinforcement Learning

封装一个redis获取并解析数据的工具类

基于web的云智教育在线平台设计与实现

利用 openssl api 实现 TLS 双向认证

Jenkins和Fastlane的原理、优缺点、用法、如何选择

SpringAI Alibaba Graph 流式对话

python sqlalchemy模型的建立

嵌入式硬件学习-2

Algorithms library

Qoder如何免费续杯，立即参与实践分享，赢 1000Credits

解决windows下火狐浏览器开机会同时启动两个或多个页面

为何quest3设备会强制更新，如何屏蔽更新

GoogleNet：更深的网络与更高的效率

大模型的偏见：从训练数据到推理结果，如何检测与修正？

Voicemod-免费即时变声器

【程序人生】有梦想就能了不起，就怕你没梦想

Redis 集群模式与高可用机制

深度学习篇---Adam优化器

计算机网络模型总概述

python抖音弹幕获取方案

考研复习-计算机网络-第二章-物理层

服务器安装vnc服务端

深度学习篇---InceptionNet网络结构

Ecovadis评估认证准备期间对于公司员工培训有没有什么技巧？

对轮询的理解

手持式气象观测仪在短期监测项目的作用

相关文章：