当前位置：首页 > news >正文

QWQ大模型评测榜单

news 2025/10/12 20:43:52

在这里插入图片描述

评测榜单说明
在数学推理基准AIME24上，QwQ-32B达到了79.5分，几乎与DeepSeek-R1-617B的79.8分持平，远超OpenAI o1-mini的63.6分，及相同尺寸的R1蒸馏模型。

在编程能力方面，QwQ-32B 在LiveCodeBench上获得了63.4分，接近DeepSeek-R1-617B的 65.9分，也同样优于o1-mini的53.8分和蒸馏模型。

在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中，通义千问QwQ-32B的得分均略微超过了DeepSeek-R1-617B。

除了在性能上的提升，QwQ-32B的另一个亮点就是大幅降低了部署使用成本，671B，在FP16精度下需要1400G的显存，而现在，32B的QwQ，4张4090就能跑，这是将近15倍的差距，并且智能水平还差不多。

根据提供的搜索结果，以下是与用户提到的基准测试相关的信息汇总及分析：

1. AIME24

用途：数学推理能力评测基准，主要测试模型在复杂数学问题中的逻辑推理能力。
相关模型表现：
- 阿里开源的QwQ-32B模型在AIME24上获得79.5分，接近DeepSeek-R1-617B（79.8分），远超OpenAI o1-mini（63.6分）。
特点：该基准注重模型对数学规律的解析能力，例如在找规律题目中，模型需通过提示进行迭代计算，但可能因过度思考导致错误。

2. LiveCodeBench

用途：代码生成能力评测基准，评估模型生成可执行代码的准确性和效率。
相关模型表现：
- QwQ-32B在LiveCodeBench上得分为63.4分，接近DeepSeek-R1-617B的65.9分，优于同尺寸的蒸馏模型。
问题示例：生成解决“用5L和3L瓶子装4L水”的代码，QwQ-32B展示了生成多种解决方案的能力。

3. LiveBench

用途：综合评测大模型能力的榜单，由Meta首席科学家杨立昆领衔设计，被列为“最难的LLMs评测榜”之一。
相关模型表现：
- QwQ-32B在LiveBench中得分略微超过DeepSeek-R1-617B，显示其综合推理能力的优势。
覆盖领域：可能包括数学、代码、逻辑推理等多维度任务。

4. IFEval（推测为FEva的可能对应）

用途：指令遵循能力评测集，由谷歌等机构提出，测试模型对复杂指令的理解和执行能力。
相关模型表现：
- QwQ-32B在IFEval中表现优异，得分超过DeepSeek-R1-617B，显示其较强的指令解析能力。

5. BFCL（Benchmark for Function Call and Tools）

用途：评估模型准确调用函数或工具的能力，例如API接口或外部工具的使用。
相关模型表现：
- QwQ-32B在BFCL测试中得分略高于DeepSeek-R1-671B，突显其在工具调用任务中的高效性。

时间范围 (24.08-25.02)

解读：可能指基准测试的活跃使用时间段（2024年8月至2025年2月），但搜索结果中未明确提及具体时间范围。当前信息显示，阿里QwQ-32B的测试结果发布于2025年3月7日，表明这些基准在近期仍被广泛使用。

总结

上述基准测试覆盖了数学推理（AIME24）、代码生成（LiveCodeBench）、综合能力（LiveBench）、指令遵循（IFEval）及工具调用（BFCL）等多个维度，是当前评估大模型能力的重要工具。阿里QwQ-32B模型在这些测试中表现突出，尤其在降低部署成本的同时保持高性能，成为开源社区的热门选择。
如需进一步了解各基准的详细评测方法或历史数据，可参考相关论文或模型开源页面（如魔搭社区、Hugging Face等）。

查看全文

http://www.dtcms.com/a/55709.html