Claude 4 在 SWE-Bench 上得分 72.7%:对编程的意义
Claude 4 在 SWE-bench 上得分 72.7%,这用简单的话来说意味着什么?
基准测试可能会很让人困惑,特别是如果你是 LLM 的新手。
但是,让我为你详细解释一下!
模型在 SWE-bench 上的得分越高,它在解决你的实际编程问题上就越出色。
这正是 Claude 4 的 72.7% 得分所代表的意义!
SWE-bench
把 SWE-bench 想象成 AI 编程模型的 SAT 考试。(https://en.wikipedia.org/wiki/SAT)
它是人类程序员在软件项目中遇到的真实编程问题的集合。
这些不是玩具问题或简单的练习。
它们是那些让开发者抓狂的复杂、混乱的错误。
这个测试问 AI:“这里有一个来自 GitHub 的真实错误。你能修复它吗?”
而且,大多数 AI 模型在这个测试中都表现得很糟糕。