当前位置: 首页 > news >正文

猫头虎AI分享:Claude Opus 新版 4.1 在 SWE-bench Verified 上准确率达到了 74.5%,在多文件代码重构方面表现突出

猫头虎AI分享:Claude Opus 新版 4.1 在 SWE-bench Verified 上准确率达到了 74.5%,在多文件代码重构方面表现突出

在这里插入图片描述


大家好,这里是猫头虎。今天给大家带来一个令人兴奋的消息——Anthropic 刚刚发布了 Claude Opus 4.1!在我看来,这次升级不仅在性能指标上实现了稳步提升,也在真实场景下的编码效率和可靠性方面迈出了重要一步。下面,我将从几个维度为大家拆解一下这次更新的亮点。

文章目录

    • @[toc]
    • 性能升级:SWE-bench Verified 准确率 74.5%
    • 深度研究与智能体搜索:细节跟踪更精准
    • 多文件代码重构:告别无谓改动
    • 快速上手:API 调用、定价不变

性能升级:SWE-bench Verified 准确率 74.5%

在软件工程领域,SWE-bench Verified 一直是衡量 AI 代码能力的权威基准。Opus 4.1 在该测试集上的准确率达到了 74.5%,相比 Opus 4 有了显著提升。这意味着在 500 道复杂编程题中,Claude 能回答正确的题目数平均多出了数十道,尤其在涉及多文件交互和依赖处理的场景中,表现尤为突出。

在这里插入图片描述


深度研究与智能体搜索:细节跟踪更精准

除了代码正确率的提升,Opus 4.1 在“深入研究”和“数据分析”两大能力上也有了明显进步。

  • 细节跟踪:它能更好地识别长文档、多版本语义中的细微差别,不会因为变量重名或注释变动而跑偏。
  • 智能体搜索:在需要跨文件、跨库检索实现细节时,Opus 4.1 的检索速度更快、准确度更高,我在本地测试中发现它能在百万行代码库里,数秒内定位到目标函数调用,并给出修复方案。

多文件代码重构:告别无谓改动

谈到多文件重构,这是很多 AI 助手会“手滑改错”、“引入新 Bug”或“覆盖无关代码”的痛点。

  • GitHub 测评指出,Opus 4.1 在多文件重构任务中,成功率较 Opus 4 提升约 20%,且改动行数集中在必要范围之内。
  • Rakuten Group 工程团队则反馈:Opus 4.1 能精准修复他们的 CI 报错,不会再像之前那样“改一处报错,另处错更惨”。
  • Windsurf 的初级开发者基准测试也显示,Opus 4.1 在新手场景下减少了近一倍的迭代调试次数,大幅提升了开发效率。

在这里插入图片描述


快速上手:API 调用、定价不变

如果你已经在使用 Opus 4,只需将调用模型名称替换为:

claude-opus-4-1-20250805

即可立即体验新版效果。

  • 付费渠道:Claude Web、Claude Code、API、Amazon Bedrock、Google Cloud Vertex AI
  • 定价:与 Opus 4 保持一致,不增加额外成本

更多文档和资源:

  • 系统卡:http://www.anthropic.com/claude-opus-4-1-system-card
  • 模型详情:https://www.anthropic.com/claude/opus
  • 定价说明:https://www.anthropic.com/pricing#api
  • 开发者文档:https://docs.anthropic.com/en/docs/about-claude/models/overview

作为一名技术博主,我认为这次 Opus 4.1 的升级不仅在基准测试中拔得头筹,更在真实工程场景里为开发者带来了实实在在的生产力提升。

http://www.dtcms.com/a/317117.html

相关文章:

  • 力扣经典算法篇-44-组合总和(回溯问题)
  • Qt菜单栏与工具栏实战
  • Linux86 sheel流程控制前瞻4 判断vsftpd服务启动,如果启动,打印端口号,进程id
  • 基于FFmpeg和HLS的大文件分片传输方案
  • SRS简介及简单demo
  • 豆包新模型与PromptPilot工具深度测评:AI应用开发的全流程突破
  • 神经网络搭建对CIFAR10数据集分类
  • 生成式AI如何颠覆我们的工作和生活
  • 深度学习(pytorch版)前言:环境安装和书籍框架介绍
  • 【Canvas与三角形】黑底回环金片三角形
  • 如何解决网页视频课程进度条禁止拖动?
  • DHCP 服务器与DNS服务器
  • QML开发:QML中的基本元素
  • JAVA高级编程第六章
  • 深入解析Java NIO在高并发场景下的性能优化实践指南
  • Kubernetes服务发现、名称解析和工作负载
  • 如何根据枚举值,快速方便显示对应枚举含义 js
  • 大疆无人机连接Jetson主板
  • hive专题面试总结2
  • 疯狂星期四文案网第31天运营日记
  • GitHub Spark公共预览版上线
  • Sourcetree GIT 可视化工具安装全攻略
  • Maven补充
  • 【Linux内核系列】:信号(上)
  • HTML应用指南:利用GET请求获取全国OPPO官方授权体验店门店位置信息
  • nflsoi 8.6 题解
  • 【JavaEE】(8) 网络原理 HTTP/HTTPS
  • 使用MatterJs物理2D引擎实现重力和鼠标交互等功能,有点击事件(盒子堆叠效果)
  • GaussDB 数据库架构师修炼(六)-3 集群工具管理-主备倒换
  • CentOS7中Docker的安装与卸载