当前位置: 首页 > news >正文

Llama 4的争议

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Meta旗下的Llama 4模型最近在AI圈内掀起了一阵小风波。特别是在提交定制版Llama 4参加LM Arena评测之后,透明度问题引起了不少质疑。尤其是那款名叫“Llama-4-Maverick-03-26-Experimental”的模型,被曝光是经过偏好微调的,但Meta一开始并没有明说。公司生成式AI副总裁Ahmad Al-Dahle随即出面否认了“人为提高评分”的传闻。

LM Arena随后火速回应,不仅公布了超2000场对战记录,还指出评测中风格和语气对结果产生了较大影响。为了保障公正性,他们同步更新了排行榜规则,强调测试结果必须可复现、可信赖。《Artificial Analysis》也同步调整了旗下“Llama 4智能指数”,对Scout和Maverick两个模型的得分进行了重新修订,纠正了Meta在MMLU Pro和GPQA Diamond测试中的夸张成绩。

从硬实力来看,Llama 4的Maverick和Scout在推理、编程、数学等方面展现出强劲表现,甚至一度领先Claude 3.7和GPT-4o-mini等劲敌。其中,Maverick拿下49分,Scout紧随其后获得36分。不过一旦进入“长文本任务”,这两位选手就有点吃力了——Maverick仅完成了28.1%,而Scout更是只有15.6%。Meta方面则表示,当前模型仍处于持续优化阶段,后续还会有调整。

值得一提的是,NVIDIA也加入了这场性能提升大战,用最新的Blackwell B200 GPU给Llama 4打上“加速器”。借助TensorRT-LLM技术,这批模型现在能以每秒超4万tokens的速度飞奔,处理文档摘要和图文理解时几乎“光速响应”,多模态、多语种能力也不容小觑。

至于ARC Prize方面最新放出的评估数据,Maverick和Scout的表现可就比较“冷静”了——在ARC-AGI测试中,Maverick在第一阶段仅达成4.38%的完成率,第二阶段甚至挂零;Scout的数据则更“保守”,分别为0.5%和0%。成本虽低,效果还得看后续进化。

http://www.dtcms.com/a/121859.html

相关文章:

  • 【重装系统】大白菜自制U盘装机,备份C盘数据,解决电脑启动黑屏/蓝屏
  • 批量合并多张 jpg/png 图片为长图或者 PDF 文件,支持按文件夹合并图片
  • 面向大模型的开发框架LangChain
  • LLM Agents项目推荐:MetaGPT、AutoGen、AgentVerse详解
  • 工业制造核心术语
  • 每日文献(十)——Part two
  • STM32 CRC校验与芯片ID应用全解析:从原理到实践 | 零基础入门STM32第九十七步
  • 分类算法的介绍和应用场景
  • Spring MVC 重定向(Redirect)详解
  • 【Linux笔记】文件的传输(scp、rsync、归档、压缩)
  • 使用 VSCode 本地历史记录‌恢复误删除文件
  • 复习防火墙(一)
  • 知微·智研重磅发布:AI加持的智能化研发管理,革新科技组织数字化转型
  • 4.9复习记
  • Flutter Invalid constant value.
  • 【Java设计模式】第3章 软件设计七大原则
  • ragflow开启https访问:添加证书后,使用浏览器还是有警告,如何解决?
  • [ AI工具库 ] 宝藏级 AI 工具合集
  • MySQL多表查询、事务与索引的实践与应用
  • C++字符串复习
  • 如何在Dify中安装运行pandas、numpy库(离线、在线均支持,可提供远程指导)
  • 每日定投40刀BTC(13)20250404 - 20250408
  • vue3中watch的使用示例
  • 算法小练习
  • git仓库设置访问公钥
  • [leetcode]求最大公约数和最小公倍数(gcd和lcm算法)
  • 【场景应用2】speech_recognition: 微调语音模型
  • 深度学习、图像算法学习记录
  • 【Proteus仿真】【32单片机-A009】矩阵按键系统设计
  • 代码随想录-动态规划24