当前位置：首页 > news >正文

【论文阅读】小模型是智能体的未来

news 2025/9/13 6:31:34

引言

最新刷到了一篇Nvidia团队在六月发布的一篇论文，主要提出了一个观点：小模型是智能体的未来。

论文标题：Small Language Models are the Future of Agentic AI

论文地址：https://arxiv.org/abs/2506.02153

看了下原文，一来是想看看这种行业趋势预测类型的文章是如何论述的；二来是看到Nvidia这个行业巨头对未来的某些看法。

以下是该文章的内容总结概括。

1. 背景与问题

智能体 AI（Agentic AI） 的快速兴起：超过一半的大型 IT 企业已在使用 AI 智能体，市场规模预计到 2034 年将达 2000 亿美元。
目前的主流做法：几乎所有智能体系统都依赖 大型语言模型（LLMs），通过云端 API 统一调用。
存在的问题：
- LLM 部署和推理成本高昂（2024 年云基础设施投资达 570 亿美元，市场仅 56 亿）。
- 智能体的大多数任务是 重复、范围有限、非对话型的，用 LLM 处理显得过度。

2. 核心主张

作者提出：

小语言模型（SLMs，Small Language Models, 通常 <10B 参数）比 LLM 更适合大部分智能体应用。
具体理由：
1. 能力足够（V1）
2. 操作适配性更强（V2）
3. 经济性更优（V3）
结论：SLM 是智能体 AI 的未来，LLM 将逐步退居辅助地位。

3. 具体论据

3.1. 能力足够（A1）

SLMs 已能媲美旧一代 LLM：
- Microsoft Phi-2 (2.7B)：推理和代码生成 ≈ 30B 模型，速度快 15 倍。
- Phi-3 Small (7B)：可对标 70B 同代模型。
- DeepSeek-R1-Distill (1.5–8B)：部分任务超越 GPT-4o、Claude 3.5。
- RETRO-7.5B：外部知识库增强，性能 ≈ GPT-3（175B），参数量减少 25 倍。
推理增强：小模型可通过 自一致性、工具增强 在数学/代码推理上达到或超过大模型。
结论：智能体子任务大多是窄域的，SLM 已能胜任。

3.2. 经济性更佳（A2）

推理成本：7B 模型比 70–175B 模型便宜 10–30 倍。
微调成本：LoRA/DoRA 等 PEFT 方法让定制化仅需数小时 GPU 计算。
边缘部署：ChatRTX 等系统表明消费级 GPU 就能运行实时 SLM，离线可用，提升隐私。
参数利用率：LLM 的大部分参数在推理中并未激活，效率浪费更严重；SLM 更“紧凑”。
系统模块化：采用多个 SLM 专家模型（“乐高式”组合）比用单一 LLM 更灵活。

3.3. 灵活性更强（A3）

小模型训练和适配成本低，便于快速更新和迭代。
更符合本地合规和隐私要求。
民主化效应：降低门槛，让中小企业和个人也能开发智能体，推动多样化和创新。

3.4. 智能体任务的局限性（A4–A5）

智能体往往只用到语言模型的极小子集功能（如工具调用、结构化输出）。
这些任务对格式严格，不能容忍 LLM 的偶发“幻觉”。
定制化的 SLM 更容易保持稳定的行为和输出格式。

3.5. 智能体系统天然异构性（A6）

智能体架构允许多模型协作：
- 简单任务用 SLM。
- 高复杂度推理再调用 LLM。
未来趋势是 SLM 优先，LLM 辅助。

3.6. 智能体交互能生成高价值数据（A7）

智能体交互本身就是生成训练数据的来源。
可以逐步用这些数据训练专门的 SLM，替代原本依赖 LLM 的部分。

4. 反对意见与回应

1.LLM 在语言理解上始终更强（AV1）

反驳：SLM 可以通过 任务分解、微调、推理增强 达到所需水平。

2.集中化的 LLM 推理更便宜（AV2）

反驳：SLM 部署成本在下降，推理框架（如 NVIDIA Dynamo）提升了灵活性。

3.行业惯性（AV3）

现有投资和工具链都押注 LLM，导致生态惯性。
作者认为 SLM 的优势足以逐步改变格局。

5. 当前障碍

B1：巨额资本投入 LLM 基础设施（570 亿美元）。
B2：SLM 评估体系仍沿用 LLM 通用基准，不匹配实际智能体任务。
B3：SLM 缺乏市场宣传，知名度低。

6. 解决方案：LLM → SLM 转换算法

1.数据收集：记录智能体的输入、输出、工具调用日志。

2.数据清洗：去除隐私和敏感信息。

3.任务聚类：识别常见任务模式。

4.SLM 选择：为不同任务选择合适的候选模型。

5.专门化微调：用收集的数据定制 SLM。

6.迭代优化：不断更新路由器和模型，提升性能。

我的看法

个人还是比较认同这篇工作提出的观点。该论文还绘制了一张图，比较了目前智能体的两种模式，图中左侧是目前更常见的模式，通过一个 LLM 进行任务驱动；右侧是一种更新的模式，类似(GPT-5)，通过一个控制器(Controller)去负责调度所有交互，LLM 仅作为一个可选的接口。

在“scaling law”的指导下，模型参数量一直在scaling的方向狂奔，但回头可能会发现，<#include<bits/stdc++.h>不如拆分出来按需导入。

文章转载自：

http://AfJxVDMn.gmjbp.cn
http://NtvWAmy6.gmjbp.cn
http://SRwG9JQO.gmjbp.cn
http://YiEf4CRX.gmjbp.cn
http://l38Sue9D.gmjbp.cn
http://Fc4AGaeP.gmjbp.cn
http://VuTIBNA3.gmjbp.cn
http://R5pXAD8K.gmjbp.cn
http://IVPCjwY2.gmjbp.cn
http://yle10BiR.gmjbp.cn
http://vFOxahNf.gmjbp.cn
http://n9icsYGG.gmjbp.cn
http://LFUS2R2Q.gmjbp.cn
http://Vao5GWoW.gmjbp.cn
http://yJygheZV.gmjbp.cn
http://RWFlcCpy.gmjbp.cn
http://f4P6tJW1.gmjbp.cn
http://GwL5r07v.gmjbp.cn
http://TdNIwEfI.gmjbp.cn
http://nXofND3p.gmjbp.cn
http://OHfxrLJC.gmjbp.cn
http://ci5xAjeQ.gmjbp.cn
http://hN5HVtzc.gmjbp.cn
http://70Rg03Wo.gmjbp.cn
http://9r5C2ZQs.gmjbp.cn
http://JBUvchWn.gmjbp.cn
http://LrKbeVQh.gmjbp.cn
http://HE99goDc.gmjbp.cn
http://CLMnJqpy.gmjbp.cn
http://7K9bpb0g.gmjbp.cn

http://www.dtcms.com/a/380086.html

相关文章：

空间智能 × 无人机丨考拉悠然携 AI+应急创新产品亮相东盟博览会

【C++】list容器的模拟实现

Java学习之——“IO流“的进阶流之打印流的学习

Vue 进阶实战：从待办清单到完整应用（路由 / 状态管理 / 性能优化全攻略）

《用 Python 和 TensorFlow 构建你的第一个神经网络：从零开始识别手写数字》

深入探索Vue.js：响应式原理与性能优化

58.【.NET8 实战--孢子记账--从单体到微服务--转向微服务】--新增功能--图形验证码

【Linux】基本指令 · 下

springboot+python+uniapp基于微信小程序的旅游服务系统景点信息展示路线推荐在线预约评论互动系统

WebApp 的价值与实现：从浏览器架构到用户体验优化

用户体验五大要点：从问题到解决方案的完整指南

从ChatGPT家长控制功能看AI合规与技术应对策略

DeepSeek-VL 解析：混合视觉-语言模型如何超越传统计算机视觉方法

从15kHz 到20MHz：为什么LTE带宽不能被子载波间隔整除？

Android SystemServer 系列专题【篇五：UserController用户状态控制】

Nature | 本周最新文献速递

Vuetify：构建优雅Vue应用的Material Design组件库

6种A2A（智能体到智能体）的协议方案

性能测试工具jmeter使用

[Windows] PDF 专业压缩工具 v3.0

kubectl常用命令

MinIO 分布式模式与纠删码

linux 宏 DEVICE_ATTR

代码随想录刷题Day56

Ansible的 Playbook 模式详解

Qt 调用setLayout后，父对象自动设置

现在中国香港服务器速度怎么样？

用python的socket写一个局域网传输文件的程序

CentOS配置vsftpd服务器

华为初级认证培训需要吗？HCIA考试考什么内容？自学还是报班？