当前位置：首页 > news >正文

9.21关于大模型推理未来的思考

news 2025/9/22 8:48:38

我认为大模型推理的未来应该主要是端侧，尤其是让机器人如何感知世界的这种多模态大模型推理，以及如何在智能手机上安装这种端侧大模型并且进行推理的加速。因此我今天又整理了一些新的论文给自己读：

端侧 + 多模态 + 机器人／移动设备推理 — 推荐论文清单

题目	作者 / 出处	核心内容简介	链接
MiniCPM-V: A GPT-4V Level MLLM on Your Phone	Yuan Yao et al., 2024 (arXiv)	系列高效多模态大模型，可部署在手机上。最新版本 MiniCPM-Llama3-V 2.5 在 11 个基准上击败 GPT-4V / Gemini Pro / Claude 3，支持高分辨率图像／任意宽高比／OCR／30+ 语言，关注架构＋预训练＋对齐策略。 :contentReference[oaicite:0]{index=0}	arXiv:2408.01800 :contentReference[oaicite:1]{index=1}
Efficient GPT-4V level multimodal large language model for deployment on edge devices (MiniCPM-V Nature Comms 2025)	Y. Yao et al., Nature Commun. 2025	“MiniCPM-V” 系列的进一步进展，8B 模型在多个 benchmark 上表现优异，支持高分辨率图像输入，优化编译／内存／NPU 加速等多项端侧部署细节。 :contentReference[oaicite:2]{index=2}	Nature Communications Article :contentReference[oaicite:3]{index=3}
EdgeVLA: Efficient Vision-Language-Action Models	Paweł Budzianowski et al., 2025 (arXiv)	为 Vision-Language-Action 模型在边缘设备上做加速：去掉 end-effector 位置预测中的 autoregressive 要求（由此速度提升约 7×），并用小语言模型（SLMs）来减轻计算负担。适用于机器人即时动作推理。 :contentReference[oaicite:4]{index=4}	arXiv:2507.14049 :contentReference[oaicite:5]{index=5}
Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs	Amir Taherin et al., 2025 (arXiv)	对几种代表性 VLA 模型在边缘设备与云 GPU 上进行系统化评估，关注准确率、延迟、吞吐量、内存等资源指标；分析架构／动作 token 化／backbone 大小等如何影响在不同功率预算下性能。对理解在真实部署中如何在“边缘 vs 云”之间做 trade-off 很有价值。 :contentReference[oaicite:6]{index=6}	arXiv:2509.11480 :contentReference[oaicite:7]{index=7}
EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos	Ruihan Yang et al., 2025 (arXiv)	用第一人称人类视频来训练 VLA 模型，然后通过模拟＋少量机器示范做微调，使模型能在机器人操作中做逆运动学 / 重定向。解决真实场景中机器人示范不足的问题。 :contentReference[oaicite:8]{index=8}	arXiv:2507.12440 :contentReference[oaicite:9]{index=9}
Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities (EdgeVL)	Kaiwen Cai et al., 2024 (ECCV / arXiv)	将大规模视觉-语言模型适配到边缘设备（含非 RGB 图像模态），保持 feature 对齐能力，并在量化后保持较好性能；在资源受限设备上大幅减小模型体积。对视觉 +语言任务但非动作控制也很相关。 :contentReference[oaicite:10]{index=10}	arXiv:2403.04908 :contentReference[oaicite:11]{index=11}

建议阅读优先级

MiniCPM-V 系列（“在手机上跑出来的多模态模型”）：了解架构＋预训练／对齐＋端侧部署细节。
EdgeVLA / Cross-Platform Scaling：机器人／VLA 模型在边缘设备上的动作控制、推理速度、资源消耗权衡。
EgoVLA：数据来源＋少量示范＋跨域迁移，对动作 +感知＋语言联动有启发。
EdgeVL：如果你更多关心视觉 +语言的感知与推理，而暂时对动作控制的频率要求不那么高，这篇也能提供不少量化与架构压缩的技巧。

与 NVIDIA Jetson + 机器人／端侧感知相关的论文 /系统

Jetson Orin AGX + 机器人视觉 / 多任务感知 — 推荐论文／系统

名称	简介	链接
Understanding the Performance and Power of LLM Inferencing on Edge Accelerators	在 NVIDIA Jetson Orin AGX（64GB）上，对多个参数规模（2.7B ～ 32.8B）的 LLM，变 batch size / sequence length /量化等级 /功耗模式，评估延迟、吞吐量、能耗等 trade-off。非常适合了解 Orin 在文本／语言模型推理上的现实性能边界。	https://arxiv.org/abs/2506.09554
Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks	提出一个视觉感知引擎（VPEngine），使用共享 backbone + 多个任务 heads（如深度估计、目标检测、语义分割等），在 Jetson Orin AGX 上作 TensorRT 优化后能做到 ≥ 50 Hz 的实时推理。节省内存／减少重复运算，是机器人感知系统落地的好案例。	https://arxiv.org/abs/2508.11584

标题	类型 / 出处	核心贡献（为什么适合你）	链接
Profiling Concurrent Vision Inference Workloads on NVIDIA Jetson	arXiv 2025	真实测评 Jetson 平台上的视觉模型并发表现，分析 GPU／memory／SM／tensor core 的 bottleneck，非常贴近了部署多模态模型到 Jetson 的应用场景。	https://arxiv.org/abs/2508.08430
Galaxy: Designer Multi-TransformerInference Acceleration System on the Edge	arXiv 2024	在跨设备协作环境中，实现 Transformer 系列模型的高效推理（包括低时延协作和通信重叠），Cloud-Edge Boundary／Hybrid 模型拆分部署有用。	https://arxiv.org/abs/2405.17245
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference (TOFC)	arXiv 2025	提出一种多模态推理端云协同框架：在手机端先压缩视觉特征，减少上行带宽；包括选择熵编码、聚类合并等压缩工程，能显著降低 latency，特别适合你关注的“手机+多模态部署”。	https://arxiv.org/abs/2503.12926
An End-to-end Multimodal Robotic Manipulation Model (RoboBERT)	arXiv 2025	一个用于机器人操作任务的全流程（视觉／语言／动作），不依赖额外多余的预训练，强调设备可部署性。	https://arxiv.org/abs/2502.07837
MMBench: Benchmark Suite for Multimodal DNNs	arXiv 2023	专为 multimodal DNN 的资源占用、延迟特性做系统建模，包括针对边缘设备的实验，辅助推理编译器／runtime 设计。	https://arxiv.org/abs/2212.01241
Efficient GPT-4V level multimodal large language model for deployment on edge devices (MiniCPM-V Nature Commun.)	Nature Communications 2025	提供高效模型 designed for 手机端推理，支持高分辨率图片、OCR、推理加速兼具通用性。	https://www.nature.com/articles/s41467-025-61040-5
NVIDIA Jetson Thor Unlocks Real-Time Reasoning for General Robot Sense + Action	NVIDIA 官方博客	如果你或你的组织考虑入手 Jetson Thor，这篇文章说明了它如何提升 VLA 推理能力，是对硬件推理部署链路的实战说明。	https://blogs.nvidia.com/blog/jetson-thor-physical-ai-edge/

http://www.dtcms.com/a/394039.html

相关文章：

如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘uvicorn’ 问题

变分自编码器（VAE）：生成模型的另一条技术路线

【LVS入门宝典】LVS NAT模式实战指南：ip_forward、iptables与SNAT、DNAT规则配置详解

【Android】BottomSheet的三种使用

Spring MVC 九大组件源码深度剖析（八）：RequestToViewNameTranslator - 视图名转换的奥秘

在Linux环境下安装和卸载DMETL5数据迁移工具

《计算》第五六章读书笔记

daily notes[47]

模电基础：放大电路的分析方法---图解法

Windows10系统Web UI自动化测试学习系列1--介绍（序章-万事开头难）

安装vllm的艰苦过程

探索 Event 框架实战指南：微服务系统中的事件驱动通信：

FPGA超高速接口GTP_GTY_GTX使用说明

Blender常用第三方插件总结

Kurt-Blender零基础教程：第2章：建模篇——第3节：陈列/父子级/蒙皮/置换修改器与小狐狸角色建模

npm启动项目报错“无法加载文件……”

从 0 到 1 精通 Nacos：服务发现与配置中心的实战指南

基于DrissionPage的趣易百影院数据采集实战指南

github十大开源FPGA项目

R语言 csv新增一列 dplyr操作

IDEA创建Module子项目后，只有一个普通的文件夹

支持向量机深度解析：从数学原理到工程实践的完整指南

2025华为杯研究生数学建模竞赛B题及求解思路

三星CIS全球产能布局解析：本土根基、海外扩张与策略雄心

js集装箱号校验算法

【机器学习】最优传输（OT）和 KL散度的区别

推荐一个随机生成图片的网站： Lorem Picsum

APE自动化提示词工程

探究某黄鱼x-sign生成算法——终极篇

霍尔传感器安装错位下的FOC控制：线性插值与锁相环（PLL）算法的抉择