我认为大模型推理的未来应该主要是端侧,尤其是让机器人如何感知世界的这种多模态大模型推理,以及如何在智能手机上安装这种端侧大模型并且进行推理的加速。因此我今天又整理了一些新的论文给自己读:
端侧 + 多模态 + 机器人/移动设备推理 — 推荐论文清单
题目 | 作者 / 出处 | 核心内容简介 | 链接 |
---|
MiniCPM-V: A GPT-4V Level MLLM on Your Phone | Yuan Yao et al., 2024 (arXiv) | 系列高效多模态大模型,可部署在手机上。最新版本 MiniCPM-Llama3-V 2.5 在 11 个基准上击败 GPT-4V / Gemini Pro / Claude 3,支持高分辨率图像/任意宽高比/OCR/30+ 语言,关注架构+预训练+对齐策略。 :contentReference[oaicite:0]{index=0} | arXiv:2408.01800 :contentReference[oaicite:1]{index=1} |
Efficient GPT-4V level multimodal large language model for deployment on edge devices (MiniCPM-V Nature Comms 2025) | Y. Yao et al., Nature Commun. 2025 | “MiniCPM-V” 系列的进一步进展,8B 模型在多个 benchmark 上表现优异,支持高分辨率图像输入,优化编译/内存/NPU 加速等多项端侧部署细节。 :contentReference[oaicite:2]{index=2} | Nature Communications Article :contentReference[oaicite:3]{index=3} |
EdgeVLA: Efficient Vision-Language-Action Models | Paweł Budzianowski et al., 2025 (arXiv) | 为 Vision-Language-Action 模型在边缘设备上做加速:去掉 end-effector 位置预测中的 autoregressive 要求(由此速度提升约 7×),并用小语言模型(SLMs)来减轻计算负担。适用于机器人即时动作推理。 :contentReference[oaicite:4]{index=4} | arXiv:2507.14049 :contentReference[oaicite:5]{index=5} |
Cross-Platform Scaling of Vision-Language-Action Models from Edge to Cloud GPUs | Amir Taherin et al., 2025 (arXiv) | 对几种代表性 VLA 模型在边缘设备与云 GPU 上进行系统化评估,关注准确率、延迟、吞吐量、内存等资源指标;分析架构/动作 token 化/backbone 大小等如何影响在不同功率预算下性能。对理解在真实部署中如何在“边缘 vs 云”之间做 trade-off 很有价值。 :contentReference[oaicite:6]{index=6} | arXiv:2509.11480 :contentReference[oaicite:7]{index=7} |
EgoVLA: Learning Vision-Language-Action Models from Egocentric Human Videos | Ruihan Yang et al., 2025 (arXiv) | 用第一人称人类视频来训练 VLA 模型,然后通过模拟+少量机器示范做微调,使模型能在机器人操作中做逆运动学 / 重定向。解决真实场景中机器人示范不足的问题。 :contentReference[oaicite:8]{index=8} | arXiv:2507.12440 :contentReference[oaicite:9]{index=9} |
Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities (EdgeVL) | Kaiwen Cai et al., 2024 (ECCV / arXiv) | 将大规模视觉-语言模型适配到边缘设备(含非 RGB 图像模态),保持 feature 对齐能力,并在量化后保持较好性能;在资源受限设备上大幅减小模型体积。对视觉 +语言任务但非动作控制也很相关。 :contentReference[oaicite:10]{index=10} | arXiv:2403.04908 :contentReference[oaicite:11]{index=11} |
建议阅读优先级
- MiniCPM-V 系列(“在手机上跑出来的多模态模型”):了解架构+预训练/对齐+端侧部署细节。
- EdgeVLA / Cross-Platform Scaling:机器人/VLA 模型在边缘设备上的动作控制、推理速度、资源消耗权衡。
- EgoVLA:数据来源+少量示范+跨域迁移,对动作 +感知+语言联动有启发。
- EdgeVL:如果你更多关心视觉 +语言的感知与推理,而暂时对动作控制的频率要求不那么高,这篇也能提供不少量化与架构压缩的技巧。
与 NVIDIA Jetson + 机器人/端侧感知相关的论文 /系统
Jetson Orin AGX + 机器人视觉 / 多任务感知 — 推荐论文/系统
名称 | 简介 | 链接 |
---|
Understanding the Performance and Power of LLM Inferencing on Edge Accelerators | 在 NVIDIA Jetson Orin AGX(64GB)上,对多个参数规模(2.7B ~ 32.8B)的 LLM,变 batch size / sequence length /量化等级 /功耗模式,评估延迟、吞吐量、能耗等 trade-off。非常适合了解 Orin 在文本/语言模型推理上的现实性能边界。 | https://arxiv.org/abs/2506.09554 |
Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks | 提出一个视觉感知引擎(VPEngine),使用共享 backbone + 多个任务 heads(如深度估计、目标检测、语义分割等),在 Jetson Orin AGX 上作 TensorRT 优化后能做到 ≥ 50 Hz 的实时推理。节省内存/减少重复运算,是机器人感知系统落地的好案例。 | https://arxiv.org/abs/2508.11584 |
标题 | 类型 / 出处 | 核心贡献(为什么适合你) | 链接 |
---|
Profiling Concurrent Vision Inference Workloads on NVIDIA Jetson | arXiv 2025 | 真实测评 Jetson 平台上的视觉模型并发表现,分析 GPU/memory/SM/tensor core 的 bottleneck,非常贴近了部署多模态模型到 Jetson 的应用场景。 | https://arxiv.org/abs/2508.08430 |
Galaxy: Designer Multi-TransformerInference Acceleration System on the Edge | arXiv 2024 | 在跨设备协作环境中,实现 Transformer 系列模型的高效推理(包括低时延协作和通信重叠),Cloud-Edge Boundary/Hybrid 模型拆分部署有用。 | https://arxiv.org/abs/2405.17245 |
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference (TOFC) | arXiv 2025 | 提出一种多模态推理端云协同框架:在手机端先压缩视觉特征,减少上行带宽;包括选择熵编码、聚类合并等压缩工程,能显著降低 latency,特别适合你关注的“手机+多模态部署”。 | https://arxiv.org/abs/2503.12926 |
An End-to-end Multimodal Robotic Manipulation Model (RoboBERT) | arXiv 2025 | 一个用于机器人操作任务的全流程(视觉/语言/动作),不依赖额外多余的预训练,强调设备可部署性。 | https://arxiv.org/abs/2502.07837 |
MMBench: Benchmark Suite for Multimodal DNNs | arXiv 2023 | 专为 multimodal DNN 的资源占用、延迟特性做系统建模,包括针对边缘设备的实验,辅助推理编译器/runtime 设计。 | https://arxiv.org/abs/2212.01241 |
Efficient GPT-4V level multimodal large language model for deployment on edge devices (MiniCPM-V Nature Commun.) | Nature Communications 2025 | 提供高效模型 designed for 手机端推理,支持高分辨率图片、OCR、推理加速兼具通用性。 | https://www.nature.com/articles/s41467-025-61040-5 |
NVIDIA Jetson Thor Unlocks Real-Time Reasoning for General Robot Sense + Action | NVIDIA 官方博客 | 如果你或你的组织考虑入手 Jetson Thor,这篇文章说明了它如何提升 VLA 推理能力,是对硬件推理部署链路的实战说明。 | https://blogs.nvidia.com/blog/jetson-thor-physical-ai-edge/ |