当前位置: 首页 > news >正文

开源视觉-语言-动作(VLA)机器人项目全景图(截至 2025 年)

        这是一份完整、系统、结构清晰的开源 VLA(Vision-Language-Action)机器人项目综述,涵盖主流和新兴的代表性工作,包括 Aloha、OpenVLA、PaLM-E、RT 系列、VoxPoser、RVT、Octo、GR00T 等,并附上开源状态、技术特点、适用场景与资源链接。适合用于研究入门、项目选型或技术调研。

VLA(Vision-Language-Action) 是一种端到端的具身智能范式:输入自然语言指令 + 视觉观测 → 输出机器人动作序列。其目标是实现通用、可泛化、可交互的自主机器人。


1. Aloha:低成本高保真遥操作系统


3. PaLM-E:具身多模态大模型先驱


4. RT 系列(Robotics Transformer)

RT-1(2022)

RT-2(2023)


5. VoxPoser:LLM 生成 3D 操作程序


6. Octo:模块化 VLA 框架


7. GR00T(Generalist Robot 00 Technology)


8. RVT(Robotic Vision Transformer)系列


9. Community Projects(社区驱动)

项目描述链接
LeRobotHugging Face 推出的轻量级机器人学习库,支持 ACT、VLA 等https://github.com/huggingface/lerobot
VLA-Finetune社区对 OpenVLA 的微调工具包GitHub 搜索 “openvla finetune”
TinyVLA实验性项目,尝试用 Phi-2 + MobileViT 构建 <1B 参数 VLAHugging Face 社区

🔍 选型建议

需求推荐项目
快速上手 + 真实机器人部署Aloha + OpenVLA
研究 VLA 架构设计Octo、OpenVLA
无需训练,靠 LLM 规划VoxPoser
工业级部署(NVIDIA 生态)GR00T + Isaac Sim
低成本模仿学习Aloha + ACT

📚 学习资源


✅ 总结

VLA 正从“实验室原型”走向“开源生态”。以 OpenVLAAloha 为代表的开源项目,极大降低了研究与应用门槛。未来趋势包括:

  • 机构:Stanford University(Tony Z. Zhao et al.)
  • 核心思想:通过低成本硬件构建高性能双臂遥操作平台,收集高质量人类演示数据,用于训练模仿学习策略(如 ACT)。
  • 技术亮点
    • 使用现成机械臂(如 WidowX)、树莓派、游戏手柄等,整机成本 < $20k。
    • 支持双臂协同操作(如叠衣服、插花、装盘)。
    • 与 ACT(Action Chunking with Transformers) 深度集成,实现长时程动作预测。
  • 是否支持 VLA?
    本身是数据采集平台,但可作为 VLA 模型(如 OpenVLA)的训练数据来源。
  • 开源情况:✅ 完全开源
    • GitHub: https://github.com/tonyzhaozh/aloha
    • 包含硬件图纸、ROS 驱动、训练脚本、预训练模型。
  • 典型任务:厨房操作、精细装配、日常家务。

    2. OpenVLA:首个开源 VLA 基础模型

  • 机构:UC Berkeley + NVIDIA
  • 发布时间:2024 年底
  • 模型架构
    • 视觉编码器:DINOv2(ViT-g/14)
    • 语言编码器:Flan-T5(Base/Large)
    • 动作头:MLP 或 GMM,输出关节速度/位姿。
  • 训练数据
    • 融合 9 个机器人平台(Franka、WidowX、Sawyer 等)的 600+ 任务。
    • 总计 >100 万条轨迹,涵盖仿真与真实世界。
  • 能力
    • 零样本泛化到新任务/新机器人。
    • 支持微调(LoRA)、推理部署(ONNX/TensorRT)。
  • 开源情况:✅ 完全开源(模型权重 + 代码 + 数据处理工具)
    • GitHub: https://github.com/openvla/openvla
    • Hugging Face: https://huggingface.co/openvla
  • 部署示例:可在 Franka Emika 或 Aloha 平台上运行。
  • 机构:Google + TU Berlin
  • 发布时间:2023 年初
  • 模型架构
    • 基于 PaLM-540B 大语言模型。
    • 融合 RGB-D 图像(通过 ViT 编码)作为额外 token 输入。
    • 输出为连续动作(如末端执行器位姿、关节角)。
  • 亮点
    • 首次证明 LLM 可直接控制真实机器人。
    • 支持跨任务、跨机器人迁移(如从桌面操作迁移到移动导航)。
  • 开源情况:❌ 模型权重未开源(依赖闭源 PaLM),但提供论文与部分示例代码。
    • 官网: https://palm-e.github.io/
    • 论文: "PaLM-E: An Embodied Multimodal Language Model"
  • 影响:启发了 RT-2、OpenVLA 等后续工作。
  • Google 提出,使用 EfficientNet + FiLM 调制,输出离散动作 token。
  • 在 13 个机器人上训练,支持 700+ 任务。
  • ❌ 未开源。
  • 基于 PaLM-E 思想,将 VLM(如 PaLI-X)微调为动作预测器。
  • 支持语义泛化(如“把水果放进碗里”,即使训练中没见过“芒果”)。
  • ❌ 未完全开源,但有社区复现(如 HuggingFace 上的 rt2-tiny)。
  • 机构:Columbia University + Google
  • 核心思想:利用 LLM(如 GPT-4)根据场景点云生成可执行的 3D 操作脚本(如“抓取杯子→移动到水龙头下”)。
  • 流程
    1. 输入:语言指令 + 3D 场景重建(如 Open3D)。
    2. LLM 生成 Python 式伪代码。
    3. 转换为具体轨迹(通过 RMPflow 等运动规划器)。
  • 优势:无需端到端训练,可解释性强。
  • 开源情况:✅
    • GitHub: https://github.com/vimalabs/VoxPoser
  • 适用场景:一次性任务、少样本设置。
  • 机构:Google DeepMind
  • 特点
    • 统一接口支持多种视觉编码器(ResNet、ViT)、语言模型(T5)、动作头。
    • 支持多摄像头、多任务、多机器人训练。
    • 提供预训练 checkpoint(在大规模内部数据集上训练)。
  • 开源情况:✅(代码开源,部分模型需申请)
    • GitHub: https://github.com/octo-models/octo
    • Colab 示例丰富,易于微调。
  • 定位:研究友好型 VLA 工具箱。
  • 机构:NVIDIA
  • 发布时间:2024 年 GTC
  • 目标:打造“机器人基础模型即服务”(FaaS)。
  • 技术栈
    • 基于 VIMA、OpenVLA 等改进。
    • 支持仿真训练(Isaac Sim)→ 真实部署(Jetson Orin)。
    • 提供 GR00T NIM 微服务,供开发者调用。
  • 开源情况:⚠️ 部分开源(SDK 和示例),模型需通过 NVIDIA NGC 获取。
    • 官网: https://www.nvidia.com/en-us/ai-data-science/gr00t/
  • 生态整合:与 Isaac Gym、ROS 2 深度集成。
  • 机构:University of Oxford
  • 版本:RVT、RVT-2
  • 特点
    • 专注视觉为中心的动作预测。
    • 引入 3D 旋转等变注意力机制,提升空间理解。
    • 虽非严格 VLA(早期版本无语言输入),但 RVT-2 已支持语言条件。
  • 开源情况:✅
    • GitHub: https://github.com/oxwhirl/rvt
  • 适用场景:需要高精度 3D 操作的任务(如插孔、拧螺丝)。
  • 论文综述:“A Survey on Vision-Language-Action Models for Robotics” (2025)
  • 教程:Hugging Face LeRobot 文档、OpenVLA 官方 Colab
  • 数据集:BridgeData V2、Open X-Embodiment(包含 Aloha 数据)
  • 更小、更快的 VLA(<1B 参数,实时推理)
  • 多模态记忆(长期任务规划)
  • 人机协作闭环(在线学习 + 反馈)
http://www.dtcms.com/a/581888.html

相关文章:

  • 元宇宙:数字文明的下一站(元宇宙概念的理解及畅想(什么是元宇宙?未来它将如何改变世界?)
  • 20251106给荣品RD-RK3588-MID开发板跑Rockchip的原厂Android13系统时适配AP6275P模块的BT【使用荣品的DTS】
  • DS ArrayLinkedList、StackQueue、TreeMap、SearchSort
  • 网站建设与管理培训方案做网站可以卖钱吗
  • 太原制作网站的公司网站网站 换图片
  • 渗透测试数据库判断卡壳?分类 + 方法 + SQL/NoSQL 脚本速用
  • 低价网站建设策划内容怎么做公司网站的二维码
  • UniHttp/Jsoup Https SSL证书验证失败:SunCertPathBuilderException解决方案详解
  • Notepad++ 7.8.4 安装步骤详解(附 npp.7.8.4.Installer 安装教程)
  • 柳市网站建设哪家好wordpress七牛图片插件
  • 用 MCP 重构 RAG 智能体:3 步解决数据安全与多工具协同难题
  • QOS服务质量
  • 如何为视频进行外语配音:分步指南
  • 建设部网站投诉核查企业名单网页和网站的概念
  • kanass零基础学习,项目负责人如何使用kanass驾驭项目
  • redis实战篇day04
  • 罗湖网站公司服务器网站管理助手
  • 八股训练营第 10 天 | 进程和线程之间有什么区别?并行和并发有什么区别?解释一下用户态和核心态,什么场景下,会发生内核态和用户态的切换?
  • AIDAv2:重新定义DeFi的AI驱动金融基础设施
  • SAP PP未清生产订单关闭物料退料、新工单发料批量处理
  • 下载软件的网站哪个好用哪个网站做首页好
  • 【零基础一站式指南】Conda 学习环境准备与 Jupyter/PyCharm 完全配置
  • 滨州制作网站深圳优化公司
  • mysql第四次做业
  • clusterProfile包用于宏基因组学富集分析
  • 湖北网站开发培训写一篇软文多少钱
  • python+django/flask基于协同过滤算法的理财产品推荐系统
  • h5个网站的区别某颜值女主播低俗内容流出视频
  • 做网站600房产管理局官网查询入口
  • 品牌网站建设要选磐石网络安阳县