当前位置: 首页 > news >正文

Fourier-Lerobot——把斯坦福人形动作策略iDP3封装进了Lerobot(含我司七月人形研发落地实践)

前言

近期在抠lerobot源码时,看到其封装了ALOHA ACT、diffusion policy、π0时,我就在想,lerobot其实可以再封装下idp3

  1. 我甚至考虑是否从我联合带的那十几个具身研究生中选几个同学做下这事,对他们也是很好的历练
  2. 然当25年3.18日晚上,我把lerobot抠的差不多了「比如此文《LeRobot源码剖析——对机器人各个动作策略的统一封装:包含ALOHA ACT、Diffusion Policy、VLA模型π0》
    却发现傅利叶fork了lerobot,并在fork的fourier-lerobot中,把idp3封装了进去,实在是卷啊..

再加之工厂机械臂开发订单之外,我司「七月在线」近期接到的B端人形开发订单越来越多了(且还有多个人形开发需求正在并行推进中)

  1. 对于其中一个人形开发订单,我(们)准备把ipd3作为备选,既然fourier把ipd3封装进了lerobot,那这个fourier-lerobot便是我们在落地中会尝试的库之一
  2. 当然了,idp3外,像vla π0 我们也会考虑并行尝试,而π0此前已经封装进了lerobot,故π0官方库、lerobot库都是可以选择的 

我们非常缺人,如果有志于做具身智能或人形研发的,欢迎私我,我还顺带在微博上感慨

而FFTAI/fourier-lerobot对huggingface/lerobot的主要扩展集中在以下几个方面:

  1. 数据集支持:添加了对Fourier ActionNet数据集的全面支持,包括转换工具和可视化工具
  2. 训练管道:扩展了IDP3训练管道,针对人形机器人优化
  3. 工具扩展:提供了特定于Fourier数据集的工具链

这些修改使FFTAI/fourier-lerobot成为一个专为人形机器人开发优化的版本,而保持了与原始huggingface/lerobot项目的核心框架兼容性

第一部分 fourier-lerobot新增的独立scripts

FFTAI/fourier-lerobot添加了一个完全独立的scripts目录(与lerobot/scripts不同),包含:

  • convert_to_lerobot_v2.py:这是一个专门为Fourier数据集开发的转换工具,用于将Fourier ActionNet数据集转换为LeRobotDatasetV2格式
    该脚本处理了:
    HDF5格式的机器人状态和动作数据
    摄像机RGB和深度视频数据
    点云数据生成和处理
    时间戳对齐
    特定于人形机器人的关节数据处理
  • `fourier_viz.py`:用于可视化Fourier数据集的专用工具
  • `requirements.txt`:Fourier数据集处理工具的依赖项

1.1 convert_to_lerobot_v2.py

1.2 fourier_viz.py

第二部分 全新的`idp3`训练管道实现

即在新增的lerobot/common/policies/idp3目录之下,包含以下文件:
- `configuration_idp3.py`
- `modeling_idp3.py` 
- `pointnet_extractor.py`

这是一个重要的扩展,因为原始huggingface/lerobot项目中不包含IDP3训练管道

// 待更

第三部分 Fourier数据集的可视化和处理与文档扩展

3.1 pyproject.toml中的修改:以支持Fourier数据集的可视化和处理

添加了`fourier_viz`可选依赖组,包含以下软件包:

fourier_viz = [
    "opencv-python>=4.10.0.84",
    "rerun-sdk==0.22.0",
    "h5py>=3.12.1",
    "tqdm>=4.67.1",
    "loguru",
    "numpy",
    "rich",
]

这些依赖项专门用于支持Fourier数据集的可视化和处理

3.2 文档扩展

- 添加了完整的`DATASET.md`文件,详细说明了Fourier ActionNet数据集的结构和使用方法
- 修改了`README.md`,添加了关于Fourier-Lerobot的介绍段落和功能说明

第四部分 傅利叶开源人形机器人数据集Fourier ActionNet

// 待更

第五部分 我司七月人形研发落地实践

// 待更

相关文章:

  • HCL—我与虚拟机的爱恨情仇[特殊字符][特殊字符]‍[特殊字符]️
  • C++ --- 多态
  • 破解PDF转Word难题:如何选择高效、安全的转换工具?
  • C++核心语法快速整理
  • 【redis】事务详解,相关命令multi、exec、discard 与 watch 的原理
  • 操作系统核心问题解析(目的/定位、管理思想:先描述,再组织、 库函数与系统调用的关系)
  • 使用 ncurses 库创建文本用户界面:基础函数详解
  • RK3588开发笔记-DDR4降频实战与系统稳定性优化
  • Jmeter分布式测试的注意事项和常见问题
  • 基于linux平台的C语言入门教程(2)变量与常量
  • NLP高频面试题(十)——目前常见的几种大模型架构是啥样的
  • WSL 导入完整系统包教程
  • DeepSeek AI大模型工作机制及未来方向
  • PyTorch核心基础知识点
  • Pear Admin Flask 开发问题
  • 数据库三级选择题(1)
  • C语言基础知识08---链表
  • 考研复习之队列
  • [Lc_2 二叉树dfs] 布尔二叉树的值 | 根节点到叶节点数字之和 | 二叉树剪枝
  • 强大的AI网站推荐(第三集)—— AskO3
  • 奈雪的茶叫停“能喝奶茶就不要喝水”宣传,当地市监称不要误导消费者
  • 中国人保不再设监事会,国寿集团未再设置监事长职务
  • 专访|首夺天元头衔创生涯历史,王星昊打算一步一步慢慢来
  • 众信旅游:去年盈利1.06亿元,同比增长228.18%
  • 北京公园使用指南
  • 新加坡选情渐热:播客、短视频各显神通,总理反对身份政治