当前位置：首页 > news >正文

【Datawhale组队学习202509】AI硬件与机器人大模型 task01 具身智能基础

news 2025/9/19 15:12:42

系列文章目录

文章目录

系列文章目录
前言
一、具身智能概述？
- 1.1 什么是具身智能
- 1.2 关键三要素
- - 1.2.1 身体 Body
  - 1.2.2 大脑 Brain
  - 1.2.3 环境 Environment
- 1.3 发展脉络
- - 1.3.1 第一阶段：蹒跚学步的先驱 20世纪中叶-20世纪末
  - 1.3.2 第二阶段：深度学习的赋能 21世纪初-2020年
  - 1.3.3 第三阶段：大模型开启新纪元 2021年-至今
- 1.4 广阔的应用领域
- - 1.4.1 工业制造和物流
  - 1.4.2 家庭服务与陪伴
  - 1.4.3 医疗健康与康复
  - 1.4.4 科学探索与特种作业
- 1.5 面临的挑战与未来展望
- - 1.5.1 核心挑战
  - 1.5.2 未来展望
二、机器人学基础：运动学、动力学与控制
- 2.1 运动学
- - 2.1.1 正向运动学: 从关节角度到末段位姿的探索
  - 2.1.2 逆向运动学：从末端位姿到关节角度的求解
- 2.2 动力学
- 2.3 控制
- - 2.3.1 控制的核心概念
  - 2.3.2 控制关键内容
  - - 2.3.2.1 PID 控制

前言

教程地址

一、具身智能概述？

1.1 什么是具身智能

具身智能 Embodied AI，指的是能够通过物理身体(如机器人、自动驾驶汽车等)在真实世界中进行感知、交互和学习的智能系统。

它强调智能体必须拥有一个身体 body，并通过这个身体与环境互动，从而获得对世界更深层次、更符合物理规律的理解。
具身智能 = 智能的大脑 + 行动的身体
但这一切不仅仅是给AI装上轮子和手臂这么简单，这背后是深刻的哲学与技术变革。通用认为，真正的智能是在与环境的持续互动和反馈中涌现的，而非凭空产生。就像婴儿，通过抓握、爬行、摔倒和探索来认识世界。

1.2 关键三要素

1.2.1 身体 Body

智能体的物理形态，包括各种传感器：如摄像头、激光雷达、触觉传感器，用于感知；执行器：如电机、机械臂、轮子，用于行动。

1.2.2 大脑 Brain

即智能算法的核心，负责处理来自传感器的数据，进行思考、决策，并向执行器发出指令。
通常涉及到深度学习、强化学习、大语言模型等AI技术。

1.2.3 环境 Environment

智能体所处的物理世界，是智能体学习和实践的舞台，充满着不确定性、动态变化和复杂的物理规律。

1.3 发展脉络

1.3.1 第一阶段：蹒跚学步的先驱 20世纪中叶-20世纪末

理论萌芽：控制论 Cybernetics 创始人诺伯特·维纳等人最早提出了关于机器与环境交互的构想。
标志性项目：1966-1972，Stanford 研制的世界第一台真正意义上的移动机器人 Shakey。

1.3.2 第二阶段：深度学习的赋能 21世纪初-2020年

技术突破：随着算力的提升和深度学习的算法成熟，Computer Vision 让机器人拥有了眼睛。同时，Reinforcement Learning 让机器人可以通过试错来学习复杂技能，而无需人类编写所有规则。
明星玩家：Boston Dynamics 的 Atlas 机器人。

1.3.3 第三阶段：大模型开启新纪元 2021年-至今

范式转移：可以将 LLM 作为具身智能的“大脑”，负责理解高层次的指令，并将其分解为机器人可以执行的具体步骤。
代表性突破：
- 谷歌的 RT-2 模型
- 特斯拉的 Optimus 机器人
- Figure AI 与 OpenAI 的合作

1.4 广阔的应用领域

1.4.1 工业制造和物流

这是具身智能最先落地、也是最成熟的领域。
从高度自动化的汽车生产线上的机械臂，到亚马逊仓库里高效分拣包裹的Kiva机器人等等。

1.4.2 家庭服务与陪伴

想象一下，未来家中的机器人不仅能扫地、拖地，还能为你整理房间、烹饪、照顾宠物，甚至成为老人的贴心伴侣和孩子的玩伴。

1.4.3 医疗健康与康复

手术机器人： 以“达芬奇”手术机器人为代表，它们可以辅助医生进行更精准、微创的手术。
康复机器人： 帮助行动不便的患者进行康复训练。
智能假肢： 能够理解佩戴者意图，实现更自然、灵活的动作。

1.4.4 科学探索与特种作业

在人类难以企及或极端危险的环境中，具身智能将成为我们的“化身”。
深空探索： 如NASA的“毅力号”火星车，在火星表面自主探索、采样和分析。
深海勘探： 自主水下航行器（AUV）探索神秘的海底世界。
灾难救援： 在地震、火灾等灾后现场，机器人可以代替救援人员进入危险区域进行搜救。

1.5 面临的挑战与未来展望

1.5.1 核心挑战

“Sim-to-Real”的鸿沟： 在模拟器中训练好的模型，转移到现实世界时往往会“水土不服”，因为现实世界充满了模拟器无法穷尽的细节和意外。
泛化能力： 如何让机器人在面对从未见过的物体和环境时，依然能做出正确的决策和行动，这是实现“通用”的关键。
数据稀缺： 与互联网上取之不尽的文本和图片数据不同，高质量的机器人交互数据既昂贵又难以获取。
安全性与伦理： 一个拥有强大物理能力的AI系统，如何确保其行为的安全、可控和符合人类伦理，是一个必须严肃对待的问题。

1.5.2 未来展望

随着大模型、新材料、新传感器技术的不断融合，可以预见：

更强的通用性： 未来的机器人将不再是“专才”，而是能像人一样学习和适应多种任务的“通才”。
更自然的人机交互： 我们可以通过自然语言、手势甚至眼神与机器人协作，它们将成为我们生活中无缝衔接的伙伴。
智能的物理涌现： 最终，具身智能的目标是让智能体在与物理世界的复杂互动中，自发地学习和涌现出我们甚至没有预设过的、更高级的智能形式。

二、机器人学基础：运动学、动力学与控制

大量内容参考：# 机器人学基础：运动学、动力学与控制, 作者：BotGo

在探索具身智能的奥秘时，我们如同在破解一个精密的机械谜题。而机器人学正是这谜题的钥匙。它不仅是设计、制造、控制机器人的科学，更是理解智能体如何与物理世界交互的基石。

在机器人学的浩瀚领域中，运动学、动力学与控制，无疑是三大核心支柱，它们共同构建了机器人行为的逻辑框架。

2.1 运动学

Kinematics，机器人的姿态。

在机器人学中，运动学犹如一幅精密的地图，描绘了机器人在空间中的运动轨迹，揭示了关节角度与末端执行器位姿之间的奥秘。
与动力学不同，运动学专注于几何关系，忽略了力和力矩的影响，纯粹地探索机器人的姿态密码。

运动学是机器人控制、路径规划和人机交互等领域的基础。

机器人路径规划： 生成满足末端位姿要求的关节轨迹，让机器人按照预定的路径运动。
轨迹生成： 根据机器人的运动学模型，生成平滑的关节轨迹，避免机器人运动过程中的突变。
机器人控制： 根据目标末端位姿，计算关节角度，驱动机器人运动。

2.1.1 正向运动学: 从关节角度到末段位姿的探索

正向运动学是运动学的基石。

DH Denavit-Hartenberg 参数：构建机器人运动学模型的桥梁

一种标准化的方法，为了系统的描述机器人连杆之间的相对位置和姿态。
通过四个参数来定义每个连杆的坐标系：
- 连杆长度 $a_i$ ：沿 $x_i$ 轴，从 $z_{i-1}$ 轴到 $z_i$ 的距离；
- 连杆扭角 $αi\alpha_i$ ：绕 $x_i$ 轴，从 $z_{i-1}$ 轴到 $z_{i-1}$ 轴的旋转角度；
- 关节偏移 $d_i$ ：沿 $z_{i-1}$ 轴，从 $x_{i-1}$ 轴到 $x_i$ 轴的距离；
- 关节角度 $θi\theta_i$ ：绕 $z_{i-1}$ 轴，从 $x_{i-1}$ 轴到 $x_i$ 轴的旋转角度；