【Datawhale组队学习202509】AI硬件与机器人大模型 task01 具身智能基础
系列文章目录
文章目录
- 系列文章目录
- 前言
- 一、具身智能概述?
- 1.1 什么是具身智能
- 1.2 关键三要素
- 1.2.1 身体 Body
- 1.2.2 大脑 Brain
- 1.2.3 环境 Environment
- 1.3 发展脉络
- 1.3.1 第一阶段:蹒跚学步的先驱 20世纪中叶-20世纪末
- 1.3.2 第二阶段:深度学习的赋能 21世纪初-2020年
- 1.3.3 第三阶段: 大模型开启新纪元 2021年-至今
- 1.4 广阔的应用领域
- 1.4.1 工业制造和物流
- 1.4.2 家庭服务与陪伴
- 1.4.3 医疗健康与康复
- 1.4.4 科学探索与特种作业
- 1.5 面临的挑战与未来展望
- 1.5.1 核心挑战
- 1.5.2 未来展望
- 二、 机器人学基础:运动学、动力学与控制
- 2.1 运动学
- 2.1.1 正向运动学: 从关节角度到末段位姿的探索
- 2.1.2 逆向运动学:从末端位姿到关节角度的求解
- 2.2 动力学
- 2.3 控制
- 2.3.1 控制的核心概念
- 2.3.2 控制关键内容
- 2.3.2.1 PID 控制
前言
- 教程地址
一、具身智能概述?
1.1 什么是具身智能
具身智能 Embodied AI,指的是能够通过物理身体(如机器人、自动驾驶汽车等)在真实世界中进行感知、交互和学习的智能系统。
- 它强调智能体必须拥有一个身体 body,并通过这个身体与环境互动,从而获得对世界更深层次、更符合物理规律的理解。
- 具身智能 = 智能的大脑 + 行动的身体
- 但这一切不仅仅是给AI装上轮子和手臂这么简单,这背后是深刻的哲学与技术变革。通用认为,真正的智能是在与环境的持续互动和反馈中涌现的,而非凭空产生。就像婴儿,通过抓握、爬行、摔倒和探索来认识世界。
1.2 关键三要素
1.2.1 身体 Body
- 智能体的物理形态,包括各种传感器:如摄像头、激光雷达、触觉传感器,用于感知;执行器:如电机、机械臂、轮子,用于行动。
1.2.2 大脑 Brain
- 即智能算法的核心,负责处理来自传感器的数据,进行思考、决策,并向执行器发出指令。
- 通常涉及到深度学习、强化学习、大语言模型等AI技术。
1.2.3 环境 Environment
- 智能体所处的物理世界,是智能体学习和实践的舞台,充满着不确定性、动态变化和复杂的物理规律。
1.3 发展脉络
1.3.1 第一阶段:蹒跚学步的先驱 20世纪中叶-20世纪末
- 理论萌芽:控制论 Cybernetics 创始人诺伯特·维纳等人最早提出了关于机器与环境交互的构想。
- 标志性项目:1966-1972,Stanford 研制的世界第一台真正意义上的移动机器人 Shakey。
1.3.2 第二阶段:深度学习的赋能 21世纪初-2020年
- 技术突破:随着算力的提升和深度学习的算法成熟,Computer Vision 让机器人拥有了眼睛。同时,Reinforcement Learning 让机器人可以通过试错来学习复杂技能,而无需人类编写所有规则。
- 明星玩家:Boston Dynamics 的 Atlas 机器人。
1.3.3 第三阶段: 大模型开启新纪元 2021年-至今
- 范式转移:可以将 LLM 作为具身智能的“大脑”,负责理解高层次的指令,并将其分解为机器人可以执行的具体步骤。
- 代表性突破:
- 谷歌的 RT-2 模型
- 特斯拉的 Optimus 机器人
- Figure AI 与 OpenAI 的合作
1.4 广阔的应用领域
1.4.1 工业制造和物流
- 这是具身智能最先落地、也是最成熟的领域。
- 从高度自动化的汽车生产线上的机械臂,到亚马逊仓库里高效分拣包裹的Kiva机器人等等。
1.4.2 家庭服务与陪伴
- 想象一下,未来家中的机器人不仅能扫地、拖地,还能为你整理房间、烹饪、照顾宠物,甚至成为老人的贴心伴侣和孩子的玩伴。
1.4.3 医疗健康与康复
- 手术机器人: 以“达芬奇”手术机器人为代表,它们可以辅助医生进行更精准、微创的手术。
- 康复机器人: 帮助行动不便的患者进行康复训练。
- 智能假肢: 能够理解佩戴者意图,实现更自然、灵活的动作。
1.4.4 科学探索与特种作业
- 在人类难以企及或极端危险的环境中,具身智能将成为我们的“化身”。
- 深空探索: 如NASA的“毅力号”火星车,在火星表面自主探索、采样和分析。
- 深海勘探: 自主水下航行器(AUV)探索神秘的海底世界。
- 灾难救援: 在地震、火灾等灾后现场,机器人可以代替救援人员进入危险区域进行搜救。
1.5 面临的挑战与未来展望
1.5.1 核心挑战
- “Sim-to-Real”的鸿沟: 在模拟器中训练好的模型,转移到现实世界时往往会“水土不服”,因为现实世界充满了模拟器无法穷尽的细节和意外。
- 泛化能力: 如何让机器人在面对从未见过的物体和环境时,依然能做出正确的决策和行动,这是实现“通用”的关键。
- 数据稀缺: 与互联网上取之不尽的文本和图片数据不同,高质量的机器人交互数据既昂贵又难以获取。
- 安全性与伦理: 一个拥有强大物理能力的AI系统,如何确保其行为的安全、可控和符合人类伦理,是一个必须严肃对待的问题。
1.5.2 未来展望
- 随着大模型、新材料、新传感器技术的不断融合,可以预见:
- 更强的通用性: 未来的机器人将不再是“专才”,而是能像人一样学习和适应多种任务的“通才”。
- 更自然的人机交互: 我们可以通过自然语言、手势甚至眼神与机器人协作,它们将成为我们生活中无缝衔接的伙伴。
- 智能的物理涌现: 最终,具身智能的目标是让智能体在与物理世界的复杂互动中,自发地学习和涌现出我们甚至没有预设过的、更高级的智能形式。
二、 机器人学基础:运动学、动力学与控制
- 大量内容参考:# 机器人学基础:运动学、动力学与控制, 作者:BotGo
在探索具身智能的奥秘时,我们如同在破解一个精密的机械谜题。而机器人学正是这谜题的钥匙。它不仅是设计、制造、控制机器人的科学,更是理解智能体如何与物理世界交互的基石。
- 在机器人学的浩瀚领域中,运动学、动力学与控制,无疑是三大核心支柱,它们共同构建了机器人行为的逻辑框架。
2.1 运动学
Kinematics,机器人的姿态。
- 在机器人学中,运动学犹如一幅精密的地图,描绘了机器人在空间中的运动轨迹,揭示了关节角度与末端执行器位姿之间的奥秘。
- 与动力学不同,运动学专注于几何关系,忽略了力和力矩的影响,纯粹地探索机器人的姿态密码。
运动学是机器人控制、路径规划和人机交互等领域的基础。
- 机器人路径规划: 生成满足末端位姿要求的关节轨迹,让机器人按照预定的路径运动。
- 轨迹生成: 根据机器人的运动学模型,生成平滑的关节轨迹,避免机器人运动过程中的突变。
- 机器人控制: 根据目标末端位姿,计算关节角度,驱动机器人运动。
2.1.1 正向运动学: 从关节角度到末段位姿的探索
正向运动学是运动学的基石。
- DH Denavit-Hartenberg 参数:构建机器人运动学模型的桥梁
- 一种标准化的方法,为了系统的描述机器人连杆之间的相对位置和姿态。
- 通过四个参数来定义每个连杆的坐标系:
- 连杆长度 aia_iai :沿 xix_ixi 轴,从 zi−1z_{i-1}zi−1 轴到 ziz_izi 的距离;
- 连杆扭角 αi\alpha_iαi: 绕 xix_ixi 轴,从 zi−1z_{i-1}zi−1 轴到 zi−1z_{i-1}zi−1 轴的旋转角度;
- 关节偏移 did_idi : 沿 zi−1z_{i-1}zi−1 轴,从 xi−1x_{i-1}xi−1 轴到 xix_ixi 轴的距离;
- 关节角度 θi\theta_iθi: 绕 zi−1z_{i-1}zi−1 轴,从 xi−1x_{i-1}xi−1 轴到 xix_ixi 轴的旋转角度;
2.1.2 逆向运动学:从末端位姿到关节角度的求解
逆向运动学是正向运动学的逆问题。
2.2 动力学
Dynamics,机器人的力量;
- 动力学,研究惯性、力矩、功率等参数,如何决定机器人的运动能力。
应用于机器人力控制、运动控制、仿真等领域。
- 机器人力控制
- 力控制使机器人能够感知和控制与环境的相互作用力;
- 通过动力学模型计算机器人所需的关节力矩;
- 运动控制
- 使机器人能够按照期望的轨迹运动;
- 通过动力学模型设计运动控制器;
- 仿真
- 可以帮助验证机器人设计和控制策略的有效性;
- 通过动力学仿真,可以预测机器人在不同工况下的运动行为,优化机器人设计和控制策略;
2.3 控制
Control,机器人的大脑。
- 通过设计控制策略和算法,使机器人能够感知环境、作出决策并执行动作。
控制在机器人轨迹跟踪、力反馈控制、人机协作等领域广泛应用。
- 机器人轨迹跟踪
- 使机器人能够按照期望的轨迹运动;
- 需要设计轨迹跟踪控制器;
- 力反馈控制
- 使机器人能够根据环境的反馈力,调整自身的运动;
- 人机协作
- 需要设计人机协作控制器
2.3.1 控制的核心概念
控制的本质,是让机器人按照预定的目标运行。
- 反馈控制 feedback control
2.3.2 控制关键内容
2.3.2.1 PID 控制
PID 控制算法是工业自动化中最常用的控制算法之一。
- PID 通过计算当前输出与期望输出之间的误差,并根据该误差的比例 P、积分 I 和 微分 D 来调整控制输入。