当前位置: 首页 > news >正文

【Datawhale组队学习202509】AI硬件与机器人大模型 task01 具身智能基础

系列文章目录


文章目录

  • 系列文章目录
  • 前言
  • 一、具身智能概述?
    • 1.1 什么是具身智能
    • 1.2 关键三要素
      • 1.2.1 身体 Body
      • 1.2.2 大脑 Brain
      • 1.2.3 环境 Environment
    • 1.3 发展脉络
      • 1.3.1 第一阶段:蹒跚学步的先驱 20世纪中叶-20世纪末
      • 1.3.2 第二阶段:深度学习的赋能 21世纪初-2020年
      • 1.3.3 第三阶段: 大模型开启新纪元 2021年-至今
    • 1.4 广阔的应用领域
      • 1.4.1 工业制造和物流
      • 1.4.2 家庭服务与陪伴
      • 1.4.3 医疗健康与康复
      • 1.4.4 科学探索与特种作业
    • 1.5 面临的挑战与未来展望
      • 1.5.1 核心挑战
      • 1.5.2 未来展望
  • 二、 机器人学基础:运动学、动力学与控制
    • 2.1 运动学
      • 2.1.1 正向运动学: 从关节角度到末段位姿的探索
      • 2.1.2 逆向运动学:从末端位姿到关节角度的求解
    • 2.2 动力学
    • 2.3 控制
      • 2.3.1 控制的核心概念
      • 2.3.2 控制关键内容
        • 2.3.2.1 PID 控制


前言

  • 教程地址

一、具身智能概述?

1.1 什么是具身智能

具身智能 Embodied AI,指的是能够通过物理身体(如机器人、自动驾驶汽车等)在真实世界中进行感知、交互和学习的智能系统。

  • 它强调智能体必须拥有一个身体 body,并通过这个身体与环境互动,从而获得对世界更深层次、更符合物理规律的理解。
  • 具身智能 = 智能的大脑 + 行动的身体
  • 但这一切不仅仅是给AI装上轮子和手臂这么简单,这背后是深刻的哲学与技术变革。通用认为,真正的智能是在与环境的持续互动和反馈中涌现的,而非凭空产生。就像婴儿,通过抓握、爬行、摔倒和探索来认识世界。

1.2 关键三要素

1.2.1 身体 Body

  • 智能体的物理形态,包括各种传感器:如摄像头、激光雷达、触觉传感器,用于感知;执行器:如电机、机械臂、轮子,用于行动。

1.2.2 大脑 Brain

  • 智能算法的核心,负责处理来自传感器的数据,进行思考、决策,并向执行器发出指令。
  • 通常涉及到深度学习、强化学习、大语言模型等AI技术。

1.2.3 环境 Environment

  • 智能体所处的物理世界,是智能体学习和实践的舞台,充满着不确定性、动态变化和复杂的物理规律。

1.3 发展脉络

1.3.1 第一阶段:蹒跚学步的先驱 20世纪中叶-20世纪末

  • 理论萌芽:控制论 Cybernetics 创始人诺伯特·维纳等人最早提出了关于机器与环境交互的构想。
  • 标志性项目:1966-1972,Stanford 研制的世界第一台真正意义上的移动机器人 Shakey。

1.3.2 第二阶段:深度学习的赋能 21世纪初-2020年

  • 技术突破:随着算力的提升和深度学习的算法成熟,Computer Vision 让机器人拥有了眼睛。同时,Reinforcement Learning 让机器人可以通过试错来学习复杂技能,而无需人类编写所有规则。
  • 明星玩家:Boston Dynamics 的 Atlas 机器人。

1.3.3 第三阶段: 大模型开启新纪元 2021年-至今

  • 范式转移:可以将 LLM 作为具身智能的“大脑”,负责理解高层次的指令,并将其分解为机器人可以执行的具体步骤。
  • 代表性突破:
    • 谷歌的 RT-2 模型
    • 特斯拉的 Optimus 机器人
    • Figure AI 与 OpenAI 的合作

1.4 广阔的应用领域

1.4.1 工业制造和物流

  • 这是具身智能最先落地、也是最成熟的领域。
  • 从高度自动化的汽车生产线上的机械臂,到亚马逊仓库里高效分拣包裹的Kiva机器人等等。

1.4.2 家庭服务与陪伴

  • 想象一下,未来家中的机器人不仅能扫地、拖地,还能为你整理房间、烹饪、照顾宠物,甚至成为老人的贴心伴侣和孩子的玩伴。

1.4.3 医疗健康与康复

  • 手术机器人: 以“达芬奇”手术机器人为代表,它们可以辅助医生进行更精准、微创的手术。
  • 康复机器人: 帮助行动不便的患者进行康复训练。
  • 智能假肢: 能够理解佩戴者意图,实现更自然、灵活的动作。

1.4.4 科学探索与特种作业

  • 在人类难以企及或极端危险的环境中,具身智能将成为我们的“化身”。
  • 深空探索: 如NASA的“毅力号”火星车,在火星表面自主探索、采样和分析。
  • 深海勘探: 自主水下航行器(AUV)探索神秘的海底世界。
  • 灾难救援: 在地震、火灾等灾后现场,机器人可以代替救援人员进入危险区域进行搜救。

1.5 面临的挑战与未来展望

1.5.1 核心挑战

  • “Sim-to-Real”的鸿沟: 在模拟器中训练好的模型,转移到现实世界时往往会“水土不服”,因为现实世界充满了模拟器无法穷尽的细节和意外。
  • 泛化能力: 如何让机器人在面对从未见过的物体和环境时,依然能做出正确的决策和行动,这是实现“通用”的关键。
  • 数据稀缺: 与互联网上取之不尽的文本和图片数据不同,高质量的机器人交互数据既昂贵又难以获取。
  • 安全性与伦理: 一个拥有强大物理能力的AI系统,如何确保其行为的安全、可控和符合人类伦理,是一个必须严肃对待的问题。

1.5.2 未来展望

  • 随着大模型、新材料、新传感器技术的不断融合,可以预见:
  1. 更强的通用性: 未来的机器人将不再是“专才”,而是能像人一样学习和适应多种任务的“通才”。
  2. 更自然的人机交互: 我们可以通过自然语言、手势甚至眼神与机器人协作,它们将成为我们生活中无缝衔接的伙伴。
  3. 智能的物理涌现: 最终,具身智能的目标是让智能体在与物理世界的复杂互动中,自发地学习和涌现出我们甚至没有预设过的、更高级的智能形式。

二、 机器人学基础:运动学、动力学与控制

  • 大量内容参考:# 机器人学基础:运动学、动力学与控制, 作者:BotGo

在探索具身智能的奥秘时,我们如同在破解一个精密的机械谜题。而机器人学正是这谜题的钥匙。它不仅是设计、制造、控制机器人的科学,更是理解智能体如何与物理世界交互的基石。

  • 在机器人学的浩瀚领域中,运动学动力学控制,无疑是三大核心支柱,它们共同构建了机器人行为的逻辑框架。

2.1 运动学

Kinematics,机器人的姿态。

  • 在机器人学中,运动学犹如一幅精密的地图,描绘了机器人在空间中的运动轨迹,揭示了关节角度与末端执行器位姿之间的奥秘
  • 与动力学不同,运动学专注于几何关系,忽略了力和力矩的影响,纯粹地探索机器人的姿态密码。

运动学是机器人控制、路径规划和人机交互等领域的基础。

  • 机器人路径规划: 生成满足末端位姿要求的关节轨迹,让机器人按照预定的路径运动。
  • 轨迹生成: 根据机器人的运动学模型,生成平滑的关节轨迹,避免机器人运动过程中的突变。
  • 机器人控制: 根据目标末端位姿,计算关节角度,驱动机器人运动。

2.1.1 正向运动学: 从关节角度到末段位姿的探索

正向运动学是运动学的基石。

  1. DH Denavit-Hartenberg 参数:构建机器人运动学模型的桥梁
  • 一种标准化的方法,为了系统的描述机器人连杆之间的相对位置和姿态
  • 通过四个参数来定义每个连杆的坐标系:
    • 连杆长度 aia_iai :沿 xix_ixi 轴,从 zi−1z_{i-1}zi1 轴到 ziz_izi 的距离;
    • 连杆扭角 αi\alpha_iαi: 绕 xix_ixi 轴,从 zi−1z_{i-1}zi1 轴到 zi−1z_{i-1}zi1 轴的旋转角度;
    • 关节偏移 did_idi : 沿 zi−1z_{i-1}zi1 轴,从 xi−1x_{i-1}xi1 轴到 xix_ixi 轴的距离;
    • 关节角度 θi\theta_iθi: 绕 zi−1z_{i-1}zi1 轴,从 xi−1x_{i-1}xi1 轴到 xix_ixi 轴的旋转角度;

2.1.2 逆向运动学:从末端位姿到关节角度的求解

逆向运动学是正向运动学的逆问题。

2.2 动力学

Dynamics,机器人的力量;

  • 动力学,研究惯性、力矩、功率等参数,如何决定机器人的运动能力。

应用于机器人力控制、运动控制、仿真等领域。

  • 机器人力控制
    • 力控制使机器人能够感知和控制与环境的相互作用力;
    • 通过动力学模型计算机器人所需的关节力矩;
  • 运动控制
    • 使机器人能够按照期望的轨迹运动;
    • 通过动力学模型设计运动控制器;
  • 仿真
    • 可以帮助验证机器人设计和控制策略的有效性;
    • 通过动力学仿真,可以预测机器人在不同工况下的运动行为,优化机器人设计和控制策略;

2.3 控制

Control,机器人的大脑。

  • 通过设计控制策略和算法,使机器人能够感知环境、作出决策并执行动作。

控制在机器人轨迹跟踪、力反馈控制、人机协作等领域广泛应用。

  • 机器人轨迹跟踪
    • 使机器人能够按照期望的轨迹运动;
    • 需要设计轨迹跟踪控制器;
  • 力反馈控制
    • 使机器人能够根据环境的反馈力,调整自身的运动;
  • 人机协作
    • 需要设计人机协作控制器

2.3.1 控制的核心概念

控制的本质,是让机器人按照预定的目标运行。

  1. 反馈控制 feedback control

2.3.2 控制关键内容

2.3.2.1 PID 控制

PID 控制算法是工业自动化中最常用的控制算法之一。

  • PID 通过计算当前输出与期望输出之间的误差,并根据该误差的比例 P积分 I微分 D 来调整控制输入。
http://www.dtcms.com/a/390280.html

相关文章:

  • Go语言高并发编程全面解析:从基础到高级实战
  • leetcode算法刷题的第三十八天
  • RHEL 兼容发行版核心对比表
  • 如何解决 pip install 安装报错 ModuleNotFoundError: No module named ‘yaml’ 问题
  • 无刷电机有感方波闭环控制
  • 【EKL】
  • 设计模式-模板方法模式详解(2)
  • 算法(一)双指针法
  • C语言指针深度解析:从核心原理到工程实践
  • hsahmap的寻址算法和为是你扩容为2的N次方
  • ​​[硬件电路-243]:电源纹波与噪声
  • Kurt-Blender零基础教程:第1章:基础篇——第2节:认识界面
  • Kurt-Blender零基础教程:第1章:基础篇——第1节:下载与键位
  • 袋鼠参谋 - 美团推出的餐饮行业经营决策 AI 助手
  • 09-Redis 哈希类型深度解析:从命令实操到对象存储场景落地
  • 【论文阅读】MaskGIT: Masked Generative Image Transformer
  • Maya绑定基础知识总结合集:父子关系和父子约束对比
  • 从假设检验到数据驱动决策:统计推断的技术实战与方法论深度拆解
  • 基于PyTorch Geometric的图神经网络预训练模型实现
  • UniTask在Webgl上报错的记录
  • 供应链场景下Oracle分库分表案例架构及核心代码分析
  • 【leetcode】59. 螺旋矩阵 II
  • Discord+ChatGPT?如何利用AI打造海外私域社群?
  • 概率论强化大观
  • 数据结构——单链表(c语言笔记)
  • 【系列文章】Linux系统中断的应用05-延迟工作
  • Cannot find module ‘@ohos/ohoszxing‘ 和安装ohoszxing 的第三方库
  • Intelligent parking
  • 【试题】数据安全管理员考试题目
  • linux中的redis