当前位置: 首页 > news >正文

FaGeL:将LLMs用于具身智能研究的最佳案例

导读:
通往AGI道路的一步:FaGeL,它是一个由大型语言模型(LLMs)和智能织物技术赋能的具身智能体,它能够实现非侵入式的人机互动和自主任务生成。它将是打开无缝适应多样化人类需求和上下文的通用人工智能(AGI)驱动智能体的关键一步。

©️【深蓝AI】编译

论文标题:FaGeL: Fabric LLMs Agent empowered Embodied Intelligence Evolution with Autonomous Human-Machine Collaboration

论文作者:Jia Liu, Min Chen

论文地址:https://arxiv.org/pdf/2412.20297

01 背景简介

大型语言模型(LLMs)的进展为具身智能体提供了强大的推理能力,使其能够与环境进行动态交互,为实现 AGI 驱动的机器人技术带来了新的希望。

最近,利用 LLM 技术实现以机器人为中心的物理具身实体的代表性工作不断涌现。例如,经过大规模互联网数据训练的多模态大型语言模型(MLLMs)可以集成到端到端的机器人控制系统中,以实现语义推理和任务泛化能力。此外,LLM 已成功应用于零样本设置下的机器人控制,尤其是在解决具有挑战性的规划任务时。然而,这些开创性的探索尚未充分发挥 LLM 的潜力。大多数关于具身智能体的研究主要集中在理解和执行物理世界中指定任务空间内的任务。因此,在开放物理环境中的任务学习和泛化中,LLM 技术的利用显著不足。

与以机器人为中心的具身智能相比,已有一些尝试将 LLM 作为自主具身智能体在模拟环境中的控制中心。这些智能体表现出与队友在游戏中主动协作、随着时间推移提高任务完成率,以及在互动沙盒环境中生成社会行为。然而,这种虚拟自主智能体的演化通常依赖于虚拟环境提供的大量低级数据,这在虚拟任务和现实任务之间造成了显著差距。因此,将它们应用于物理世界仍需进一步探索和实验。

因此,现有工作在实现 AGI 的未来愿景方面存在局限性,即具身智能体理解复杂意图、分解任务以及特别是在自然物理环境中自主探索和实现智能演化的能力。为了满足对具身智能未来演化的更高需求,构建能够从感知数据中理解环境、自主探索并基于人类反馈进行迭代优化的智能代理是一个长期且未解决的挑战,主要面临以下挑战:

非侵入性人机交互:从硬件角度看,这要求具身智能体在不显著干扰用户日常生活的情况下感知用户状态、环境参数和具身交互。通过与系统的自然互动,减轻用户在操作需求上的负担,从而提高用户体验的质量和互动效率。

基于隐性反馈的 AI 对齐:在算法方面,传统的 AI 对齐反馈机制依赖于显式评分或偏好值,例如来自人类反馈的强化学习(RLHF)、直接偏好优化(DPO)、对齐语言模型与人类反馈的排名响应(RRHF)等。这些显式反馈形式劳动强度大,尤其是在与计算机的交互中,频繁的评估会干扰交互的流畅性。因此,利用上下文状态或用户活动数据等隐性反馈来实现 AI 对齐是一项具有挑战性的任务。

可解释的 AI 训练:考虑到系统的可靠性,希望 AI 的内部工作以可观察的方式呈现。为了确保可信性和透明性,AI 的决策过程应该是可解释的,使开发者和用户能够理解如何得出结论。这增强了调试能力,并通过使系统的行为更加可预测和可追溯来提高用户的信任。此外,可解释性有助于通过基于观察到的行为和结果提供可操作的反馈,持续改进 AI 模型。

为了解决这些挑战,本文引入了跨学科的织物计算技术,将材料科学与 AI 前沿相结合。智能织物技术赋予传统纺织品智能属性,为具身智能体提供了新的潜力,特别是在与人类长期非侵入性共存方面。基于智能织物技术,作者构建一个具身智能体,能够保证人类的高舒适度,自主探索,以人为中心并自然互动,同时使智能体的价值与人类的价值对齐。

智能织物技术将多功能传感器(如声音、光线、力、热、磁)集成到纺织品中(如服装、沙发、地毯),使得智能体能够与人类无缝互动,实时监测行为和环境变化,从而提高感知、适应性和学习能力。通过利用现实世界中的大规模多模态数据进行直接交互和反馈机制,这种方法有助于动态优化智能体的行为,确保其价值与人类的需求和意图保持一致。

▲图1| FaGeL 概览©️【深蓝AI】编译

结合智能织物技术,本文提出了一种名为 FaGeL(由具身智能与 LLM 赋能的智能织物代理)的具身智能体。FaGeL 可以探索用户的需求空间,自主生成协作任务,并通过捕捉日常生活中的细微行为来调整其价值,

而无需显式指导,如图 1 所示。它利用智能织物获取多模态数据,例如体温、心率和呼吸,这些数据可以嵌入到沙发、服装和地毯等物理实体中,以尽量减少对用户生活的干扰。FaGeL 具有以下特点:

(1)探索人类需求空间

(2)从人机协作的角度确定其定位和价值

(3)自主生成任务并通过人机交互反馈进行演化

本文的贡献如下:

  • 作者构建了 FaGeL,一个由智能织物和 LLM 赋能的具身智能体,能够持续收集大规模可穿戴和环境多模态数据。FaGeL 利用自主任务探索和人机交互实现价值对齐和演化,迭代调整模型输出。

  • 还建立了一个实验平台,以验证 FaGeL 在使用隐性反馈(生成的文本摘要,而非显式的标量奖励或偏好)时与人类价值体系对齐的能力。

  • 这是首次在大型语言模型训练中引入了标记级显著性图,以可视化 LLM 微调的内部机制。

  • 正向和负向的双向文本反馈显著影响标记级对齐。基于这一观察,作者提出了 DualCUT 算法,这是对对比不可能训练(CUT)对齐模型的扩展。DualCUT 算法改善了正向标记的识别,并增强了负向标记的识别,从而提高了对齐效率。

  • 为了验证 FaGeL 演化策略在合作任务中的有效性,作者在开源的 OvercookedAI 环境中应用了 FaGeL 演化算法,使智能体能够通过与用户的协作观察进行演化。基于当前的 SOTA 模型 ProAgent,FaGeL 在 10 场比赛中仅依靠观察(没有人类指导)实现了 11.3%的评分性能提升。

02 相关工作

2.1. Fabric-Integrated Embodied Intelligence

智能织物技术通过整合具身智能,为创新智能体设计提供了新的可能性,特别是在实现长期、舒适和非侵入性的人机共存方面。该技术能够对外部刺激(如光、温度、电场和磁场)作出反应,从而改变织物的外观,使其作为一种智能媒介。

多功能纤维的设计使得织物具备响应能力,例如,根据光和温度的变化动态改变颜色。例如,使用 TiO2-x 和染料涂层棉纺织纤维,使其在不同光照条件下能够实现可逆的颜色变化。反向热响应纤维(VTF)能够在温度变化时发生颜色变化,有效检测体温的变化。此外,纤维的颜色还可以因电场和压力而变化,并且已经开发出使用导电基材的智能变色织物,这些织物在施加电流时会改变颜色。

这些交互模式使得织物能够与其物理环境动态互动,通过自然表达增强人机设备的交互。例如,织物颜色的变化可以代表环境的变化或传达特定信息,提供详细且安全的交流和互动方法。

然而,智能织物在感知和互动方面的全部潜力探索仍处于起步阶段。集成到可穿戴和环境智能系统中的织物可以为人机交互提供更舒适和广泛的多模态途径。

2.2. AI Alignment with Human Feedback

通过根据用户反馈不断优化模型的任务,可以在现实世界的具身交互中促进持续的演化智能。确保模型的输出始终与人类的价值观和偏好一致,尤其是在人与智能体交互的场景中,是这一过程的核心。这种迭代优化被称为AI对齐。

传统方法通常依赖于直接的用户评估,包括标量评分或比较判断,通过人类反馈强化学习(RLHF)和直接偏好优化(DPO)等方法来训练奖励模型。

然而,不断请求显式评分可能会造成干扰和负担,因此探索间接用户信号——例如用户行为或口头评估——以及用户反馈的文本摘要成为一种动机。

▲图2| 智能进化模块的架构和实现©️【深蓝AI】编译

03 方法精析

演化模块根据用户反馈(来自各种环境输入并统一成文本形式)来优化 FaGeL 系统所探索的任务,以更好地服务于用户在后续的互动中。

为了实现非侵入性用户反馈数据收集,可以通过各种形式的反馈(如用户行为或给出的口头评估)获得用户对当前机器交互行为的正面或负面意见,作为指导对齐的间接反馈。这种间接反馈更适合以文本形式总结,例如:“我真的很喜欢个性化的建议,比如调整房间温度、短暂小睡和切换到更轻松的锻炼——这些让我感觉更舒适、精力充沛。但是,睡前避免使用屏幕和使用心率监测应用感觉有点不切实际和侵入性。更灵活的方法对我来说会更好。”与标量或比较反馈相比,文本反馈可以包含更多指导信息,并预计能以更细致的方式进行 AI 对齐。

因此,本章将详细说明使用正面和负面文本反馈进行人机 AI 对齐的具体方法。

3.1. 问题定义

假设存在一个三元组描述、机器任务、人类反馈。描述指的是所有当前环境状态信息的总结,作为大型语言模型(LLM)的输入,表示为;机器任务指的是模型基于状态信息的输出,表示为;人类反馈指的是用户在当前描述下执行机器任务后提供的反馈的文本描述,表示为。这些分别是长度为 M、N 和 Q 的标记序列。人类反馈包含对输出优缺点的详细分析,这些分析可以是用户直接提供的,也可以是 LLM 基于当前状态分析生成的。我们的目标是利用 j 提供的信息来调整 y,以满足用户的期望,即实现“指令-响应”对之间的对齐,可以表示为。

3.2. 潜在的解决方法

为了利用语言反馈进行 AI 对齐,对比不可能训练(CUT)提供了一种有趣的方法。CUT 使用对比学习和微调,使 LLM 能够根据人类的负面判断修改其输出错误。

CUT 发现,在两种不同的输入条件下(有判断和无判断),在同一响应中生成概率变化显著的标记大多是错误的(与其他合适的标记相比)。因此,CUT 构建了三种类型的对齐数据:Align-P、Align-N 和 Misalign,形成两个不同的对比对:Align-N,Misalign 和 Align-P,Align-N,以识别不当标记。使用最大似然估计(MLE)处理正确内容,而不可能训练(UT)用于处理不当标记。

这三类数据中:Align-P 表示 LLM 生成的内容正确并获得正面反馈;Align-N 表示生成过程中出现错误,并且判断提供了错误的详细描述;Misalign 表示输出包含错误但反馈是正面的。这是人类反馈和 LLM 响应不匹配的一组数据。

关于这两个对比对,在 Align-N,Misalign对比中,在下一个标记预测期间

因此,可以使用以下标准检测不当标记:

随后,使用动态加权机制调整错误标记的权重,并构建以下损失函数:

其中 α 和 γ 是用于控制动态加权项的超参数,根据错误程度惩罚标记。在 Align-P,Align-N对比中,使用以下 MLE 损失函数:

其中 ⊮ 是一个指示函数,如果对齐条件满足则返回 1。最后,总损失为:

3.3. 基于DualCUT的AI对齐

CUT 算法主要根据对输出中标记的判断定位错误标记,并通过损失函数抑制它们的生成概率,以实现对齐。然而,人机交互中的反馈并不总是负面的。正面反馈不仅有助于更高精度地定位错误标记,还可以用于定位输出中的令人满意的标记序列。通过使用动态加权,我们可以提高令人满意标记的生成概率。在实验部分 V-B 中,可以直观地观察到正面和负面反馈在定位正负标记方面的影响。

因此,考虑到正面和负面反馈,作者提出了 DualCUT 算法,以修正正确和错误标记的生成概率,实现 AI 对齐。

具体而言,当 LLM 进行下一个标记预测时,对于那些错误标记,

同时成立。与 CUT 相比,第二个比较项的存在使得进一步过滤成为可能。此外,一些来自低概率标记的假阳性,这些可以进一步过滤掉。因此,可以使用以下标准来检测不正确的标记:

其中 λ1 和 λ2 是用于衡量错误标记精度的超参数,σ1 是一个接近 0 的小值,用于排除非常低概率标记的影响。类似地,使用以下标准来识别正确的标记:

随后,使用 sigmoid 函数构建动态权重项,以使模型的调节强度与标记识别的重要性高度相关:

上述公式中的 “+1” 项确保奖励强度超过不属于 U+ 或 U− 的其他标记。α 和 β 是超参数。因此,总代价是:

04 实验设置

4.1. FaGeL的硬件设计

本文的硬件测试环境遵循 Wearable 2.0中描述的设置,构建了一个基于织物的可穿戴设备,以收集用户行为和各种生理指标。FaGeL 系统能够实时收集生理数据,如心率、血压和血氧饱和度。FaGeL 系统中的感知模块实时分析这些数据,并通过自然语言生成器生成易于理解的健康状态描述,帮助用户及时了解自己的健康状况。

4.2. 数据集收集

为了进一步验证系统的任务挖掘能力,作者构建了一个任务挖掘数据集,以满足用户的个性化偏好需求。

▲图3| t-SNE可视化©️【深蓝AI】编译

如图 3 所示,展示了由多智能体工作流在 120 个不同场景中输出的 1000 个任务样本,并使用 t-SNE(t-分布随机邻域嵌入)算法对其进行可视化。t-SNE 是一种用于高维数据可视化的降维算法,适合在二维或三维空间中表示高维数据,使得数据的分布和结构能够直观观察。可以观察到,不同生活环境中的任务表现出聚类特征,提取的语义信息显示出相似性。

4.3. FaGeL的用户偏好对齐

为了确保任务挖掘结果与用户的具体偏好对齐,通过收集用户评分反馈,并根据这些评分结果构建偏好对。然后应用 DPO 算法对 Llama3-8b-instruct 模型进行微调。这个过程确保 FaGeL 系统输出的任务挖掘结果与用户在调查中展示的实际偏好一致,从而增强任务挖掘结果的个性化和实用性。

4.4. FaGeL在开源平台Overcooked-AI的测试

为了定量验证 FaGeL 在智能革命算法中的能力,作者使用 Overcooked-AI作为额外的测试平台,这是一个虚拟人机协作环境。

Overcooked-AI 是一个完全合作的人机任务性能基准环境,基于 Overcooked 游戏。游戏的目标是尽可能快速地交付汤品。每种汤需要在锅中放入最多三种配料,等待汤煮熟,然后由智能体取出汤并送达。智能体必须随时分配任务并有效协调,以获得高分。在这个环境中,两名智能体通过协调放置配料、烹饪和交付汤品进行合作,强调动态任务分配和有效协作。

Overcooked-AI 的设置:本研究主要关注智能体是否能够在游戏过程中通过观察环境和用户反馈自主生成和调整任务生成策略。在本研究中,玩家 1 由演化算法控制,而 AI 伙伴则作为玩家 2。在游戏过程中,智能体与 AI 伙伴协作,并根据对当前状态的评估,反思在前一个时间片中是否存在推理错误。这种反思生成分析注释,然后使用 DualCUT 算法进行优化,以实现整个游戏过程中的智能演化。在本研究中,选择 ProAgent作为基线模型。ProAgent 模型是利用大型语言模型的零-shot 协作智能体的领先示例,在 Overcooked-AI 平台上取得了最先进的结果。作者使用 llama3-8b-Instruct模型作为基础 LLM。实验选择了“拥挤房间”布局,如图 2(d) 所示,该紧凑的房间布局增加了碰撞的可能性。在一个 400 步的游戏中,智能体及其 AI 伙伴根据食谱协作将配料放入锅中,等待配料烹饪,然后使用盘子上菜以获得 20 分。

互动与反思:与 ProAgent 相比,FaGeL-evolution 算法引入了三个额外组件:反射器、注释器和对齐操作符,如图 2(b) 所示。智能体的推理过程被放置在长度为 N 的队列中,并记录在状态池中。通过将先前状态与当前状态进行比较,两个连续状态之间的差异揭示了是否存在推理错误。注释器用于提供对错误推理过程的注释。

▲图4| 智能体性能随时间演变的情况©️【深蓝AI】编译

▲图5| 评分表现©️【深蓝AI】编译

05 FAGEL的性能演化

5.1. 在Overcooked-AI平台的性能演化

本节展示了在开源平台 Overcooked-AI 上应用 FaGeL-evolution 算法的定性和定量分析结果。作者使用 OvercookedAI 平台提供的贪婪算法作为 AI 伙伴。通过观察和反思,智能体每 1000 个时间步使用第3节中描述的 DualCUT 算法演化其策略,模型通过 DualCUT 更新一次。图4展示了智能体性能随时间演变的情况,以完成每个任务所需的平均时间步数进行测量。随着观察时间的增加,智能体逐渐减少平均完成时间,表明与 AI 伙伴的协调效率得到了改善。这一趋势突显出增加观察有助于更好的决策能力,从而提升了协作任务的整体表现。该图还将 FaGeL-evolution 算法与其他基线方法进行了比较,清晰地显示出其在减少完成时间方面的有效性。

图 5 展示了智能体在单个回合中的实时评分表现,突出显示了 ProAgent 基线与 FaGeL-evolution 变体之间的差异。图中显示,经过多轮演化的 FaGeL-evolution 模型在积累分数方面表现更好,展现了更强的学习能力和适应性。插图放大了接近最高分区域的表现,额外演化轮次的优势变得更加明显。这个结果进一步确认了持续演化在实现更高协作效率和更快学习速率方面的好处。

▲图6| Token-level saliency map示例©️【深蓝AI】编译

5.2. Token-Level Saliency Maps within the FaGeL-evo Algorithm

如图 6(a) 所示,将指令以及正面和负面反馈作为输入。然后,DualCUT 将生成一个显著性图,图 6(b) 进行了可视化。标记级显著性图突显了 DualCUT 的一个关键优势:能够通过直接操作基于正面和负面反馈的标记选择过程来微调模型输出。这与传统的响应级监督学习形成对比,后者通常在较粗粒度上进行操作,通过调整模型在响应级别的输出,往往不考虑特定标记对整体预测的个别贡献。通过结合正面和负面判断的语义信息,DualCUT 提高了模型将输出与用户偏好对齐的能力,以更有针对性的方式进行调整。

标记级控制增强了反馈的精确性,并通过直接调整标记概率实现动态学习。相比之下,专注于成对数据的响应级监督忽视了微妙的标记级贡献,因此提供了较弱的 AI 对齐。如图 7 所示,DualCUT 在标记级别利用正面和负面反馈,优于传统的响应级方法。

FaGeL将正面和负面反馈整合到一个统一框架中,使 DualCUT 实现精确对齐。标记级显著性图显示,DualCUT 增强了输出控制,为 AI 对齐提供了更准确和个性化的响应,从而提升了性能。

▲图7| DualCUT对比结果©️【深蓝AI】编译

5.3. FaGeL示例研究

为了展示 FaGeL 在自主协作和具身智能演化中的功能,作者提供了一个关于睡眠障碍的案例研究,如表1所示。

▲表1| FaGeL案例研究©️【深蓝AI】编译

在这个场景中,用户经历了不安和睡眠质量差。FaGeL 系统通过集成织物的可穿戴设备收集生理和环境数据,包括心率、血压、血氧、体温和睡姿。利用这些数据,系统生成了用户睡眠状态和环境的自然语言描述,例如,仅有6小时的碎片化睡眠、心率在70到 95 bpm 之间波动,以及室温略高于最佳范围。

基于描述和用户历史,FaGeL 的任务挖掘模块生成了针对性的任务,如调整室温、建议小憩和修改锻炼计划。在执行这些任务后,用户提供了反馈,对某些建议表示满意,对其他建议表示不满。系统利用这些反馈更新任务挖掘模型,生成更符合用户偏好的新任务,例如建议使用蓝光过滤器和放松内容,而不是完全避免屏幕。

这个案例研究展示了 FaGeL 如何通过其感知、推理、交互和演化模块动态对齐和演化以满足用户需求。通过持续适应用户反馈,FaGeL 提供了更个性化和有效的建议,提升了用户的生活质量。

06 总结展望

在本文中介绍了 FaGeL,这是一个由大型语言模型(LLMs)和智能织物技术赋能的具身智能体,它能够实现非侵入式的人机互动和自主任务生成。通过利用来自可穿戴设备和环境源的多模态传感器数据,FaGeL 通过间接的人类反馈不断演化其价值系统,增强其与人类需求和意图的对齐能力。此外,作者还引入了一种标记级显著性图,能够可视化 LLM 微调的内部机制,提高智能体决策过程的透明度和可解释性。通过整合 DualCUT 算法,进一步通过精炼标记级反馈来提升智能体的性能,从而促进更有效的任务学习和决策。

在 Overcooked-AI 平台等协作环境中的实验结果展示了 FaGeL 的自主任务生成和演化能力的实际有效性。该方法表明,减少对显式反馈的依赖同时仍能显著提升智能体性能是可能的。这为开发能够在现实环境中与人类长期共存和协作的自主具身智能体提供了有希望的启示。

展望未来,进一步的工作可以探索 FaGeL 框架在更加复杂和动态环境中的可扩展性,以及与其他 AI 系统的整合潜力。由先进反馈机制和持续学习驱动的具身智能演化,将成为实现能够无缝适应多样化人类需求和上下文的通用人工智能(AGI)驱动智能体的关键因素。

相关文章:

  • export default与export区别
  • Hutool - Cache:简单而强大的缓存实现
  • 书籍推荐:《书法课》林曦
  • Jmeter+Jenkins接口压力测试持续集成
  • 【旋转框目标检测】基于YOLO11/v8深度学习的遥感视角船只智能检测系统设计与实现【python源码+Pyqt5界面+数据集+训练代码】
  • Ubuntu介绍、与centos的区别、基于VMware安装Ubuntu Server 22.04、配置远程连接、安装jdk+Tomcat
  • CMake 判断 Mac编译环境是Intel的还是Arm的?
  • 初识camel智能体(一)
  • 【java面向对象的三大特性】封装、继承和多态
  • 【使用大模型prompt辅助PPT制作】
  • 【2025深度学习系列专栏大纲:深入探索与实践深度学习】
  • LM Studio无设置代理,更改镜像源方法(MAC)
  • unity学习35:用射线ray检测,实现点哪儿
  • 为什么我用Python控制仪器比C#慢很多?如何优化性能?
  • web第二次作业
  • 网络初识-
  • 高效训练,深度学习GPU服务器搭建
  • Datawhale Ollama教程笔记2
  • 《图解设计模式》笔记(十)用类来表现
  • 【HDFS】addInternalPBProtocol、setProtocolEngine和registerProtocolAndImpl
  • 老人刷老年卡乘车被要求站着?公交公司致歉:涉事司机停职
  • 网友建议平顶山请刘昊然任旅游宣传大使,市委:有此设想,正申请经费
  • 共生与伴生:关于人工智能时代艺术评论的对象与主体的思考
  • 特朗普要征电影关税惊扰全球电影业,“让好莱坞再次伟大”或现反效果
  • “五一”假期国内出游3.14亿人次,同比增长6.4%
  • 长三角铁路今日预计发送386万人次,沪宁、沪杭等方向尚有余票