当前位置：首页 > wzjs >正文

宽屏企业网站源码百度推广官网电话

wzjs 2025/8/22 0:52:23

宽屏企业网站源码,百度推广官网电话,济南房地产新闻,外贸牛摘要：由大型语言模型（LLMs）赋能的实体智能体在家庭物品重新排列任务中表现出了强大的性能。然而，这些任务主要集中在具有简化指令的单次交互上，这并不能真正反映为用户提供有意义帮助的挑战。为了提供个性化的帮助&a…

摘要：由大型语言模型（LLMs）赋能的实体智能体在家庭物品重新排列任务中表现出了强大的性能。然而，这些任务主要集中在具有简化指令的单次交互上，这并不能真正反映为用户提供有意义帮助的挑战。为了提供个性化的帮助，具身代理必须利用先前的交互历史来解释动态的、真实的指令，从而理解用户赋予物理世界的独特语义（例如，最喜欢的杯子、早餐惯例）。然而，具身智能体在利用记忆进行个性化辅助方面的有效性在很大程度上仍未得到充分探索。为了解决这一差距，我们提出了 MEMENTO，这是一个个性化的体现代理评估框架，旨在全面评估记忆利用能力，以提供个性化帮助。我们的框架包括一个两阶段的内存评估过程设计，该设计可以量化内存利用率对任务性能的影响。这一过程通过关注其在目标解释中的作用，能够评估代理在对象重新排列任务中对个性化知识的理解：（1）基于个人意义（对象语义）识别目标对象的能力，以及（2）从一致的用户模式（如例程（用户模式））中推断对象位置配置的能力。我们在各种 LLM 上的实验揭示了内存利用方面的重大局限性，即使是像 GPT-4o 这样的前沿模型，在需要引用多个内存时，性能也会下降 30.5%，特别是在涉及用户模式的任务中。这些发现，连同我们的详细分析和案例研究，为未来研究开发更有效的个性化体现代理提供了有价值的见解。项目网站：Github。Huggingface链接：Paper page，论文链接：2505.16348。

研究背景和目的

研究背景

随着大型语言模型（LLMs）在自然语言处理领域的快速发展，它们在各种任务中展现出了惊人的能力，包括文本生成、问答系统、翻译等。然而，当这些模型被应用于需要个性化辅助的场景时，如家庭环境中的物体重新排列任务，其表现往往不尽如人意。传统的具身智能体（Embodied Agents）在执行这些任务时，主要依赖于单轮交互和简化的指令，无法真正反映为用户提供有意义辅助的挑战。特别是在需要理解用户对物理世界的独特语义（如“我最喜欢的杯子”、“早餐习惯”）时，传统的具身智能体显得力不从心。

个性化辅助要求具身智能体能够利用先前的交互历史来解释动态、现实世界的指令，这涉及到对用户个性化知识的理解和记忆。然而，目前关于具身智能体如何有效利用记忆来提供个性化辅助的研究还非常有限。为了填补这一空白，本研究旨在探索具身智能体在个性化辅助任务中的记忆利用能力。

研究目的

本研究的主要目的是提出一个评估框架，用于全面评估具身智能体在利用记忆提供个性化辅助方面的能力。具体而言，我们希望解决以下问题：

如何量化记忆利用对任务性能的影响？
具身智能体在理解个性化知识方面存在哪些局限性？
如何设计有效的评估方法来揭示这些局限性？

为了实现这些目标，我们提出了MEMENTO框架，一个专门用于评估具身智能体记忆利用能力的个性化评估框架。通过该框架，我们旨在：

评估具身智能体在利用记忆进行目标解释方面的能力，包括基于个人意义的对象识别（对象语义）和从一致用户模式中推断对象-位置配置（用户模式）。
揭示当前LLMs驱动的具身智能体在利用个性化知识方面的关键局限性。
为未来个性化具身智能体的研究提供有价值的见解和指导。

研究方法

1. MEMENTO框架设计

MEMENTO框架将记忆评估过程分为两个阶段：记忆获取阶段和记忆利用阶段。

记忆获取阶段：智能体在执行包含个性化知识的常规物体重新排列任务指令时，积累交互历史（即情景记忆）。此阶段的目的是提供一个参考性能基准。
记忆利用阶段：智能体执行与记忆获取阶段相同的任务，但指令被修改，要求智能体回忆并应用先前获取的个性化知识才能成功完成任务。此阶段的目的是通过比较两个阶段的性能下降来评估智能体利用记忆的能力。

2. 个性化知识分类

为了分析具身智能体在目标解释中对个性化知识的理解能力，我们将个性化知识分为两类：

对象语义：用户赋予单个对象的个人意义，包括所有权（如“我的杯子”）、偏好（如“我最喜欢的跑步装备”）、过去历史（如“我奶奶送的毕业礼物”）或分组引用（如“我童年的玩具收藏”）。
用户模式：用户一致执行的动作序列，包括个人习惯（如“我的远程工作设置”）和排列偏好（如“我舒适的晚餐氛围”）。

3. 数据集构建

我们使用Habitat 3.0模拟器和Spot机器人作为智能体，构建了一个包含438个场景的数据集，这些场景分布在记忆获取阶段和记忆利用阶段的单记忆任务和联合记忆任务中。数据集的构建过程包括四个步骤：

物体重新排列任务收集：使用PartNR测试集作为基础任务数据。
场景增强干扰物：在目标对象附近放置同类型的干扰物对象。
任务指令生成：使用GPT-4o生成包含个性化知识的任务指令。
质量控制：通过启发式过滤和人工审查确保数据质量。

4. 实验设置与评估指标

评估指标：使用完成百分比（PC）和成功率（SR）作为主要评估指标，同时报告模拟步骤数（Sim Steps）和规划周期数（Planning Cycles）。
实现细节：使用ReAct提示格式和嵌入检索方法实现LLMs驱动的具身智能体架构。
模型选择：评估了包括GPT-4o、Claude-3.5-Sonnet等专有模型和Llama-3.1-70b/8b、Qwen-2.5-72b/7b等开源模型在内的多种LLMs。

研究结果

1. 记忆利用对任务性能的影响

实验结果表明，所有模型在记忆利用阶段都表现出显著的性能下降。特别是在联合记忆任务中，即使是最先进的模型如GPT-4o也出现了高达30.5%的成功率下降。这表明，当前的LLMs驱动的具身智能体在有效利用记忆进行个性化辅助方面存在显著挑战。

2. 个性化知识理解能力的局限性

对象语义 vs 用户模式：模型在涉及对象语义的任务中表现相对较好，但在涉及用户模式的任务中表现较差。这表明，模型在理解和应用用户一致执行的动作序列方面存在更大的困难。
记忆质量的影响：通过比较黄金记忆（成功且最短的轨迹）和检索记忆的性能，我们发现记忆质量对模型性能有显著影响。特别是对于较小容量的模型，检索记忆中的语义噪声导致性能显著下降。

3. 错误案例分析

通过对成功和失败案例的详细分析，我们发现模型在利用记忆进行个性化辅助时存在以下常见错误：

错过个性化线索：模型未能识别用户特定的引用，将其视为一般或专有名词。
使用常识知识而非个性化知识：即使有相关的情景记忆可用，模型也倾向于依赖一般的常识知识来推断用户习惯。
幻觉和记忆回忆失败：模型在需要时无法从记忆中定位相关信息，或者捏造不存在的属性。

研究局限

尽管本研究在评估具身智能体记忆利用能力方面取得了显著进展，但仍存在以下局限性：

受控模拟器环境：实验完全在受控模拟器环境中进行，无法完全反映现实世界机器人技术的复杂性，如感知噪声、执行不确定性或非结构化环境。
视觉感知未涉及：框架故意隔离了以记忆为中心的规划，排除了视觉感知组件，这限制了系统在完全接地感知场景中的泛化能力。
预定义技能库：我们故意使用了预定义的低级技能库来隔离和专注于基于LLM的智能体的高级规划和记忆推理能力。因此，框架没有评估具身智能体的完整任务执行过程。

未来研究方向

基于本研究的结果和局限性，我们提出以下未来研究方向：

扩展到现实世界环境：将评估框架扩展到现实世界环境中，以验证其在更复杂场景下的有效性和鲁棒性。
集成视觉感知：将视觉感知组件集成到评估框架中，以评估具身智能体在完全接地感知场景中的记忆利用能力。
改进记忆系统：探索更有效的记忆系统设计，以提高记忆质量和检索效率，从而提升具身智能体在个性化辅助任务中的性能。
处理模糊指令：研究如何使具身智能体能够处理模糊或间接引用个性化知识的指令，以更好地反映现实世界中的人机交互复杂性。
隐私和安全性考虑：随着个性化辅助系统的广泛应用，隐私和安全性将成为重要问题。未来的研究应关注如何设计安全、透明的记忆处理机制，以保护用户隐私和数据安全。

总之，本研究提出了MEMENTO框架，用于全面评估具身智能体在利用记忆提供个性化辅助方面的能力。通过广泛的实验和分析，我们揭示了当前LLMs驱动的具身智能体在记忆利用方面的关键局限性，并为未来研究提供了有价值的见解和指导。

查看全文

http://www.dtcms.com/wzjs/436107.html