当前位置: 首页 > news >正文

Agent AI(1):多模态交互智能中的背景和动机

原文参考:https://arxiv.org/abs/2401.03568
fig1

  • 图1:可在不同领域和应用中进行感知与行动的智能体AI系统概述。智能体AI正成为通往通用人工智能(AGI)的有前景途径。智能体AI训练已展示出在物理世界中进行多模态理解的能力。它通过将生成式AI与多个独立数据源相结合,提供了一个与现实无关的训练框架。针对智能体和动作相关任务训练的大型基础模型,在跨现实数据上训练后,可应用于物理世界和虚拟世界。

多模态人工智能系统很可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一个有前途的方法是将它们体现为物理和虚拟环境中的智能体。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入此类环境中,有助于模型处理和解释视觉及上下文数据,这对于创建更复杂且具有上下文感知能力的人工智能系统至关重要。例如,一个能够感知用户动作、人类行为、环境物体、音频表达以及场景整体情感的系统,可用于在给定环境中指导和引导智能体的响应。为了加速基于智能体的多模态智能研究,我们将“智能体人工智能”定义为一类交互式系统,它能够感知视觉刺激、语言输入和其他基于环境的数据,并能产生有意义的具身动作。特别是,我们探索了旨在通过结合外部知识、多感官输入和人类反馈,基于下一具身动作预测来改进智能体的系统。我们认为,通过在接地环境中开发智能体人工智能系统,还可以减轻大型基础模型的幻觉及其生成环境不正确输出的倾向。新兴的智能体人工智能领域包含了多模态交互的更广泛具身和智能体方面。除了在物理世界中行动和交互的智能体外,我们还设想了一个未来,人们可以轻松创建任何虚拟现实或模拟场景,并与嵌入虚拟环境中的智能体进行交互。

目录

  • 动机
  • 背景
  • 概述

动机

随着强大的预训练大型语言模型(LLM)和视觉语言模型(VLM)的出现,自然语言处理和计算机视觉领域已迎来复兴。大型语言模型如今展现出解读现实世界语言数据细微差别的惊人能力,其表现往往可与人类专业水平相当,甚至超越人类。最近,研究人员已证实,大型语言模型可扩展为在各种环境中充当智能体,当与领域特定知识和模块结合时,能够执行复杂的动作和任务。这些场景以复杂推理、对智能体角色及其环境的理解,以及多步规划为特征,考验着智能体在环境约束下做出高度细致且复杂决策的能力。

在这些初步努力的基础上,AI正处于重大范式转变的临界点,从创建用于被动、结构化任务的人工智能模型,转向能够在多样化复杂环境中承担动态、代理角色的模型。在此背景下,Fei Fei Li 团队探讨了将大型语言模型(LLM)和视觉语言模型(VLM)用作智能体的巨大潜力,重点关注融合语言能力、视觉认知、情境记忆、直觉推理和适应性的模型。将LLM和VLM用作智能体,尤其是在游戏、机器人和医疗等领域,不仅为最先进的人工智能系统提供了严格的评估平台,还预示着以智能体为中心的人工智能将对社会和行业产生变革性影响。当这些代理模型被充分利用时,它们可以重新定义人类体验并提升操作标准。这些模型所带来的大规模自动化潜力,预示着行业和社会经济动态将发生巨大转变。

背景

大型基础模型:大型语言模型(LLMs)和视觉语言模型(VLMs)一直在推动通用智能机器的研发工作。尽管它们是通过大型文本语料库进行训练的,但其卓越的问题解决能力并不局限于典型的语言处理领域。大型语言模型有潜力处理那些此前被认为只有人类专家或特定领域算法才能完成的复杂任务,涵盖从数学推理到解答专业法律问题等多个方面。近期研究表明,大型语言模型可用于为机器人和游戏人工智能生成复杂计划,这标志着大型语言模型作为通用智能体迈出了重要的里程碑。

具身人工智能(Embodied AI):多项研究利用大型语言模型(LLMs)进行任务规划,具体而言,是借助大型语言模型覆盖万维网(WWW)规模的领域知识以及新兴的零样本具身能力来执行复杂的任务规划与推理。近期的机器人研究也通过将自然语言指令分解为一系列子任务(形式可为自然语言或Python代码),再利用低级控制器执行这些子任务的方式,利用大型语言模型进行任务规划。此外,研究中还融入了环境反馈以提升任务性能。

交互式学习:专为交互式学习设计的人工智能Agent通过结合机器学习技术与用户交互来运作。起初,人工智能Agent会在大型数据集上接受训练。根据Agent的预期功能,该数据集包含多种类型的信息。例如,为语言任务设计的人工智能会在海量文本语料库上进行训练。训练过程涉及使用机器学习算法,其中可能包括神经网络等深度学习模型。这些训练模型使人工智能能够基于其训练数据识别模式、做出预测并生成响应。人工智能Agent还能从与用户的实时交互中学习。这种交互式学习可通过多种方式实现:

    1. 基于反馈的学习:人工智能会根据用户的直接反馈调整其响应。例如,如果用户纠正了人工智能的响应,人工智能可以利用这一信息改进未来的响应。
    1. 观察性学习:人工智能会观察用户的交互情况并进行隐性学习。例如,如果用户频繁提出类似的问题或以特定方式与人工智能交互,人工智能可能会调整其响应以更好地适应这些模式。这使人工智能代理能够理解和处理人类语言、多模态设置、解读跨现实情境,并生成面向人类用户的响应。

随着时间的推移,随着用户交互和反馈的增多,人工智能agent的性能通常会持续提升。这一过程通常由人类操作员或开发人员进行监督,以确保人工智能以适当的方式学习,且不会形成偏见或错误模式。

概述

多模态智能体人工智能(MAA)是一类能够基于对多模态感官输入的理解,在特定环境中生成有效行动的系统。随着大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,从基础研究到实际应用领域,已经提出了众多多模态智能体人工智能系统。具体的成果包括:

  • 多模态智能体人工智能(MAA)概述:深入探究其原理及在当代应用中的作用,让研究人员全面掌握其重要性和用途。
  • 方法论:通过游戏、机器人技术和医疗健康领域的案例研究,详细举例说明大型语言模型(LLMs)和视觉语言模型(VLMs)如何增强多模态智能体人工智能(MAAs)。
  • 性能评估:提供使用相关数据集对多模态智能体人工智能(MAA)进行评估的指导,重点关注其有效性和泛化能力。

基于计算机的action与通用智能体(GAs)在诸多任务中都十分有用。一个通用智能体要真正对用户产生价值,就必须能实现自然交互,并能在广泛的场景和模态中进行泛化。

多模态智能体人工智能(MAA)有望在包括人类输入在内的多种场景和模态中得到广泛应用。因此,我们相信这一AI Agent领域能够吸引各类研究者参与,从而培育出一个充满活力的智能体人工智能社群,并凝聚共同的目标。

http://www.dtcms.com/a/271536.html

相关文章:

  • 2025快手创作者中心发布视频python实现
  • 各类电子设备镜像格式及文件系统统计
  • ETF期权交割日全攻略
  • Linux的 `test`命令(或等价中括号写法 `[空格expression空格]`)的用法详解. 笔记250709
  • 遍历map(LinkedHashMap)
  • 52 spi接口两笔读写耗时多大的问题
  • AP中的Execution Manager“非报告进程”和“伴随进程”概念解析
  • n8n文本语意识别与问题自动补充工作流的深化及企业级部署
  • 代码随想录Day15:二叉树(平衡二叉树、二叉树的所有路径、左叶子之和、完全二叉树的节点个数——全递归版本)
  • 记忆管理框架MemOS——在时序推理上较OpenAI提升159%
  • python+vue的企业产品订单管理系统
  • pytorch常用API
  • [特殊字符] 突破小样本瓶颈:DataDream——用Stable Diffusion生成高质量分类数据集
  • 认证鉴权技术解析:COOKIE | SESSION | TOKEN | JWT | SSO
  • `fatal: bad config value for ‘color.ui‘`错误解决方案
  • 前端UI逻辑复杂可以用什么设计模式
  • 卫星通信终端天线的5种对星模式之二:功率检测型载波跟踪
  • 在Excel用公式计算周次
  • NumPy-梯度与导数计算详解
  • 用一个代码案例详解介绍vmalloc函数的功能和作用
  • 权限分级看板管理:实时数据驱动决策的关键安全基石
  • 奇异值分解(singular value decomposition,SVD)
  • 笔试——Day2
  • 单细胞入门(2)-经典案例分析
  • EPLAN 电气制图(六):结构盒与设备管理器核心概念(基础知识选看)
  • 脑电分析入门指南:信号处理、特征提取与机器学习
  • python 在运行时没有加载修改后的版本
  • windows server2019安全修复
  • 数据结构——深度优先搜索与广度优先搜索的实现
  • STM32-待机唤醒实验