当前位置: 首页 > news >正文

论文略读:Large Language Models Assume People are More Rational than We Really are

ICLR 2025 5668

为了让 AI 系统能够有效地与人类沟通,它们必须理解人类是如何做决策的。然而,人类的决策并不总是理性的,因此大型语言模型(LLMs)中对人类决策过程的内隐建模必须能够捕捉这种非理性行为。

以往的一些实证研究似乎表明,LLMs 对人类行为的建模是准确的——它们在日常交互中表现得像我们预期中的人类。然而,本文通过将多种先进 LLM(如 GPT-4o、GPT-4 Turbo、LLaMA-3 8B 和 70B、Claude 3 Opus)在模拟和预测人类选择行为时的输出与一个大规模人类决策数据集进行系统比较,发现事实并非如此:

这些模型普遍高估了人类的理性程度,它们更倾向于依据经典的**期望值理论(expected value theory)**来预测行为,而不是符合真实人类的决策模式。

有趣的是,人类自己在解释他人行为时,也倾向于假设他人是理性的。因此,当进一步对比 LLM 与人类在另一个心理学数据集上对“他人决策”的推理结果时,研究发现两者的推理高度相关。

综上,LLM 所学习到的内隐决策模型,更接近于“人们如何期望别人决策”(理性),而非“人们实际是如何决策的”(非理性)。这一发现揭示了 LLM 与人类心理预期之间的微妙对齐,同时也暴露了它们在理解真实人类行为上的系统性偏差。


文章转载自:

http://4jpPb3xu.pLpth.cn
http://P6hYu9MP.pLpth.cn
http://ZcTPikef.pLpth.cn
http://g9EBdlb5.pLpth.cn
http://wwVw3Pno.pLpth.cn
http://SqxqYeOy.pLpth.cn
http://dF85QRoR.pLpth.cn
http://2iw7pYTS.pLpth.cn
http://LxsFclRA.pLpth.cn
http://n8Q5m3XF.pLpth.cn
http://OgP7gocR.pLpth.cn
http://d81XPOaS.pLpth.cn
http://leuZiFQ8.pLpth.cn
http://UnPiRhlA.pLpth.cn
http://TEijk6LX.pLpth.cn
http://m1bjS4kD.pLpth.cn
http://45g2pb1X.pLpth.cn
http://mXQePebY.pLpth.cn
http://PCWoDcfK.pLpth.cn
http://Tz8JHIia.pLpth.cn
http://BfJn8wbJ.pLpth.cn
http://IJhxmrNH.pLpth.cn
http://SRYiCtih.pLpth.cn
http://yFBkd8OU.pLpth.cn
http://qg4EmvQZ.pLpth.cn
http://2rH8SyfT.pLpth.cn
http://utUGc90C.pLpth.cn
http://hCK3YGO1.pLpth.cn
http://FhCq1Yp2.pLpth.cn
http://KKdhUBdo.pLpth.cn
http://www.dtcms.com/a/246548.html

相关文章:

  • Unity-通过Transform类学习迭代器模式
  • 给Markdown渲染网页增加一个目录组件(Vite+Vditor+Handlebars)(上)
  • Java面试题020:一文深入了解微服务之负载均衡Feign
  • 多通道信号采集分析系统 - 01 功能分解与采样子系统
  • 《TCP/IP协议卷1》TCP协议TCP连接建立和释放
  • 一[2]、ubuntu18.04环境 yolov8 + realsenseD435i 实时效果测试
  • docker compose搭建elk 8.6.2
  • 爱普特APT-LINK PROG带电烧录器!STM32/SPI Flash高性能在线编程器详细解析
  • element 跨页选中,回显el-table选中数据
  • DEVICENET转MODBUS TCP网关连接ABB机器人配置案例
  • Vue 生命周期
  • 使用argocd部署nginx
  • 大厂Java技术面试实录:从基础到架构,谢飞机的面试之旅
  • 测试:AWS SDK for JavaScript v2 迁移到 v3
  • 【开发常用命令】:服务器与本地之间的数据传输
  • 新疆大学具身导航新范式!DOPE:基于双重对象感知增强网络的视觉语言导航
  • Python打卡第52天
  • 破解关键领域软件测试“三重难题”:安全、复杂性、保密性
  • 第三章支线七 ·路由边境 · 多页世界的穿梭之术
  • 考研复试C语言基础
  • 常见的UDS服务标识符与UDS刷写流程
  • 指针01 day13
  • mapstruct中的@Mapper注解详解
  • Linux检验库是否安装成功
  • 【Linux手册】从「程序」到「进程」:计算机世界的运行机制
  • vue中的doSave()方法
  • sherpa-onnx开源语音处理框架研究报告:从技术解析到应用实践
  • 134. Gas Station
  • 泛微OAe9-自定义资源看板
  • HALCON第一讲->数据结构、语法规则与思路