当前位置: 首页 > news >正文

狼人杀中的智能策略:解析AI如何理解复杂社交游戏

  想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

想快速掌握自动编程技术吗?叶老师专业培训来啦!这里用Cline把自然语言变代码,再靠DeepSeek生成逻辑严谨、注释清晰的优质代码。叶梓老师视频号上直播分享《用deepseek实现自动编程》限时回放。

视频号(直播分享):sphuYAMr0pGTk27  抖音号:44185842659

在社交推理游戏中,AI的表现逐渐接近人类水平。《Multi-agent KTO: Reinforcing Strategic Interactions of Large Language Model in Language Game》这篇文章通过狼人杀游戏的实验,展示了新的AI方法如何在复杂社交环境中实现高效决策。

理解语言游戏理论

论文受到维特根斯坦语言游戏理论启发,强调语言与行动的统一性。传统方法将决策与语言生成分离,而本文提出的方法让模型通过实际互动学习,更贴近真实社交场景。图1展示了不同语言决策框架的对比,说明了新方法如何将语言、意图和行动整合在一个多智能体环境中。

多智能体KTO方法

研究者提出的“多智能体Kahneman & Tversky优化”(MaKTO)方法,解决了狼人杀中的两个主要挑战:个体行动对游戏结果的微妙影响,以及专家标注数据中决策质量的差异。MaKTO的三大创新点:

  1. 采用KTO算法,无需在线强化学习的复杂训练,也无需成对偏好数据。

  2. 多样化模型池代替自对弈,防止策略固化,提升模型泛化能力。

  3. 分步偏好选择,通过三种方法优化策略。

图2展示了训练过程,包括行为克隆和多智能体KTO训练。模型通过与多种模型互动,学习到更全面的游戏策略。

实验与评估

在9人狼人杀游戏中,MaKTO模型与其他强大基线(如GPT-4o和Claude-3.5)进行了对比评估。表格1显示,MaKTO在与其他模型的对抗中取得了61%的平均胜率,显著优于GPT-4o和两阶段RL智能体。

在人类对抗评估中,MaKTO与14名经验丰富的玩家进行了比赛,平均胜率达到60%,显示出与高水平人类玩家相当的竞技能力。图5展示了在随机比赛中的玩家胜率,MaKTO模型在所有玩家中排名第四,超过了人类玩家的平均胜率。

图6展示了Turing风格的可检测性测试结果。人类玩家试图区分AI和人类玩家时,MaKTO的识别准确率仅为48.9%,低于随机概率,表明其对话风格与人类极为相似,成功通过了这一特殊Turing测试。

跨游戏泛化能力

研究还测试了MaKTO在引入新角色“猎人”的游戏配置中的表现。尽管MaKTO未在包含猎人的游戏设置中训练,但它在新游戏配置中的表现仍优于仅在原始设置上训练的模型。表格6显示,在9人先知-女巫-猎人游戏中,MaKTO取得了更高的平均胜率,证明了其泛化能力。

通过对比MaKTO与基线模型在比赛中的行为,研究发现MaKTO在投票准确性、弃权率等关键指标上均优于基线模型。表格3和表格4分别展示了MaKTO作为村民和狼人时的性能提升,表明其在身份识别和策略运用上更为精准。

https://arxiv.org/pdf/2501.14225

https://reneeye.github.io/MaKTO.html

https://huggingface.co/datasets/ReneeYe/werewolf_game_reasoning

相关文章:

  • 代码随想录算法训练营 Day35 动态规划Ⅲ 0-1背包问题
  • docker学习笔记6-安装wordpress
  • 海外社交App用户留存秘籍:构建高粘性社区的算法与运营实战
  • 是否想要一个桌面哆啦A梦的宠物
  • ptpx常用操作
  • Windows系统下,导入运行 RuoYi-Vue3 项目
  • 解决ktransformers v0.3 docker镜像中 operator torchvision::nms does not exist 问题
  • mongoose插入文档,字段类型, 字段验证, 删除文档,更新文档,读取文档,查询文档的条件控制 ,字段筛选,数据排序,数据截取
  • C语言教程(二十四):C 语言中递归的详解
  • Alibaba第四版JDK源码学习笔记2025首次开源
  • C++搞定周岁.虚岁计算
  • 一页概览:统一数据保护方案
  • 【系统参数合法性校验】spring-boot-starter-validation
  • 前端Vue3 + 后端Spring Boot,前端取消请求后端处理逻辑分析
  • 【MySQL】(9) 视图
  • 跟我学C++中级篇——控制死锁
  • Qt开发:JSON字符串的序列化和反序列化
  • 【OSG学习笔记】Day 14: 操作器(Manipulator)的深度使用
  • 基于机器学习的电影票房预测
  • 万象生鲜配送系统代码2025年4月29日更新日志
  • 移动互联网未成年人模式正式发布
  • 云南铁路:打造“铁路+金融+产业”融合发展生态
  • 北京发布今年第四轮拟供商品住宅用地清单,共计5宗22公顷
  • 农业农村部:把住能繁母猪存栏量“总开关”,引导养殖场户优化母猪存栏结构、合理控制产能
  • 打造沪派水乡的“湿意”,上海正在保护营造一批湿地空间
  • 习近平就伊朗发生严重爆炸事件向伊朗总统佩泽希齐扬致慰问电