当前位置：首页 > news >正文

庙算兵棋推演AI开发初探（空想篇-RLHF尝试）

news 2025/9/25 12:44:46

一直没实现，以下写自 2024-07-30 23:27:16

基于人类反馈的强化学习——RLHF(Reinforcement Learning from Human Feedback)

AI在RTS（即时战略）游戏中已经展示了强大的能力，可以帮助人类迅速找到制胜策略。以下是一些AI在RTS游戏中应用的方式：

决策优化：AI可以通过分析游戏状态和数据，帮助玩家做出最佳决策。AI能够快速计算资源管理、单位生产、战斗策略等多方面的最佳方案。
路径规划：AI可以帮助优化单位的路径规划，使它们能够高效地移动和攻击，避免不必要的碰撞和绕路。
对手预测：AI可以通过机器学习和模式识别，预测对手的下一步行动，并提前制定应对策略。
战术建议：AI可以根据当前局势，向玩家提供即时的战术建议，如何进攻、如何防守、何时扩展等。
实时模拟和分析：AI可以进行实时模拟和分析，帮助玩家测试不同策略的效果，从而找到最佳的胜利路径。

案例

AlphaStar：由DeepMind开发的AlphaStar在《星际争霸II》中表现出色，能够击败顶级人类选手。它通过深度强化学习和自我对战不断提升技能，展示了AI在复杂RTS游戏中的巨大潜力。
OpenAI Five：OpenAI开发的OpenAI Five在《Dota 2》中也表现出色，展示了AI在多人实时策略游戏中的强大能力。

未来发展

未来，AI在RTS游戏中的应用将更加广泛和深入，可能包括：

更智能的游戏助手，为玩家提供更全面的支持。
个性化训练伙伴，帮助玩家提升技能。
更复杂的AI对手，提高游戏的挑战性和趣味性。

总的来说，AI在RTS游戏中已经展现了显著的优势，并且未来有望进一步提升人类玩家的游戏体验和水平。

我也发现了一些难点

不像棋类游戏仅仅有位置这种属性，技能、科技、套路、微操等等都需要考虑。Alpha Star通过很多场人类的对战数据学习，还有后面的Alpha Zero仅靠自学习得出的智能体……如何把这巨大的决策空间进行收敛以及拟合为更容易取胜的状态？……或者说战胜的机制？

人和机器确实各有优劣，如何让人更容易找到战胜机制和战术？这是我需要研究的问题（之前想研究针对某人的决策风格问题，但是模仿学习貌似没给出我想要的答案）

碎碎念

——以下的是我2023年11月的想法，那会儿已经被当前（2024的）这个项目纠缠了。

我的思维还停留在上一个项目上，用六大分系统组合成战术战法验证软件。

席位构设

筹划

兵力指挥操控（双方在既定战法中微调）

态势显示（导演部调整，比如回溯，命令直接杀死，瞬移等）

数据复盘回放

评估分析

于是我设计了如下的流程（2024.1.15），一行为树和战法为执行末端并结合兵棋系统进行适配，那时候觉得只要让AI学习人就万事大吉了。

还有后续的详细版本

后来我就开始调研RLHF的相关内容，发现多数都是说chatGPT的——无监督训练 --> 有监督微调 --> 强化学习微调

我们使用监督学习来微调GPT-3。然后，我们收集模型输出的排名数据集，我们利用人类反馈的强化学习来进一步微调这个监督模型。我们把产生的模型称为InstructGPT。在人类对我们的提示分布的评估中，尽管参数少了100倍，但1.3B参数的InstructGPT模型的输出比175B的GPT-3的输出更好。此外，InstructGPT模型显示了真实性的改善和有毒输出生成的减少，同时在公共NLP数据集上，测试性能也没有降低太多。尽管InstructGPT仍然会犯一些简单的错误，但我们的结果表明，利用人类反馈进行微调是使语言模型与人类意图相一致的一个有希望的方向。
——【Arxiv】Training language models to follow instructions with human feedback

ChatGPT 背后的“功臣”——RLHF 技术详解 (huggingface.co)https://huggingface.co/blog/zh/rlhf偶然看到的对微调模型的总结:人工智能大语言模型微调技术：SFT、LoRA、Freeze 监督微调方法 (baidu.com)