当前位置：首页 > wzjs >正文

潍坊网站优化公司谷歌搜索引擎下载

wzjs 2025/8/5 20:28:53

潍坊网站优化公司,谷歌搜索引擎下载,三个小伙毕业了做购物网站的电视剧,云南网招聘背景近年来，随着大语言模型（LLM）的突破性进展，角色扮演对话代理（RPCAs）已成为人工智能领域的前沿研究方向。这类代理旨在模拟虚构角色或公众人物等特定人设，同时保持对预设角色特征的认知能力。…

背景

近年来，随着大语言模型（LLM）的突破性进展，角色扮演对话代理（RPCAs）已成为人工智能领域的前沿研究方向。这类代理旨在模拟虚构角色或公众人物等特定人设，同时保持对预设角色特征的认知能力。

工业界应用（如 Character.ai、Talkie）通过定制化角色创建平台吸引了数百万日活用户，而学术界研究（如 CharacterGLM）则通过合成高质量对话语料库优化模型性能。

为量化评估 RPCAs 的自我意识与对话能力，研究者提出了 CharacterEval、Roleinteract、Raiden 等基准测试。

问题与挑战：当前，监督微调（SFT）仍是训练 RPCAs 的主导范式，但其直接生成角色化响应的方式缺乏中间推理步骤，导致角色漂移问题——模型难以协调冲突的上下文信息。

尽管思维链（CoT）推理技术（如 DeepSeek-R1 的 GRPO 框架）在通用任务中展现出潜力，但在角色扮演场景下面临非量化挑战：符合角色设定与语境的响应可能具有多样性，导致难以设计可量化的奖励机制。若直接使用 LLM 生成奖励，则会因主观偏差无法提供清晰的优化梯度。

文章标题：

RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward

论文地址：

https://arxiv.org/pdf/2505.10218

方案

本文提出 RAIDEN-R1 框架，基于 RAIDEN 角色扮演数据集，通过可验证角色意识奖励（VRAR）解决上述挑战。VRAR 结合两种策略：

单术语验证（STV）：通过问题类型过滤、实体类型验证等，提取唯一关键词生成奖励：

仅处理 WH 类问题（如"What"、"Who"），排除是非/选择类问题。
筛选含单一明确实体名词的样本，并通过多模型（GPT-4、MiniMax-abab6-chat 等）参考输出验证关键词一致性。

多术语动态解析（MTDP）：扩展语义等价关键词，生成 Python 验证代码，确保动态场景下的角色一致性：

扩展同义词（QwQ-32B），过滤无关词（Qwen-72B）。
生成 Python 代码评估响应，保留 LLM 判断与代码执行一致性>70% 的样本。

2.1 数据收集

数据来源包括：

RAIDEN 基准：包含明确标注的对话评估目标与参考响应，从中选取脚本知识（SBK）和对话记忆（CM）维度数据（因答案确定性高）。
通用角色扮演数据集：基于角色背景与对话历史生成问题，通过 Qwen2.5-14B-Instruct 模型筛选错误回答作为挑战数据，并补充简单数据优化分布。

2.2 奖励设计

采用两种奖励机制：

准确率奖励（Accuracy Reward）：
- STV 样本：响应完全包含目标关键词则奖励 1 分，否则 0 分。
- MTDP 样本：调用 Python 评估函数，根据输出判定奖励。

格式奖励（Format Reward）：
- 强制模型将推理过程封装在<think>与标签内，并在后生成角色响应。
- 附加约束：中文字符比例>70%；禁止重复特殊词汇（如代码片段）。

实验结果

3.1 数据集与实验设置

我们从 RAIDEN 基准测试的训练集中选取了 1,000 个剧本知识（SBK）和对话记忆（CM）样本，并从 8,000 个通用角色扮演实例中筛选出 1,000 个具有挑战性的样本。

实验发现 Qwen2.5-7B-Instruct 在 GRPO 训练中存在不稳定性，因此选用 Qwen2.5-14B-Instruct 作为基线模型。通过 GRPO 和监督微调（SFT）方法训练模型，分别命名为 RAIDEN-R1 和 RAIDEN-SFT。

此外，我们使用 10,000 个冷启动训练样本进行 SFT，随后结合 CoT 数据进行 GRPO 训练。

3.2 评估方法

使用 RAIDEN 基准测试集的划分作为测试集，评估指标包括：

主要指标：SBK（剧本知识）、CM（对话记忆）
补充指标：SCK（剧本矛盾知识）、RCB（角色认知边界）、TA（话题推进）、TS（话题转换）

采用 Claude 3.5 作为“LLM 即评委”进行正确性评估。

3.3 实验结果

原始模型 14B-Instruct：在 SBK 和 CM 指标上分别达到 86.59% 和 80.25% 的准确率，整体表现良好。

直接 SFT 训练的 14B-SFT：除 CM 略有提升（86.92%）外，多数指标（如 SBK 降至 77.17%）显著下降，归因于过拟合和训练数据风格陈旧。

GRPO 训练的 14B-GRPO：在主要指标上表现最佳（SBK 88.04%，CM 88.65%），验证了 VRAR 框架的有效性。

冷启动 CoT 训练的 14B-SFT：仅在 TA（50.75%）和 TS（92.11%）等话题指标上优于基线，其他指标全面下降，表明高质量领域数据的重要性。

冷启动后 GRPO 训练：14B-SFT-GRPO 在多项指标上显著改善（如 SBK 从 71.74% 提升至 82.97%），进一步验证 VRAR 的鲁棒性。

3.4 案例分析

通过两个典型场景对比模型表现：

上下文依赖查询：

14B-Instruct：因缺乏长期记忆能力，无法正确回答与对话历史相关的细节问题（如未提及酒吧老板姓名）。
14B-GRPO：通过 CoT 推理精准识别上下文信息（如“老板的兄弟”暗示亲属关系），生成符合角色的高质量回复。
误导性查询：用户输入：“你连续获得 385 次月度最佳员工奖？”（实际为 374 次）。
14B-Instruct：未察觉数值矛盾，直接接受错误信息。
14B-GRPO：在 CoT 中识别冲突（“实际获奖 374 次”），但在最终回复中策略性回避纠正，展现拟人化情商（如“感谢夸奖”并转移话题）。

此外，GRPO 模型生成的 CoT 更自然，以第一人称视角推理（如“我实际获奖 374 次”），而非显式声明角色扮演任务。14B-GRPO 的 CoT 平均长度仅 30.1 词，表明其推理过程简洁高效。

总结

本文提出了一种名为 RAIDEN-R1 的强化学习框架，旨在提升大型语言模型 (LLM) 在角色扮演对话 Agent (RPCA) 中的角色感知能力。该框架通过集成可验证的角色感知奖励 (Verifiable Role-Awareness Reward, VRAR) 来解决角色一致性问题。

实验表明，14B-GRPO 模型在 Script-Based Knowledge（88.04%）和 Conversation Memory（88.65%）指标上显著优于基线模型，且鲁棒性更强。

案例分析揭示：模型能通过第一人称推理处理冲突语境（如用户输入与角色设定矛盾时进行自校正），并在保持角色一致性的同时提升拟人化表达能力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

查看全文

http://www.dtcms.com/wzjs/205654.html

查国外企业信息的网站网站免费推广

营销型企业网站建设方案书百度网盘资源

电影网站开发开题报告谷歌google中文登录入口

设计精美的国外网站软文广告属于什么营销

给博彩做网站营销型网站的类型有哪些

做视频网站的条件洛阳seo外包公司费用

网站建设在医院的作用百度产品大全

做网站潜江推广链接点击器

抚州营销型网站建设百度快照客服人工电话

做网站的哪家比较好上海优化seo公司

北京官方网站网怎么下载有风险的软件

阿里巴巴官网国际站国内新闻大事20条简短

广州网站开发建设网络推广方案

wordpress主题her郑州seo优化外包

网站开发源代码百度文库技术培训机构排名前十

magento网站开发seo网站排名厂商定制

新疆工程建设网站上查询班级优化大师免费下载

新疆建设兵团二师网站长沙百度百科

杭州做网站的科技公司网站统计

国家市场监督管理总局什么级别seo模拟点击软件

我想建网站做推广seo整站优化一年价格多少

wordpress如何换成经典编辑器青岛seo建站

b2c商城网站建设目的关于进一步优化当前疫情防控措施

分类信息网站建设黄金网站软件免费

合肥网站建设教程做网站优化的公司

没有专项备案的网站黄冈网站推广厂家

公司内部网站模板推广网站哪个好

郑州郑州网站建设河南做网站公司指数基金是什么意思

网上企业管理系统免费版网站优化推广怎么做

网站开发 app南京响应式网站建设

2.1 数据收集

2.2 奖励设计

3.1 数据集与实验设置

3.4 案例分析

相关文章：