APO:自动化技术提升大语言模型在各类任务中的表现
APO:自动化技术提升大语言模型在各类任务中的表现
APO通过自动化技术提升大语言模型在各类任务中的表现,其核心是一个包含种子提示初始化、候选生成、评估反馈等的五部分统一框架。文中详细分类了APO方法,如基于启发式的词法编辑、强化学习优化等,还介绍了评估指标(任务准确率、奖励模型分数等)及面临的任务不可知、机制不明确等挑战,最后展望了多模态APO等未来方向。
思维导图
## **APO定义与背景**
- 目标:优化提示提升LLM任务性能
- 挑战:模型敏感性、用户使用障碍
## **APO五部分框架**
- 种子提示初始化:手动创建、LLM诱导
- 候选提示生成:启发式编辑、RL、遗传算法
- 推理评估与反馈:数值分数、LLM反馈、人类反馈
- 过滤保留策略:TopK、UCB、区域联合搜索
- 迭代深度:固定步数、可变步数
## **候选生成方法**
- 启发式编辑:蒙特卡洛采样、遗传算法、词汇修剪
- 辅助网络编辑:RL、LLM微调、GAN
- 元提示设计:任务描述整合、历史解融合
- 覆盖式方法:单提示扩展、专家混合、集成方法
- 程序合成:模块化优化、文本转换图
## **评估指标**
- 数值分数:准确率、奖励模型、熵、负对数似然
- LL