当前位置: 首页 > news >正文

【机器学习/大模型/八股文 面经 (一)】

1. PPO算法中使用GAE的好处以及参数γ和λ的作用是什么?

参考答案

  • GAE(Generalized Advantage Estimation) 的优势在于通过指数加权多步TD误差,平衡优势估计的偏差与方差,提升策略优化的稳定性。
  • γ(折扣因子):控制未来奖励的衰减程度,值越大表示更关注长期收益。
  • λ(GAE衰减因子):调节多步优势估计的权重,λ=1时等价于蒙特卡洛估计(高方差低偏差),λ=0时退化为单步TD误差(低方差高偏差)。

2. PPO算法和DQN算法的区别是什么?

参考答案

  • PPO:基于策略梯度方法,直接优化策略网络,支持连续动作空间,通过重要性采样和Clip机制限制策略更新幅度。
  • DQN:基于值函数逼近,学习Q值网络,仅适用于离散动作空间&#x

相关文章:

  • 深度学习技术与应用的未来展望:从基础理论到实际实现
  • Spark Driver生成过程详解
  • Pyecharts功能详解与实战示例
  • CCF编程能力等级认证GESP—C++4级—20250322
  • 传统复古怀旧标签标识Logo设计PSAI无衬线英文字体安装包 Myfonts – Hebden Recut Font Family
  • 「DP」专题训练(持续更新中)
  • 基于linuxC结合epoll + TCP 服务器客户端 + 数据库实现一个注册登录功能
  • 在IDEA中快速注释所有console.log
  • 四种跨模态行人重识别可视化方法
  • Ubuntu22.04搭建freeradius操作说明
  • 实时图像处理:让你的应用更智能
  • 【Bug记录】node-sass安装失败解决方案
  • Thinkphp(TP)框架漏洞攻略
  • Docker 可视化工具 Portainer
  • 【2025】基于springboot+spark的电影推荐系统(源码、万字文档、图文修改、调试答疑)
  • 【Tomcat】部署及优化
  • 阿里云国际站代理商:怎样针对4G/5G网络优化CDN参数?
  • Pyserial库使用
  • 蓝桥杯学习-14子集枚举,二进制枚举
  • 高速电路设计之电源分类及其应用要点
  • 新闻分析:电影关税能“让好莱坞再次伟大”?
  • A股高开高走,三大股指涨超1.1%:两市成交1.3万亿元,近5000股收涨
  • “95后”楼威任浙江师范大学教授,研究方向为医学人工智能
  • 南京明孝陵石兽遭涂鸦“到此一游”,景区:已恢复原貌,警方在排查
  • 普京称俄中关系对维护世界稳定具有战略意义
  • 自我田野|从城市搬到农村生活,我找回了真实和附近