当前位置：首页 > news >正文

【机器学习/大模型/八股文面经（一）】

news 2025/10/20 10:27:32

1. PPO算法中使用GAE的好处以及参数γ和λ的作用是什么？

参考答案：

GAE（Generalized Advantage Estimation） 的优势在于通过指数加权多步TD误差，平衡优势估计的偏差与方差，提升策略优化的稳定性。
γ（折扣因子）：控制未来奖励的衰减程度，值越大表示更关注长期收益。
λ（GAE衰减因子）：调节多步优势估计的权重，λ=1时等价于蒙特卡洛估计（高方差低偏差），λ=0时退化为单步TD误差（低方差高偏差）。

2. PPO算法和DQN算法的区别是什么？

参考答案：

PPO：基于策略梯度方法，直接优化策略网络，支持连续动作空间，通过重要性采样和Clip机制限制策略更新幅度。
DQN：基于值函数逼近，学习Q值网络，仅适用于离散动作空间&#x

http://www.dtcms.com/a/87039.html

相关文章：

深度学习技术与应用的未来展望：从基础理论到实际实现

Spark Driver生成过程详解

Pyecharts功能详解与实战示例

CCF编程能力等级认证GESP—C++4级—20250322

传统复古怀旧标签标识Logo设计PSAI无衬线英文字体安装包 Myfonts – Hebden Recut Font Family

「DP」专题训练（持续更新中）

基于linuxC结合epoll + TCP 服务器客户端 + 数据库实现一个注册登录功能

在IDEA中快速注释所有console.log

四种跨模态行人重识别可视化方法

Ubuntu22.04搭建freeradius操作说明

实时图像处理：让你的应用更智能

【Bug记录】node-sass安装失败解决方案

Thinkphp(TP)框架漏洞攻略

Docker 可视化工具 Portainer

【2025】基于springboot+spark的电影推荐系统（源码、万字文档、图文修改、调试答疑）

【Tomcat】部署及优化

阿里云国际站代理商：怎样针对4G/5G网络优化CDN参数？

Pyserial库使用

蓝桥杯学习-14子集枚举，二进制枚举

高速电路设计之电源分类及其应用要点

netplan是如何操控systemd-networkd的? 笔记250324

深入理解Spring框架：核心概念与组成剖析

Android第六次面试总结（okhttp篇）

Proteus8打开Proteus7文件（.DSN格式）的方法

Ceph集群2025（Squid版）导出高可用NFS集群(下集 )

如何在多个GPU中训练非常大的模型？

【编程】面向对象编程和函数式编程

手撕C++ STL list容器：从指针缠绕到迭代器封装的实践笔记

【大模型】DeepSeek攻击原理和效果解析

dify0.15.3升级至dify1.1.2操作步骤