当前位置: 首页 > news >正文

cs285学习笔记(一):课程总览

根据 Fall 2023 学期的官方课程日程,这里是 CS 285 全课程的 Lecture 大纲及内容摘要,详细对应周次和主题,方便你快速定位每节课要点、相关作业与视频资源 🎯

官方课程地址

YouTobe 视频地址

blibli视频(带中文字幕)

📅 CS 285 Fall 2023 全课程Lecture大纲

周次Lecture & 主题内容摘要
Week 1Lecture 1: Introduction & Course Overview课程介绍、RL基本背景、工业/研究趋势分析
Week 2Lecture 2: Supervised Learning of Behaviors (Imitation Learning)行为克隆、DAgger、离线与在线模仿学习任务一(HW1)
Lecture 3: PyTorch TutorialPyTorch基本用法,streamlined training pipeline
Week 3Lecture 4: Introduction to Reinforcement LearningMDP、策略、价值函数基础、Monte Carlo采样
Week 4Lecture 5: Policy GradientsREINFORCE算法、Likelihood-Ratio、本质推导、方差缩减
Lecture 6: Actor–Critic Algorithms基于 critic 的 actor-critic,G AE,实例代码讲解
Week 5Lecture 7: Value Function MethodsTD λ、bootstrapping、策略评估手段
Lecture 8: Deep RL with Q‑FunctionsDQN、experience replay、target network、训练稳定化
Week 6Lecture 9: Advanced Policy GradientsTRPO/PPO核心算法、KL约束、优势估计与实现细节
Lecture 10: Optimal Control & Planning基于控制理论的导航/规划方法(MPC)、线性系统控制
Week 7Lecture 11: Model-Based Reinforcement Learning模型学习与模拟、预测模型结构与样本效率
Lecture 12: Model-Based Policy Learning模型下的策略学习(包括DDP, iLQR等)
Week 8Lecture 13: Exploration I探索策略基本形式:ε-greedy, UCB, entropy bonus
Lecture 14: Exploration IICount-based、curiosity-driven、随机网络蒸馏
Week 9Lecture 15: Offline Reinforcement Learning IOffline RL 介绍,批训练挑战,BMIST等
Lecture 16: Offline Reinforcement Learning IIOOD泛化、约束优化、安全保障
Week 10Lecture 17: Reinforcement Learning Theory Basics收敛性分析、样本复杂度、策略优化几何
Lecture 18: Variational Inference & Generative ModelsVI基础,control-as-inference链接
Week 11Lecture 19: Connection between Inference and Control逆强化学习、最大熵控制、POMDP关系
Lecture 20: Inverse Reinforcement LearningIRL核心算法:MaxEnt IRL、GAIL等
Week 12Guest Lectures来自学术/工业专家专题分享(如 RLHF、DPO、Statistical RL)
Week 13Lecture 21: RL with Sequence Models & Language Models序列RL、seq2seq RL、LLM 调优初探
Lecture 22: Meta-Learning and Transfer LearningMeta-RL、跨任务泛化、Prompt调优、DPO & RLHFGuest
Week 14Lecture 23: Challenges & Open ProblemsRL前沿挑战:长期依赖、安全、公平性、效用函数等

作业对应

作业github

  • HW1 → Lecture 2 / 3
  • HW2 → Lecture 5 / 6
  • HW3 → Lecture 7–12
  • HW4 → Lecture 11–18
  • HW5 → Lecture 13–20
http://www.dtcms.com/a/277651.html

相关文章:

  • 融合开源AI大模型与MarTech:AI智能名片与S2B2C商城小程序源码赋能数字化营销新生态
  • Boost.Asio 中 io_context 类 post 和 dispatch的区别
  • 启动Tomcat报错:A child container failed during start
  • MCP 服务开发到发布
  • 更换docker工作目录
  • MongoDB对接SpringBoot【大数据存储】
  • Hashtable 与 HashMap 的区别笔记
  • 利用DeepSeek证明立体几何题目
  • Flink学习笔记:整体架构
  • Vue 3 动态ref问题
  • 第十五篇:Python操作Excel速成:读写单元格、样式与公式,你的第一个数据自动化脚本!告别手动录入!
  • 002大模型基础知识
  • 多项式运算→复数域FFT→有限域NTT
  • 在上海开发小程序,怎么做出“高级感”?
  • RTDETR融合[CVPR2024]SHViT中的SHSA模块
  • 业务访问控制-ACL与包过滤
  • openeuler使用桥接模式(包括新建虚拟机和已有虚拟机)
  • C语言集成ip2region快速指南
  • java: DDD using oracle 21c
  • 【实证分析】上市公司绿色战略数据集(2000-2023年)
  • 【PTA数据结构 | C语言版】字符串删除操作
  • Mybatis自动创建数据库表,并根据创建的表自动生成Mvc框架基础代码
  • WPS新版Latex公式改为显示样式,防止内嵌缩小
  • 清华北大西工大!具身导航最新综述
  • Git的常用操作
  • MYSQL笔记2
  • NW756NW815美光固态闪存NW821NW828
  • Switch表达式
  • 算法第三十二天--动态规划part01(第九章)
  • 苍穹外卖@RequestBody导错包导致接收不到传入参数