强化学习
强化学习和监督学习是机器学习中的两种不同的学习范式
强化学习:目标是让智能体通过与环境的交互,学习到一个最优策略,以最大化长期累积奖励。
例如,在机器人导航任务中,智能体需要学习如何在复杂环境中移动,以最快速度到达目标位置,同时避免碰撞障碍物,这个过程中智能体要不断尝试不同的行动序列来找到最优路径。
监督学习:旨在学习一个从输入特征到输出标签的映射函数,通常用于预测、分类和回归等任务。
比如,根据历史数据预测股票价格走势,或者根据图像特征对图像中的物体进行分类,模型通过学习已知的输入输出对来对新的未知数据进行预测。
强化学习重要概念





NLP与强化学习
