当前位置：首页 > news >正文

qwen3、gemma3 GPRO强化训练案例

news 2025/11/7 6:56:48

参考：
https://docs.unsloth.ai/basics/reinforcement-learning-guide/tutorial-train-your-own-reasoning-model-with-grpo

在线colab：
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/HuggingFace%20Course-Gemma3_(1B)-GRPO.ipynb

https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_(4B)-GRPO.ipynb#scrollTo=vzOuSVCL_GA9

比较费时间，这很数据集open-r1/DAPO-Math-17k-Processed共14116条，gpro训练3个小时

在这里插入图片描述

spring-ai agent概念

6.4 BL2到BL31/BL33的切换

MySQL索引：数据库的超级目录

综合演练——名片管理系统I

AtCoder Beginner Contest 413

UECC-UE连接协调的运作方式

（一）OpenCV——噪声去除（降噪）

React--Fiber 架构

数据库操作核心知识点整理

mac m1芯片安装pd及win10系统

第12讲—一元函数积分学的物理应用

在vscode中安装jupyter

蓝桥云课矩形切割-Java

快速分页wpf

npx cowsay 让动物说话~

Flink Exactly Once 和幂等

Unity插件——ABC详解

LeetCode 8. 字符串转换整数 (atoi)