当前位置: 首页 > news >正文

英伟达微调qwen2.5-32B模型,开源推理模型:OpenCodeReasoning-Nemotron-32B

一、模型概述

OpenCodeReasoning-Nemotron-32B 是一个大型语言模型,基于 Qwen2.5-32B-Instruct 开发,专为代码生成推理任务进行了后续训练,支持 32,768 个标记的上下文长度,适用于商业和非商业用途。

二、性能表现

在 LiveCodeBench 和 CodeContest 等基准测试中的表现如下表:

模型LiveCodeBench 平均值CodeContest 全部
DeepSeek-R165.626.2
QwQ-32B61.320.2
Bespoke-Stratos-7B14.72.0
OpenThinker-7B25.55.0
R1-Distill-Qwen-7B38.011.1
OlympicCoder-7B40.910.6
OCR-Qwen-7B48.516.3
OCR-Qwen-7B-Instruct51.318.1
R1-Distill-Qwen-14B51.317.6
OCR-Qwen-14B57.722.6
OCR-Qwen-14B-Instruct59.423.6
Bespoke-Stratos-32B30.16.3
OpenThinker-32B54.116.4
R1-Distill-Qwen-32B58.118.3
OlympicCoder-32B57.418.0
OCR-Qwen-32B61.824.6
OCR-Qwen-32B-Instruct61.724.4

三、使用方法

  1. 导入必要的库:
import transformers
import torch
  1. 创建文本生成管道:
model_id = "nvidia/OpenCodeReasoning-Nemotron-32B"
pipeline = transformers.pipeline("text-generation",model=model_id,model_kwargs={"torch_dtype": torch.bfloat16},device_map="auto",
)
  1. 定义提示信息:
prompt = """You are a helpful and harmless assistant. You should think step-by-step before
Please use python programming language only.
You must use ```python for just the final solution code block with the following format: ```python # Your code here ```
{user} """
  1. 生成消息并获取输出:
messages = [{"role": "user", "content": prompt.format(user="Write a program to calculate the sum of the first $"}]
outputs = pipeline(messages, max_new_tokens=32768)
print(outputs[0]["generated_text"][-1]['content'])

四、数据集和评估

训练语料库是 OpenCodeReasoning 数据集,包含来自 OpenCodeReasoning 的 736,000 个样本,包括编程竞赛问题和 DeepSeek-R1 生成的响应。数据收集和标记方法为混合模式,结合了自动化、人工和合成方法。

五、核心优势

  1. 推理与代码生成:专为代码生成推理任务进行了后续训练。

  2. 长上下文支持:支持 32,768 个标记的上下文长度。

  3. 硬件优化:专为 NVIDIA GPU 加速系统设计,利用 NVIDIA 硬件和软件框架实现更快的训练和推理时间。

  4. 适应性:适用于开发者和研究人员构建大型语言模型。

六、原文链接

论文原文可在 arXiv 上找到。

七、核心技术汇总

在这里插入图片描述

http://www.dtcms.com/a/184776.html

相关文章:

  • DINOv2
  • Nipype使用:从安装配置到sMRI处理
  • C++:流插入、流提取操作符
  • Wordpress头像无法加载太慢问题解决方式
  • Quartus与Modelsim-Altera使用手册
  • 数值运算的误差估计
  • 深入理解深度循环神经网络(Deep RNN)
  • 4.4 os模块
  • 3. 仓颉 CEF 库封装
  • FME处理未知或动态结构教程
  • 微机系统:第二章节:16位的intel8086处理器
  • MLU实现 comfyui+wan2.1 完成图生视频创作
  • 写屏障和读屏障的区别是什么?
  • Javascript基础语法
  • 【C语言输入输出函数应用】
  • Java--图书管理系统(简易版)
  • ENSP-OSPF综合实验
  • 记录学习《手动学习深度学习》这本书的笔记(十一)
  • [Java实战]Spring Boot 定时任务(十五)
  • 深度优先与广度优先:如何用算法思维优化学习策略?
  • go程序编译成动态库,使用c进行调用
  • 数据结构实验9.2:动态查找表的基本操作
  • 机器学习总结
  • 操作系统原理实验报告
  • 常用的rerank模型有哪些?都有什么优势?
  • AI(学习笔记第三课) 使用langchain进行AI开发(2)
  • Java原生结合MQTTX---完成心跳对话(附带源码)
  • Linux 进程等待
  • 数字化工厂中央控制室驾驶舱系统 API接口文档
  • 洛谷题目:P1673 [USACO05FEB] Part Acquisition S 题解(本题简)