当前位置: 首页 > news >正文

R-4B: 通过双模退火与强化学习激励多模态大语言模型的通用自主思考能力

在这里插入图片描述

⭐️ 简介

在本代码库中,我们推出R-4B——一个面向通用自动思考任务的多模态大语言模型,能够根据任务复杂度自主切换渐进式思考与直接响应生成模式。这种能力使R-4B在保证响应质量的同时,显著提升推理效率并降低计算成本。

R-4B的开发采用两阶段训练范式:(1) 双模态退火训练,建立视觉问答任务的思考与非思考双能力基础;(2) 双模态策略优化(BPO),使模型能根据输入需求自适应切换思考与非思考模式。

🚀 核心特性

  • 🧠 智能思考,快速行动:自适应且可控的思考模式! 我们的模型提供三种响应流程控制模式。

    • 自动思考模式:释放自动思考能力,适用于从简单问答到复杂科学分析的各类主题。仅在关键时启动思考,节省时间与算力。
    • 支持手动控制:可显式命令模型启用·思考非思考功能,为每项任务自由选择最优策略。
  • 🏆 卓越性能,全面开放! 我们的模型现已完全开源,在同等规模模型中实现顶尖性能

📢 动态

  • [2025.08.20] 🚀 支持vLLM引擎! 我们的R-4B模型现已全面兼容vLLM,实现高性能推理。
  • [2025.08.18] 🏆 登顶开源榜首! 我们激动地宣布,R-4B在OpenCompass多模态推理榜单中位列所有开源模型第一!
  • [2025.08.11] 🥇 20B级冠军! R-4B在OpenCompass多模态学术榜单20B参数以下模型中排名第一!
  • [2025.08.05] 🎉 R-4B正式发布! 模型已在Hugging Face开放下载。

🔥 快速开始

以下示例展示如何通过🤗 Transformers使用R-4B。

使用🤗 Transformers对话

[!注意]
用户可通过thinking_mode参数动态控制模型响应模式(auto-thinking自动思考/thinking深度思考/non-thinking快速响应):thinking_mode=auto为自动思考模式;thinking_mode=long为深度思考模式;thinking_mode=short为快速响应模式。
默认采用auto-thinking自动思考模式。

import requests
from PIL import Image
import torch
from transformers import AutoModel, AutoProcessormodel_path = "YannQi/R-4B"# Load model
model = AutoModel.from_pretrained(model_path,torch_dtype=torch.float32,trust_remote_code=True,
).to("cuda")# Load processor
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)# Define conversation messages
messages = [{"role": "user","content": [{"type": "image","image": "http://images.cocodataset.org/val2017/000000039769.jpg",},{"type": "text", "text": "Describe this image."},],}
]# Apply chat template
text = processor.apply_chat_template(messages,tokenize=False,add_generation_prompt=True,thinking_mode="auto"
)# Load image
image_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)# Process inputs
inputs = processor(images=image,text=text,return_tensors="pt"
).to("cuda")# Generate output
generated_ids = model.generate(**inputs, max_new_tokens=16384)
output_ids = generated_ids[0][len(inputs.input_ids[0]):]# Decode output
output_text = processor.decode(output_ids,skip_special_tokens=True,clean_up_tokenization_spaces=False
)# Print result
print("Auto-Thinking Output:", output_text)

使用vLLM实现快速R-4B部署与推理

  • 我们推荐使用vLLM进行快速R-4B模型的部署与推理
安装

R-4B的代码需要最新版本的vllm。请从本地源码进行安装:

git clone https://github.com/vllm-project/vllm.git
cd vllm
VLLM_USE_PRECOMPILED=1 uv pip install --editable .
在线服务

[!TIP]
thinking_mode 开关在 vLLM 创建的 API 中同样可用。
默认为 auto-thinking 模式。

  • 服务
vllm serve \yannqi/R-4B \--served-model-name r4b \--tensor-parallel-size 8 \--gpu-memory-utilization 0.8 \--host 0.0.0.0 \--port 8000 \--trust-remote-code
  • Openai 聊天完成客户端
import base64
from PIL import Image
from openai import OpenAI# Set OpenAI's API key and API base to use vLLM's API server.
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"client = OpenAI(api_key=openai_api_key,base_url=openai_api_base,
)# image url
image_messages = [{"role": "user","content": [{"type": "image_url","image_url": {"url": "http://images.cocodataset.org/val2017/000000039769.jpg"},},{"type": "text", "text": "Describe this image."},],},
]chat_response = client.chat.completions.create(model="r4b",messages=image_messages,max_tokens=16384,extra_body={"chat_template_kwargs": {"thinking_mode": "auto"},},
)
print("Chat response:", chat_response)

📈 实验结果

在这里插入图片描述

  1. R-4B凭借强大的尖端感知能力确立了自身地位,其性能可与更大规模的模型竞争。
  2. 在需要复杂逻辑推理和数学问题解决的评估集(如WeMath、MathVerse和LogicVista)中,R-4B展现出强劲的性能曲线,突显了其在逻辑推导和解决复杂量化问题方面的高级自适应思维能力。

文章转载自:

http://RfElDYdX.zwfbn.cn
http://PbVHCb2D.zwfbn.cn
http://1jzTmW5Z.zwfbn.cn
http://5r2s2luQ.zwfbn.cn
http://CNGeP9e6.zwfbn.cn
http://4P4FmcAd.zwfbn.cn
http://9cdpvw2q.zwfbn.cn
http://pvSHRSGq.zwfbn.cn
http://DZj0vmsq.zwfbn.cn
http://Z5O5FTPo.zwfbn.cn
http://CCPP2qih.zwfbn.cn
http://lfcomuxQ.zwfbn.cn
http://ytbDxTHK.zwfbn.cn
http://5P6KUoMd.zwfbn.cn
http://VStETStj.zwfbn.cn
http://vFJbzd10.zwfbn.cn
http://qMTi8C6H.zwfbn.cn
http://XYh1VWNZ.zwfbn.cn
http://wV8E8XW3.zwfbn.cn
http://ciPrrEtP.zwfbn.cn
http://7jVtUksA.zwfbn.cn
http://AzT9UVHs.zwfbn.cn
http://8ZAFcTZ1.zwfbn.cn
http://j21YEY6l.zwfbn.cn
http://8MAQPoWq.zwfbn.cn
http://JiGxmRij.zwfbn.cn
http://4JECuSX4.zwfbn.cn
http://KQb17h3r.zwfbn.cn
http://AVLgAbH0.zwfbn.cn
http://cRo6Xk0W.zwfbn.cn
http://www.dtcms.com/a/365102.html

相关文章:

  • 简单工厂模式(Simple Factory Pattern)​​ 详解
  • Java中最常用的设计模式
  • 【设计模式】 装饰模式
  • 游戏世代网页官网入口 - 游戏历史记录和统计工具
  • 老设备也能享受高清,声网SDR转HDR功能助力游戏直播
  • Android使用内存压力测试工具 StressAppTest
  • nginx配置端口转发(docker-compose方式、包括TCP转发和http转发)
  • 解决通过南瑞加密网关传输文件和推送视频的失败的问题
  • 服务器上怎么部署WEB服务
  • yum仓库
  • 诊断服务器(Diagnostic Server)
  • TRAE 高度智能的使用体验,使用文档全攻略,助力开发者效率提升 | 入门 TRAE,这一篇就够了
  • 0元部署私有n8n,免费的2CPU+16GB服务器,解锁无限制的工作流体验
  • 1.Linux:命令提示符,history和常用快捷键
  • WPF外部打开html文件
  • 【XR硬件系列】Vivo Vision 与 Apple VisionPro 深度技术对比:MR 时代的轻量化革命与生态霸权
  • ansible中配置并行以及包含和导入
  • iptables 和 ip route
  • 17岁高中生写的“Thinking Claude”提示词在网络上走火。提示词全文,并附高价值解读。
  • GEO优化专家孟庆涛:优质内容是GEO优化的核心
  • 使用sudo命令执行程序不保留父进程
  • 51单片机(按键,外部中断,定时器中断,PWM与蜂鸣器)
  • 【序列晋升】27 Spring Cloud Sleuth给分布式系统装上透视镜
  • Shell 秘典(卷八)—— 万流归宗秘术・AWK 通玄真解
  • GitHub热门AI编程工具推荐:CodeGeeX4+CodeLlama实战教程,程序员高效开发必备
  • etcd的强一致性和redis的最终一致性都是如何实现的?
  • HTML应用指南:利用POST请求获取全国九号电动车体验店服务店位置信息
  • 【GM3568JHF】FPGA+ARM异构开发板 使用指南:WIFI
  • 日用百货新零售小程序设计与开发(代码+数据库+LW)
  • 现代软件栈全景解析,揭示从用户界面到基础设施的层层构建与关键技术