当前位置: 首页 > news >正文

基于DeepSeek 的图生文最新算法 VLM-R1

目录

一、算法介绍

二 算法部署

三 模型下载

四 算法测试

五 可视化脚本


一、算法介绍

VLM-R1:稳定且可通用的 R1 风格大型视觉语言模型

自从 Deepseek-R1 推出以来,出现了许多专注于复制和改进它的作品。在这个项目中,我们提出了 VLM-R1,一种稳定且可通用的 R1 风格的大型视觉语言模型。

具体来说,对于引用表达式理解 (REC) 的任务,我们使用 R1 和 SFT 方法训练了 Qwen2.5-VL。结果表明,在域内测试数据上,SFT 模型的性能略低于 R1 模型(如上图顶部所示)。然而,在域外测试数据上,SFT 模型的性能随着步数的增加而显著恶化,而 R1 模型则显示出稳定的改进,如下图所示。

相关文章:

  • Go开发框架Sponge+AI助手协同配合重塑企业级开发范式
  • 论文阅读:CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION?
  • 【C语言显示Linux系统参数】
  • c++面试常见问题:虚表指针存在于内存哪个分区
  • LeetCodehot 力扣热题100 组合总和
  • 【C】初阶数据结构8 -- 链式二叉树
  • 计算机毕业设计SpringBoot+Vue.js人力资源管理系统(源码+文档+PPT+讲解)
  • MCP与RAG:增强大型语言模型的两种路径
  • 【算法】【并查集】acwing算法基础837. 连通块中点的数量
  • 每日一题——接雨水
  • 制作安装win10系统U盘详细步骤
  • 深入解析HDFS:定义、架构、原理、应用场景及常用命令
  • 【C++并发编程实战】第1章 你好,C++的并发世界!
  • Golang语言特性
  • C语言:51单片机 常用电子元器件讲解(带英文名称)
  • Java-servlet(一)Web应用与服务端技术概念知识讲解
  • Linux top 常用参数记录
  • 扫描局域网可用端口
  • 【计算机网络入门】初学计算机网络(五)
  • 常见的 Spring 项目目录结构
  • 专访《风雪夜归人》导演闫锐:在舞台上表现什么是真正的活着
  • 复旦兼职教授高纪凡首秀,勉励学子“看三十年才能看见使命”
  • 43.2℃!河南林州打破全省5月最高温纪录,明后天高温将持续
  • 解放日报“解码上海AI产业链”:在开源浪潮中,集聚要素抢先机
  • 河南发布高温橙警:郑州、洛阳等地最高气温将达40℃以上
  • 墨西哥海军帆船纽约撞桥事故已致2人死亡19人受伤