当前位置: 首页 > news >正文

【图问答】DeepSeek-VL 论文阅读笔记

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答(Visual Question Answering,VQA)的任务

2. 模型结构 和 三段式训练

1)使用 SigLIP 和 SAM 作为混合的vision encoder,也就用的 对比学习 和Segment Anything(有监督学习)的混合vision encoder

2)Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids
-

相关文章:

  • 【源码】【Java并发】【AQS】从ReentrantLock、Semaphore、CutDownLunch、CyclicBarrier看AQS源码
  • 关于金碟云星空批号问题
  • 开源脚本分享:用matlab处理ltspice生成的.raw双脉冲数据
  • 第1 篇:你好,时间序列!—— 开启时间数据探索之旅
  • 黑苹果win10和macOS双系统
  • 【MCP】从0到1实现一个MCP Server
  • class com.alibaba.fastjson.JSONObject cannot be cast to class
  • 安装WSL2.0
  • 计算机组成与体系结构:内存层次结构(Memory Hierarchy)
  • Kotlin协程学习笔记
  • 无人机飞控运行在stm32上的RTOS实时操作系统上,而不是linux这种非实时操作系统的必要性
  • 微服务架构下数据库范式的失效与反范式设计的崛起
  • wps表格保存时提示上传错误报0XFFF40005错误,提示撤销之前操作或者另存为
  • JavaScript 渲染内容爬取:Puppeteer 入门
  • 线性DP:最短编辑距离
  • 2025.04.20【Lollipop】| Lollipop图绘制命令简介
  • 实验四 Java图形界面与事件处理
  • C++学习:六个月从基础到就业——内存管理:智能指针详解
  • 集成学习实际案例
  • 储能集装箱电池簇安装支架结构设计(大纲)
  • 特朗普称加总理将很快访美,白宫:不影响将加拿大打造成“第51个州”计划
  • 普京与卢卡申科举行会晤,将扩大在飞机制造等领域合作
  • 新华保险一季度净赚58.82亿增19%,保费收入增28%
  • 中国农业国际交流协会会长王守聪失联已逾半年,协会启动罢免
  • 马上评丨市长信箱“已读乱回”,群众在意的是什么
  • 专业竞演、剧场LIVE直播,32位越剧新星逐梦上海