当前位置：首页 > news >正文

【图问答】DeepSeek-VL 论文阅读笔记

news 2025/11/2 12:47:49

《DeepSeek-VL: Towards Real-World Vision-Language Understanding》

1. 摘要/引言

基于图片问答（Visual Question Answering，VQA）的任务

2. 模型结构和三段式训练

1）使用 SigLIP 和 SAM 作为混合的vision encoder，也就用的对比学习和Segment Anything（有监督学习）的混合vision encoder

2）Vision-Language Adaptor 负责将动态分块后的图像特征转换为语言模型可处理的离散的token-ids

http://www.dtcms.com/a/147199.html

相关文章：

【源码】【Java并发】【AQS】从ReentrantLock、Semaphore、CutDownLunch、CyclicBarrier看AQS源码

关于金碟云星空批号问题

开源脚本分享：用matlab处理ltspice生成的.raw双脉冲数据

第1 篇：你好，时间序列！—— 开启时间数据探索之旅

黑苹果win10和macOS双系统

【MCP】从0到1实现一个MCP Server

class com.alibaba.fastjson.JSONObject cannot be cast to class

安装WSL2.0

计算机组成与体系结构：内存层次结构（Memory Hierarchy）

Kotlin协程学习笔记

无人机飞控运行在stm32上的RTOS实时操作系统上，而不是linux这种非实时操作系统的必要性

微服务架构下数据库范式的失效与反范式设计的崛起

wps表格保存时提示上传错误报0XFFF40005错误，提示撤销之前操作或者另存为

JavaScript 渲染内容爬取：Puppeteer 入门

线性DP：最短编辑距离

2025.04.20【Lollipop】| Lollipop图绘制命令简介

实验四 Java图形界面与事件处理

C++学习：六个月从基础到就业——内存管理：智能指针详解

集成学习实际案例

储能集装箱电池簇安装支架结构设计（大纲）

代码随想录第22天：回溯算法4

从规则到大模型：知识图谱信息抽取实体NER与关系RE任务近10年演进发展详解

项目班——0419——functionbind生产消费（未完成）

如何测试雷达与相机是否时间同步？

list的学习

Missashe考研日记-day23

【数字图像处理】彩色图像处理（1）

Easysearch Rollup 相比 OpenSearch Rollup 的优势分析

深入解析 Linux 文件系统中的软硬链接：从原理到实践

RS232 串行通信：C++ 实现指南