当前位置：首页 > news >正文

qwen2.5-vl多模态大模型详解

news 2025/9/24 10:43:13

本文已经发表在知乎，辛苦移步～《qwen2.5-vl多模态大模型详解》

最近详细的学习了一下qwen2.5-vl国产多模态大模型，笔记如下。

在本文中主要关注数据层面是如何一步一步处理的，也会把一些关键的数据tensor列出来。至于原理层面的介绍，可以参考：万字长文图解Qwen2.5-VL实现细节，【多模态大模型】Qwen2.5-VL解剖这两篇文章。

环境安装

官方readme中关于环境安装方面的信息不多，可参考：Qwen2.5-VL部署详细记录-CSDN博客，里面遇到的问题确实都会遇到。本文使用的是Qwen2.5-VL-7B-Instruct模型。

另外，建议安装flash-attn，因为我这边3090显卡24G显存在不安装flash-attn时，会话过长时会出现out of memory的错误，且速度很慢，一秒也就能输出大概几个词。开启后速度就很快，也节省显存。

效果测试

前一段时间在搞目标检测相关的小模型，所以就顺手拿了几张图片看看qwen识别的怎么样，过程如下：

问题：

请把这张图片里所有“车辆”用一个列表返回，格式统一为[{“bbox”: [x1,y1,x2,y2], “category”: “vehicle/bus/van/truck”}, …]坐标必须是整数像素，不要有任何解释，只要 JSON 列表。

qwen2.5-vl效果：

如下图，我把识别结果渲染在了图片中，可以看到图片中共有5辆车，识别出了2辆，且bbox的准确性还是可以的。5辆车中有2辆在远方，确实有些难度。
在这里插入图片描述
问题：

请把这张图片里所有“行人”用一个列表返回，格式统一为[{“bbox”: [x1,y1,x2,y2], “category”: “pedestrain”}, …]坐标必须是整数像素，不要有任何解释，只要 JSON 列表。

qwen2.5-vl效果：

在这里插入图片描述

查看全文

http://www.dtcms.com/a/399394.html

如何做好一个网站深圳网站和app建设

Linux进程概念（1）

w32time 服务

视频解析网站怎么做的wordpress阿里云卡死了

审美积累，顶刊论文插图原理图、流程图

网站开发上市公司做彩票网站犯法不

python+django/flask在线问诊系统医院就诊医生推荐系统

【Qt】QButtonGroup、QToolButton、QStackedWidget的常用用法

QT：串口通信、串口发送与接收（2）

【Unity 入门教程】一、前置工作

北京网站建设公司空间续费北京建设工程施工司法解释

需求收集不完整的常见原因有哪些

论坛网站备案开发者选项在哪里打开vivo

谈谈数组和链表的时间复杂度

ServletContex读取properties文件，中文乱码

todesk取消客户端开机自动启动后，开机仍然会启动客户端，怎么设置？

C++编程学习（第36天）

如何快速处理电脑上常常遇到的各种小问题？

卷积神经网络（CNN）的LeNet模型

佛山网站外包什么是网站推广方案

合肥门户网站制作建设佛山cms建站

Linux命令大全-usermod命令

Linux网络HTTP协议（上）

开源 java android app 开发（十四）自定义绘图控件--波形图

umijs 4.0学习 - umijs 的项目搭建+自动化eslint保存+项目结构

汇天网络科技有限公司苏州关键词优化软件

制冷剂中表压对应温度值的获取（Selenium）

建什么网站访问量高seo优化

小型网站建设参考文献word超链接网站怎样做

可视化 GraphRAG 构建的知识图谱空谈版

环境安装

效果测试

相关文章：