当前位置: 首页 > news >正文

qwen2.5-vl多模态大模型详解

本文已经发表在知乎,辛苦移步~ 《qwen2.5-vl多模态大模型详解》

最近详细的学习了一下qwen2.5-vl国产多模态大模型,笔记如下。

在本文中主要关注数据层面是如何一步一步处理的,也会把一些关键的数据tensor列出来。至于原理层面的介绍,可以参考:万字长文图解Qwen2.5-VL实现细节,【多模态大模型】Qwen2.5-VL解剖 这两篇文章。

环境安装

官方readme中关于环境安装方面的信息不多,可参考:Qwen2.5-VL部署详细记录-CSDN博客,里面遇到的问题确实都会遇到。本文使用的是Qwen2.5-VL-7B-Instruct模型。

另外,建议安装flash-attn,因为我这边3090显卡24G显存在不安装flash-attn时,会话过长时会出现out of memory的错误,且速度很慢,一秒也就能输出大概几个词。开启后速度就很快,也节省显存。

效果测试

前一段时间在搞目标检测相关的小模型,所以就顺手拿了几张图片看看qwen识别的怎么样,过程如下:

问题:

请把这张图片里所有“车辆”用一个列表返回,格式统一为[{“bbox”: [x1,y1,x2,y2], “category”: “vehicle/bus/van/truck”}, …]坐标必须是整数像素,不要有任何解释,只要 JSON 列表。

qwen2.5-vl效果:

如下图,我把识别结果渲染在了图片中,可以看到图片中共有5辆车,识别出了2辆,且bbox的准确性还是可以的。5辆车中有2辆在远方,确实有些难度。
在这里插入图片描述
问题:

请把这张图片里所有“行人”用一个列表返回,格式统一为[{“bbox”: [x1,y1,x2,y2], “category”: “pedestrain”}, …]坐标必须是整数像素,不要有任何解释,只要 JSON 列表。

qwen2.5-vl效果:

在这里插入图片描述

http://www.dtcms.com/a/399394.html

相关文章:

  • 如何做好一个网站深圳网站和app建设
  • Linux进程概念(1)
  • w32time 服务
  • 视频解析网站怎么做的wordpress阿里云卡死了
  • 审美积累,顶刊论文插图原理图、流程图
  • 网站开发上市公司做彩票网站犯法不
  • python+django/flask在线问诊系统 医院就诊 医生推荐系统
  • 【Qt】QButtonGroup、QToolButton、QStackedWidget的常用用法
  • QT:串口通信、串口发送与接收(2)
  • 【Unity 入门教程】一、前置工作
  • 北京网站建设公司空间续费北京建设工程施工司法解释
  • 需求收集不完整的常见原因有哪些
  • 论坛网站备案开发者选项在哪里打开vivo
  • 谈谈数组和链表的时间复杂度
  • ServletContex读取properties文件,中文乱码
  • todesk取消客户端开机自动启动后,开机仍然会启动客户端,怎么设置?
  • C++编程学习(第36天)
  • 如何快速处理电脑上常常遇到的各种小问题?
  • 卷积神经网络(CNN)的LeNet模型
  • 佛山网站外包什么是网站推广方案
  • 合肥门户网站制作建设佛山cms建站
  • Linux命令大全-usermod命令
  • Linux网络HTTP协议(上)
  • 开源 java android app 开发(十四)自定义绘图控件--波形图
  • umijs 4.0学习 - umijs 的项目搭建+自动化eslint保存+项目结构
  • 汇天网络科技有限公司苏州关键词优化软件
  • 制冷剂中表压对应温度值的获取(Selenium)
  • 建什么网站访问量高seo优化
  • 小型网站建设参考文献word超链接网站怎样做
  • 可视化 GraphRAG 构建的知识图谱 空谈版