当前位置: 首页 > news >正文

86-dify案例分享-Qwen3-VL+Dify:从作业 OCR 到视频字幕,多模态识别工作流一步教,附体验链接

1.前言

2025 年 9 月 24 日云栖大会,阿里巴巴正式开源新一代视觉理解模型 Qwen3-VL。随后在 2025 年 10 月 4 日同步发布了 Qwen3-VL-30B-A3B-Instruct 版本,下面是这个模型的特点。

img

模型规格这块具有如下特点:

img

应用场景这块如下四个方向:

img

之前给大家介绍过关于Qwen3-VL的测评介绍。Qwen 3-VL 实测:从图片生代码到视频提字幕,这个多模态模型有多能打?

本期视频给大家做了一个dify工作流,通过该工作流和识别OCR文档识别功能,以及可以实现视频内容的分析和理解。

工作流截图如下:

img

下面简单带大家使用dify工作流介绍一下OCR文档识别功能,以及可以实现视频内容的分析和理解功能介绍。

2.Qwen3-VL测评

OCR文档提取

刚好遇到放假,老师在群里面发了一堆图片、PDF文件等材料信息,我们就拿这个材料信息使用这个模型来识别。

img

上面是一个国庆节假期作业清单,我们使用这个dify工作流来识别一下。

提示词

请帮我识别这个照片里面的信息,100%识别并输出,只需要提取信息,其他信息不需要。

img

img

OK 这样一个手抄作业本就通过简单OCR识别提取出来了。方便我们打印(去除手写部分信息)

发票提取

接下来我们在找一张发票,让它提取发票票面信息。

原发票票面信息

增值税电子普通发票3

我的提示词

请提取这张照片的内容,其中内容格式‘机器编号’、‘发票代码’、‘发票号码’、‘开票日期’、‘校 验 码’、‘购买方名称’、‘购买方纳税人识别号’、‘购买方地 址、电 话’、‘开户行及账号’、‘货物或应税劳务、服务名称’、‘规格型号’、‘单 位’、‘数 量’、‘单 价’、‘金 额’、‘税率’、‘税 额’、‘价税合计(大写)’、‘价税合计(小写)’、‘销售方名称’、‘销售方纳税人识别号’、‘销售方地 址、电 话’、‘销售方地 址、电 话’、‘开户行及账号’、‘备注’、‘收款人’、‘复核’、‘开票人’ 字段返回信息,返回的结果信息以json格式返回

dify返回信息

img

也是非常轻松的100%识别发票的票面信息。我记得去年使用qwen2.5-vl-72b多模态模型这个发票还不能做到100%的识别。

视频提取

接下来我们上传一个视频,让它识别出视频的内容。这个我们在平时会用到,比如上传一个音视频笔记,让他总结一下音视频里面的内容,这样我们就可以节约很多时间了。只需要了解视频的精华部分的信息即可。大大提供我们学习和工作的效率。

img

我这里给它上传一个我1月份做的一个AI生成的短视频,让它识别里面的内容。

提示词如下:

请帮我识别视频里面有什么内容?

img

img

视频提取字幕

接下来我们上传一个视频需要提取这个视频里面的字幕信息,这个也是非常实用的。在短视频制作这块我们有时候需要别人的视频字幕,但是原始字幕文件srt没有,这个时候我们就可以借助qwen3-vl 多模态模型来提取视频里面字幕文件。

视频信息

img

提示词如下:

请提取视频里面的字幕文件,将字幕文件输出带有时间戳格式的srt格式文件

img

img

上面显示提取了带有时间戳格式的srt格式文件,当然后面如果想把这个字幕文件直接保存srt格式文件 也是可以的可以借助第三方工具在把文本内容转成.txt格式文件提供下载(感兴趣的小伙伴可以在我上面提供工作流上扩展)

3 工作流制作

那么这个工作流是如何制作的呢?下面给大家介绍这个工作流是如何制作的。

开始

开始节点中我们设置2个参数,一个是file 文件。1个是type 类型。

其中文件配置信息如下:

img

另外的type类型我们这里设置下拉选项1个支持 文件、图片 2 视频

img

img

条件分支

这个条件分支主要是通过用户输入的文件类型调用不同的接口。

img

因为这条件就是2个 视频和文件,所以视频type 我们设置视频。这样选择视频的就走上面的接口。剩下走下面的接口。

http请求

这个 http请求有2个其中区别在于接口请求地址和参数的不同。

视频接口请求地址http://14.103.204.132:8005/v1/video/upload_and_chat

文件接口请求地址http://14.103.204.132:8005/v1/image/upload_and_chat

其中我们服务端接口做了一个鉴权,增加了一个密码校验。我们可以在env环境变量设置。

img

img

我们定义一个apikey 的参考,这里的值是我自定义的一个APIkey。这块服务端定义,关于这个值服务端后面会讲到。大家可以关注我下期文章,计划下篇文章讲到服务端代码部署和配置,这块我们会提到如何设置。

http请求配置截图如下:

img

这里我们对body 请求这块做一下解释。请求body 有5个参数。

1.video 用户上传的视频文件。注意文件类型是file .

2.model 这个是接口请求的模型,这块我们用到多模态模型,所以值就写成qwen3-vl-plus

3.prompt 提示词,用户输入的提示词,我们这里用sys.query作为参数

4.stream 是否是流式输出。我们这里设置false

5.enable_thinking 是否思考模式输出。我们这里设置false

关于文件、图片http请求和上面的类似,我们贴一下不一样的地方。

img

这里我们对body 请求这块做一下解释。请求body 有5个参数。(和上面的类似)

1.image用户上传的文件(支持图片、word 、txt、pdf等)。注意文件类型是file .

2.model 这个是接口请求的模型,这块我们用到多模态模型,所以值就写成qwen3-vl-plus

3.prompt 提示词,用户输入的提示词,我们这里用sys.query作为参数

4.stream 是否是流式输出。我们这里设置false

5.enable_thinking 是否思考模式输出。我们这里设置false

代码执行

这个代码执行主要的目的是http请求时候对返回的body response进行出来。请求参数arg1 ,值是body string

处理代码如下:

def main(arg1: str) -> str:import jsondata = json.loads(arg1)content = data['choices'][0]['message']['content']return {"result": content}

代码处理返回输入变量result,返回值string

img

直接回复

这个直接回复就比较简单了,主要就是代理输出返回的result 输出。

img

通过以上步骤我们就完成了dify 工作流的制作。

4.常见问题和体验地址

上面提到http请求是一个服务端接口,这个服务端接口只要是调用https://chat.qwen.ai 来实现的。由于时间关系今天就不详细介绍这块内容了。

由于使用到了视频上传,dify这里需要做一下设置。主要是http请求的超时时间和文件大小配置。目前搭建的服务器资源有限,对文件和视频超过10M以上的可能会出现超时返回错误的问题。大家可以找一个好的服务器或者本地部署这个服务。

超时问题可以在看开源项目https://github.com/wwwzhouhui/dify-for-dsl

img

http请求节点超时时间及请求体大小限制的配置调整

修改docker-compose.yaml

image-20250409115803027

对应的源码

img

另外项目的体验地址

工作流地址:https://dify.duckcloud.fun/chat/YpsknRodEo2voi4b备用地址(http://14.103.204.132/chat/YpsknRodEo2voi4b)

5.总结

今天主要带大家了解并实现了基于 Dify 工作流构建 Qwen3-VL 多模态处理工具的完整流程,该流程以阿里巴巴开源的 Qwen3-VL 模型为核心,结合 Dify 工作流的可视化编排优势与自定义服务端接口的支持,形成了一套从图片、文档到视频内容的识别与分析解决方案,涵盖 OCR 文档提取、发票信息识别、视频内容分析及字幕提取等实用功能。

感兴趣的小伙伴可以通过文中提供的 Dify 工作流体验地址直接试用,也可以参考工作流配置进行自定义扩展开发。今天的分享就到这里结束了,我们下一篇文章见。

http://www.dtcms.com/a/446201.html

相关文章:

  • [ClaudeCode指北] Windows 本地 MCP 服务器配置与管理指南
  • 【LeetCode热题100(34/100)】合并 K 个升序链表
  • 怎么建设网站数据库广告营销策略分析
  • 英文网站营销邢台论坛网
  • 【第十六周】自然语言处理的学习笔记01
  • 企业logo设计报价wordpress终极优化
  • 进程与线程的区别和适用场景
  • 泉州微信网站开发公司微信官网手机版
  • LVGL 开发指南:从入门到精通的嵌入式 GUI 实战心法
  • Spring——事务的传播性
  • 【优化】Mysql指定索引查询或忽略某个索引
  • 网站伪静态steam交易链接可以随便给别人吗
  • 日语学习-日语知识点小记-进阶-JLPT-N1阶段应用练习(5):语法 +考え方18+2022年7月N1
  • Postman-win64-8.6.2-Setup安装教程(附详细步骤,Win64版Postman下载安装指南)
  • 关于软错误的常见问题解答
  • LLM 只会生成文本?用 ReAct 模式手搓一个简易 Claude Code Agent
  • 如果给公司做网站深圳网站建设费用大概
  • 【开题答辩全过程】以 Python在浙江省人口流动数据分析与城市规划建议的应用为例,包含答辩的问题和答案
  • InputReader与InputDispatcher关系 - android-15.0.0_r23
  • 基于Android Framework的C/C++开发实战
  • 个人主页网站制作教程营销策划的六个步骤
  • 第7章树和二叉树:二叉树的定义和性质
  • 网站建设首选玖艺建站信得过wordpress企业主题下载
  • TDengine 比较函数 IFNULL 用户手册
  • 【2026计算机毕业设计】基于jsp的毕业论文管理系统
  • 最小二乘问题详解3:线性最小二乘实例
  • OneData:数据驱动与AI落地的统一数据底座方法论——从规范到实践的全链路拆解
  • 与众不同的网站wordpress内容批量替换
  • 自己做网站要买什么微信制作网站设计
  • 笔记·线性回归(属于监督学习)