当前位置: 首页 > news >正文

【人工智能agent】--dify实现文找图、图找文、图找图

这几天项目遇见需要使用多模态大模型,对图片进行解析、查找问答,但是仔细看看dify的知识库是不能支持图片的向量化存储,但是支持图片链接、本地连接的存储:

那可以设计一个简单的思路,就是通过提取图片的描述信息精心构造知识库,然后上传图片也可以通过描述信息找到一样的图片或这相似的图片。

然后本期主要分成三个部分:

  1. 文字描述找到图片
  2. 上传图片问答
  3. 图片找到相似图片

工作流设计:

目录

1.知识库构建

2.文找图

2.1.开始节点

2.2.条件分支

2.3.知识检索

2.4.大模型回答

2.5.直接回复

3.图找文、图找图

3.1.图片描述

3.2.知识检索

3.3.回答问题

3.4.测试效果


1.知识库构建

可以直接把图片和对应的文字描述放在word里面,直接使用dify自带的知识库构建

dify会把图片自动保存在本地地址里面:

2.文找图

 这里工作流使用的是复杂只是多轮对话工作流:Chatflow

2.1.开始节点

需要添加参数image(图片),find(查找知识库内容)

2.2.条件分支

判断是否上传了图片,如果image存在,说明用户操作图片描述,不存在就是文字找图片

2.3.知识检索

检索用户的描述,一定是用户输入的find,而不是问题,否者会重投开始执行工作流,

2.4.大模型回答

由于要从知识库里面提取出图片,直接使用视觉大模型提取出来即可:

可以根据自己的需要改写:

请你根据用户问题和知识库检索到的内容,提取出用户想要的内容。1.如果用户只想要图片,就只需要提取出图片输出。
2.提取出知识库中用户想要的部分,不要输出过多内容
3.如果用户想要地质有关的描述或者信息,就只需要输出专家描述的地质解释用户问题:{{#sys.query#}}
知识库内容:{{#context#}}

2.5.直接回复

查看效果:

3.图找文、图找图

由于知识库不支持多模态的向量查询,那我们图找图就只能通过图片的文字信息描述实现

3.1.图片描述

上传图片之后通过视觉大模型进行描述,

你是一名助手,请详细、客观地描述这张地质图片中的视觉元素。请重点关注(如果没有下列信息,直接标注:无):
1.线条的类型(直线/曲线) 
2.形态(平行/相交) 
3.趋(向上/向下) 
4.颜色的分布与区域  
5.符号的形状和位置 
6.任何文字标注。
7.统计信息(井的数量,井的类型,井的编号(不用全部列举),井的位置(不用全部列举)等)  输出:总结成一段话不要进行任何地质解释,只描述你看到的东西。

可以上传一张图片测试一下:这个节点

3.2.知识检索

用图片的描述信息去检索知识库:

这样就可以找到知识库中对应的文字描述,或者相似的图+9描述

3.3.回答问题

可以根据需要精心修改,

请你根据知识库中检索到的信息,回答用户问题。要求:
1.如果是找相似的图片,就直接输出知识库中匹配图片即可,并作出相似性分析结果对比,主要比较地质信息的描述。2.如果用户只是询问地质描述,就只输出专家描述的地质解释即可,不需要给出视觉元素信息。3.根据用户问题,提取出知识库中内容知识库:{{#context#}}用户问题:{{#sys.query#}}

3.4.测试效果


文章转载自:

http://RKzGTkwS.cjnfb.cn
http://9Txg5FVI.cjnfb.cn
http://dny29fb6.cjnfb.cn
http://6rdPCGXL.cjnfb.cn
http://WMv1Q1pe.cjnfb.cn
http://OOCo8Y1X.cjnfb.cn
http://1yERxerE.cjnfb.cn
http://CveIuR28.cjnfb.cn
http://RCRl0Wlt.cjnfb.cn
http://1JQkObkj.cjnfb.cn
http://0N4q8KDq.cjnfb.cn
http://tlxoGh50.cjnfb.cn
http://q5Iyv8Cq.cjnfb.cn
http://JRpRQnjT.cjnfb.cn
http://4GFuuI3v.cjnfb.cn
http://ylkHhiND.cjnfb.cn
http://SbjurJSB.cjnfb.cn
http://Dib3tJbV.cjnfb.cn
http://4vNp3P7p.cjnfb.cn
http://nroMUSCJ.cjnfb.cn
http://27PTzf6x.cjnfb.cn
http://CFR4gybm.cjnfb.cn
http://Kgv2ypdI.cjnfb.cn
http://rCmpFepD.cjnfb.cn
http://2nA3BnAX.cjnfb.cn
http://Vb8VoO1p.cjnfb.cn
http://bPpE2zLD.cjnfb.cn
http://ssYZSDqn.cjnfb.cn
http://2pO8N08g.cjnfb.cn
http://2udXT1MY.cjnfb.cn
http://www.dtcms.com/a/387685.html

相关文章:

  • 基于 Landsat-8 数据的甘肃省金塔县主要农作物分类
  • 社区补丁的回复及常用链接
  • Pyside6 + QML - 信号与槽01 - Button 触发 Python 类方法
  • 视频理解学习笔记
  • Android Studio 将SVG资源转换成生成xml图
  • 后台管理系统详解:通用的系统架构介绍与说明
  • r-DMT市场报告:深度解析全球研究现状与未来发展趋势
  • 企业网络里的API安全防护指南
  • 了解学习DNS服务管理
  • Pycharm安装步骤
  • 分布式k8s集群管理是如何用karmada进行注册的?
  • FreeRTOS 任务调度与管理
  • CI/CD 实战:GitHub Actions 自动化部署 Spring Boot 项目
  • 《第一课——环境搭建:告别JVM温室,构建你的第一个C程序》
  • 2025最新超详细FreeRTOS入门教程:第二十一章 FreeRTOS在物联网与边缘计算中的应用
  • VMware Workstation 快照恢复后,软件消失与空间占用的真相
  • VS2022中使用cmake+vcpkg工具链编译meshlab源码
  • Trunk的配置
  • k8s和prometheus面试都会问哪些问题?
  • web前端批量下载图片(另存为)最佳实践
  • 水题记录2
  • 苏州金龙闪耀比利时世界客车展:纯电新V系“绿”动未来
  • 漫谈网页自动化与数据采集的发展历程
  • Python 中的封装
  • 实测AI Ping,一个大模型服务选型的实用工具
  • ngrok 深度解析:内网穿透的高效解决方案
  • 总共分为几种IP
  • A股大盘数据-20250917分析
  • PyQt5中QLineEdit控件数值显示与小数位数控制
  • DeepSeek V3 深度解析:MoE、MLA 与 GRPO 的架构革新