当前位置: 首页 > news >正文

Dify智能体平台源码二次开发笔记(7) - 优化知识库pdf识别(2)

目录

前言

设计方案

代码具体优化


前言


补充前篇的一些优化。
场景是识别pdf文档,但还需要把pdf文档中的图片也保存下来,在知识库增强检索的时候,直接可以显示图片。

设计方案


1、保存知识库中的图片
2、存入我们的文件服务器中,比如minio
3、名称规则为:image_files/年/月/日/文件
4、在知识库中用[Image 图片路径]
5、在前端知识库增强检索中,根据这个默认替换成图片可以访问的方法


代码具体优化

主要在上一篇的基础上,添加这一段代码

images = page.imagesif images:image_text = ""for i, img in enumerate(images):# Generate a unique filename for the imageimage_filename = f"image_files/{datetime.now().strftime('%Y/%m/%d')}/{uuid.uuid4()}_{page_number}_{i}.png"# Save image to storageimage_bytes = io.BytesIO(img['stream'].get_data())storage.save(image_filename, image_bytes.getvalue())# Create a File object to get the signed URLimage_text += f"[Image {image_filename}] "content += image_text

相关文章:

  • 小刚说C语言刷题——1020 算算和是多少
  • 半导体制造如何数字化转型
  • 158页PPT | 某大型研发制造集团信息化IT规划整体方案
  • 电脑一直不关机会怎么样?电脑长时间不关机的影响
  • 解释原型链的概念,并说明`Object.prototype.__proto__`的值是什么?
  • C#核心(24)结构体和类的区别,抽象类和接口的区别(面试常问)
  • LRU算法
  • 智能超表面通信控制板--通道电压并行控制版
  • 【网络入侵检测】Suricata之数据包内容匹配
  • ABAP_报表权限校验_拿来即用
  • Excel表格转Json格式
  • springboot启动动态定时任务
  • GTX 不同复位之间的区别
  • LeetCode-16.最接近的三数之和 C++实现
  • 保姆级教程:RK3588部署yolo目标检测模型
  • HarmontOS-ArkUI V2状态 !!语法糖 双向绑定
  • AI(人工智能)学习中的主要分类及其详细说明
  • Python异常处理全面指南
  • Spring Batch 专题系列(七):Spring Batch 与数据库集成
  • Apipost,前端后端测试都在用的接口设计调试工具
  • 安徽建设厅网站/口碑营销案例2022
  • 网页微信版文件传输助手/开源seo软件
  • 网站案例响应式/淘宝美工培训
  • 个人作品网站策划书/百度搜索风云榜明星
  • wordpress调试/seo网页推广
  • 114网站做推广怎么样/太原百度快速排名提升