当前位置: 首页 > news >正文

Dify实现超长文档分割与大模型处理(流程简单,1.6版本亲测有效)

前言

起因是需要参考几十本英文标准协议对某个方案书中的参数进行更新。英文标准协议随便几千页,方案书也有五百多页,这活当然不能给人干,但直接扔给大模型多少也有点耗费人力,想直接做成自动处理的工作流。因为方案书篇幅大,自然需要考虑如何分割文档进行分段处理

过程

  • 因为只是为了自己做个记录,画得很粗糙而且比较简单就不多解释了,有问题评论。
  • 2000字为分割步长,中间留有500字重叠,便于逻辑连接,参数可调。
  • LLM的prompt自定。
    框架

循环参数
变量赋值
代码执行

def main(s, doc) -> dict:step = 2000cross = 500if s==1:chapter = doc[0][1:s*step]else:chapter = doc[0][(s-1)*step-cross:s*step]return {"result": chapter,}

LLM
回复

结果

  • 手头没啥文件,看着来吧哈哈哈
    在这里插入图片描述
http://www.dtcms.com/a/341326.html

相关文章:

  • AI线索收集技术实战指南
  • 解决移植到别的地方的linux虚拟机系统不能的使用固定IP的桥接网络上网进行ssh连接
  • 单片机驱动继电器接口
  • JavaScript中的函数parseInt(string, radix)解析
  • 【java面试day16】mysql-覆盖索引
  • 三分钟速通SSH登录
  • 1.Shell脚本修炼手册之---为什么要学Shell编程?
  • MySQL高阶篇-数据库优化
  • [GraphRag]完全自动化处理任何文档为向量知识图谱:AbutionGraph如何让知识自动“活”起来?
  • ​​pytest+yaml+allure接口自动化测试框架
  • STM32F4 SDIO介绍及应用
  • DNS 深度解析:从域名导航到客户端访问全流程
  • AI 与加密监管思维的转变:从美联储谈到开发者视角
  • Cobbler 自动化部署服务介绍与部署指南
  • SpringBoot集成WebService
  • BioScientist Agent:用于药物重定位和作用机制解析的知识图谱增强型 LLM 生物医学代理技术报告
  • docker CI操作演示分享(第四期)
  • Fastdata极数:中国外卖行业趋势报告2025
  • 网络流量分析——基础知识
  • [特殊字符] 从文件到视频:日常数据修复全攻略
  • 奇怪的“bug”--数据库的“隐式转换”行为
  • Kafka如何保证消费确认与顺序消费?
  • Torch -- 卷积学习day4 -- 完整项目流程
  • python numpy.random的基础教程(附opencv 图片转数组、数组转图片)
  • 3D max制作蝴蝶结详细步骤(新手可跟)♥️
  • 制造业原料仓储混乱?WMS 系统实现物料精准溯源,生产更顺畅_
  • 深度剖析Lua Table的运作方式
  • 透传 Attributes(详细解析)1
  • 服务器内存使用buff/cache的原理
  • Linux-----《Linux系统管理速通:界面切换、远程连接、目录权限与用户管理一网打尽》