当前位置: 首页 > news >正文

基于deepseek的文本解析 - 超长文本的md结构化

pdf超长合同或其他超100页非结构化文档,很难全量提交deepseek进行分析,一般需要先进行分割。然而,不管是langchain还是llamaindex提供的文本分割工具,很难直接对非结构化文本进行准确的内容分割,很多原始整体段落被划分在不同的分块中。

这里尝试基于deepseek,将pdf解析后的非结构化文本转化为结构化的md,以支持langchain或llamaindex进行更有效的向量化文档分块,避免原始整体段落被划分在不同的分块中。

1 解析prompt示例

以下是prompt实例,每次连续读若干页进行解析,确保prompt输入在deepseek max_tokens范围内。为了保持连续性,本次解析的内容和上次解析的内容保持一页重合。如此,对于连续多页待解析块的内容,其第一页已在上次完成解析,相关内容已经合并到md文档中。

already_parsed为之前已经完成解析的结构化md文档。

waiting_parsed为本次待解析的非结构化文本文档。

你是企业运营人员。
以下是已经解析归并后的合同md文件。

{already_parsed}

以下是合同连续多页内容,第一页已经被解析并合并到以上md文件中。
请仔细阅读以上内容,将没有被解析的内容合并到md文件中。
---

{waiting_parsed}

2 deepseek迭代解析

deepseek完成本次解析后,将deepseek解析生成的结构化md作为already_parsed输入,将下次待解析非结构化的若干页文档作为waiting_parsed输入。

如此重复多次,直到完成整个非结构化文档的解析。

最终输出的md文档即为结构化的md文档。

reference

---

deepseek r1 chat

https://chat.deepseek.com/

RAG向量化文档分块方式探索

https://blog.csdn.net/liliang199/article/details/149798215

http://www.dtcms.com/a/308910.html

相关文章:

  • AD域设计与管理-域策略-进阶
  • logging格式化输出日志asctime等详解
  • YOLOv13 汉化优化部署版本:超图增强自适应视觉感知的目标检测系统
  • 人工智能概念之十一:常见的激活函数与参数初始化
  • Python Day20 os模块 和 文件操作 及 例题分析
  • 【源力觉醒 创作者计划】对比与实践:基于文心大模型 4.5 的 Ollama+CherryStudio 知识库搭建教程
  • 免费数据恢复软件推荐:Wise Data Recovery 6.2.0 激活版使用指南
  • 2025年人形机器人动捕技术研讨会将在本周四召开
  • ESP32 外设驱动开发指南 (ESP-IDF框架)——GPIO篇:基础配置、外部中断与PWM(LEDC模块)应用
  • 深入理解 Slab / Buddy 分配器与 MMU 映射机制
  • React 路由守卫
  • 构型空间(Configuration Space,简称C-space)
  • 【计算机组成原理】第二章:数据的表示和运算(上)
  • Linux 系统管理-13-系统负载监控
  • 向日葵 远程控制软件下载及安装教程!
  • spring cloud ——gateway网关
  • 解决提示词痛点:用AI智能体自动检测矛盾、优化格式的完整方案
  • 数据结构:多项式求值(polynomial evaluation)
  • 【支持Ubuntu22】Ambari3.0.0+Bigtop3.2.0——Step5—Nginx安装
  • 20250731在荣品的PRO-RK3566开发板的Android13下解决敦泰的FT8206触控芯片的只有4点触控功能
  • Redis过期策略
  • Apache RocketMQ 中 Topic 的概念、属性、行为约束和最佳实践
  • Docker 初学者需要了解的几个知识点 (五):建容器需要进一步了解的概念
  • 【生活系列】MBTI探索 16 种性格类型
  • C++入门自学Day3-- c++类与对象(赋值运算符与拷贝构造)
  • 【Linux】虚拟地址空间
  • 智能图书馆管理系统开发实战系列(三):前端工程化实践 - Electron + React + TypeScript
  • docker运行时目录/var/lib/docker 学习
  • 面试笔记【16:9区域问题】
  • diffusion原理和代码延伸笔记1——扩散桥,GOUB,UniDB