如何基于Deepseek进行文本章节结构恢复
在人工智能时代,处理文本已经是一项基本的技能。
大部分能力较强的模型如Deepseek V3,已能有效的清洗和结构化输入文本。
这里通过处理段落和章节结构被清除的输入文档,尝试通过Deepseek,恢复出原始的文档结构。
1 章节结构
首先,输入结构被破坏的文档,尝试通过deepseek识别出文档的章节结构,prompt示例如下。
input_corrupted_text为段落和章节结构被破坏的文本。
输出为LLM恢复后的文章结构,定义为recovered_chapter_structrue。
"""以下文本是一篇被清除段落、章节结构的文章。
请尝试整理并输出原始文章的章节、段落结构。要求:
1 恢复段落结构
2 恢复章节结构
3 采用md格式输出输入如下:
{input_corrupted_text}
输出示例:```markdown
# 海南xxx地区生物多样性研究## 摘要
xxxxxx
## 第一部分 生物
### 1. 定义与解释
#### 1.1 植物篇
(定义内容略,详见原文)
#### 1.2 动物篇
本文....(定义内容略,详见原文)---
...
---
```"""
2 重构文档
依据恢复的章节结构,重构文档的章节内容,prompt示例如下。
input_corrupted_text为段落和章节结构被破坏的文本。
恢复后的文章结构,定义为recovered_chapter_structrue
输出为指定章节的段落内容。
"""以下文本是一篇被清除段落、章节结构标志的文章。
输入如下:
{input_corrupted_text}恢复后章节结构如下:
{recovered_chapter_structrue}请输出以下被忽略的章节原文。
### 子章节5
(子章节5内容忽略,具体请参考原文。)"""
reference
---
deepseek
https://chat.deepseek.com/