当前位置：首页 > news >正文

Python 将 HTML 转换为纯文本 TXT （HTML 文本提取）

news 2025/9/27 6:40:12

1. 引言

在数据处理、内容提取、网页归档等任务中，经常需要将 HTML 转换为纯文本 TXT。常见需求包括去除 HTML 标签，保留文本内容，保留段落、列表等基本结构。

本文将介绍如何用 Python 和 Free Spire.Doc 库完成 HTML 到 TXT 的转换。

2. 转换原理

HTML 转 TXT 的本质是解析 HTML 文档对象模型（DOM），提取其中的文本节点，再按需要的格式输出。
常用方法有两类：

纯解析器（如 BeautifulSoup、lxml）：快速、轻量，但需要自己处理换行和缩进。
文档模型类库（如 Free Spire.Doc）：加载 HTML 到文档对象，再导出为 TXT，结构保留更好。

3. 环境准备

安装 Free Spire.Doc for Python：

pip install Spire.Doc.free

注意点击查看免费版的限制

4. 基本实现

4.1 HTML 文件 → TXT 文件

下面是一个将 HTML 文件转换为 TXT 文本的简单示例：

from spire.doc import *
from spire.doc.common import *# 加载HTML文件
document = Document()
document.LoadFromFile("E:\input.html", FileFormat.Html, XHTMLValidationType.none)# 另存为TXT文件
document.SaveToFile("Html文件转TXT.txt", FileFormat.Txt)
document.Close()

核心代码：

LoadFromFile()：加载 HTML 文件。FileFormat.Html 表示文件格式为 HTML。
SaveToFile()：将文档保存为 TXT 格式。FileFormat.Txt 表示保存为纯文本。

输出结果：
HTML文件转文本

4.2 HTML 字符串 → TXT 文件

若 HTML 内容已在内存中（如接口返回、爬虫抓取结果），可使用该方法：

from spire.doc import *
from spire.doc.common import *# 指定HTML字符串
sample_html = """
<html>
<head><title>示例页面</title></head>
<body><h1>欢迎来到我的网站</h1><p>这是一个段落文本。</p><ul><li>项目1</li><li>项目2</li><li>项目3</li></ul>
</body>
</html>
"""# 创建文档
document = Document()
# 在段落中插入字符串
section = document.AddSection()
section.AddParagraph().AppendHTML(sample_html)# 另存为TXT
document.SaveToFile("Html字符串转TXT.txt", FileFormat.Txt)
document.Close()

输出结果：
HTML字符串转文本

5. 注意事项

格式保留：转换后的 TXT 会保留 HTML 的段落结构（换行、列表等），但不保留颜色、字体等样式。
性能：对于超大型 HTML 文件，建议分段处理以避免内存占用过高。
复杂 HTML：对于包含大量 JavaScript、CSS 或复杂布局的 HTML，建议先用对文件进行预处理再转换。

使用 Free Spire.Doc for Python 转换 HTML 到 TXT 非常方便，只需几行代码即可完成，并且能够较好地保留原有的文本结构。相比正则表达式或简单的标签剥离方法，这种方式更稳定可靠。

该免费库还支持将HTML导出为Word、PDF、图片等，具体示例可参考中文教程。

http://www.dtcms.com/a/410298.html

相关文章：

glibc pthread_mutex_lock/unlock futex 互斥锁的实现

做网站怎么做小图标百度怎么精准搜索

ASP.NET Razor VB 变量

Linux系统之----POSIX信号量

让人做网站需要准备什么软件查看网站dns服务器

LangChain第三页【操作指南】_【如何缓存对话模型响应】翻译完成

移动硬盘上的文件消失了？以下是Mac电脑解决方法

AWS Route 53 详解：不只是 DNS，还能做智能流量调度

AWS EKS + Karpenter Spot实例优化实践指南

docker和k3s安装kafka，go语言发送和接收kafka消息

GraphRAG（知识图谱结合大模型）对人工智能中自然语言处理的深层语义分析的影响与启示

石化建设分会网站广州市城市建设档案馆网站

建网站是自己做还是用CMS邢台做网站咨询

MySQL GTID一致性错误全解析：从连接池复用到完美解决方案

PostgreSQL表备份并重命名出现索引、外键仍指向旧表，恢复后仍失败的问题

【生态再升级】IvorySQL 4.5 与银河麒麟高级服务器操作系统V11完成适配认证！

智慧团建系统官方网站登录网站制作呼和浩特

个体商户建自己的网站做销售小广告怎么能弄干净

设计模式(C++)详解——迭代器模式(2)

perl踩坑系列=====正则表达式捕获

MQ-2烟雾传感器详解——从工作原理到实际应用

Ubuntu启动终端时默认窗口最大化

整站seo排名郑州经济技术开发区政务服务中心

求一些做里番的网站php网站建设实训引言

嵌入用户idea到大模型并针对Verilog语言生成任务的微调实验报告

【AI算力系统设计分析】1000PetaOps 算力云计算系统设计方案（大模型训练推理专项版）

JAVA露营基地预约户外露营预约下单系统小程序

✨WPF编程基础【1.2】：XAML中的属性

【MySQL】性能优化与核心机制深度解析

珠海网站建设和推广网站建设服务方案ppt模板下载