当前位置: 首页 > news >正文

【pandoc实践】如何将wordpress文章批量导出为Markdown格式

如何将wordpress文章批量导出为Markdown格式,这里建议用pandoc这个工具,之前的文章里有简单描述使用说明:

关于如何安装和使用在这里就不做过度赘述。

首先需要在wp后台将文章进行导出,从【工具】-【文章】实现:

img

因为下载的是xml格式,需要转换格式,这里就需要【pandoc】这个软件,按之前的教程安装即可:

首先需要使用管理员打开PowerShell,可以使用命令查看是否安装成功:

img

然后查找至自己刚刚下载的文章路径,这里我的路径是 cd C:\Users\杨东旭\Documents\MD文档\文章复制

cd [自己的文章.xml文件路径]

可以通过命令,将xml直接转换为markdown:

pandoc -f docbook -t markdown -o output.md WordPress.2025-07-16.xml

但是有时候如果发现直接转换效果不佳,可以先将 XML 转换为中间格式(如 HTML),再转换为 Markdown:

pandoc -f docbook -t html -o temp1.html WordPress.2025-07-18.xml

具体的操作可参考截图:

img

当然,如果 XML 包含多篇文章,可能需要先拆分文件。可以使用 Python 脚本提取每篇文章后再单独转换:

import xml.etree.ElementTree as ET# 解析XML文件
tree = ET.parse('input.xml')
root = tree.getroot()# 提取所有文章
posts = []
for item in root.findall('.//item'):title = item.find('title').textcontent = item.find('content:encoded', namespaces={'content': 'http://purl.org/rss/1.0/modules/content/'}).textposts.append({'title': title, 'content': content})# 保存每篇文章为单独文件
for i, post in enumerate(posts):with open(f'article_{i}.html', 'w', encoding='utf-8') as f:f.write(post['content'])

按自己个人需要修改代码,然后对每个生成的 HTML 文件执行 Pandoc 转换:

for file in article_*.html; dopandoc -f html -t markdown -o "${file%.html}.md" "$file"done

最后,通过添加参数调整输出格式,例如:

pandoc -f docbook -t markdown_strict --wrap=preserve -o output.md input.xml

--wrap=preserve:保留原始文本换行。

markdown_strict:使用严格的 Markdown 格式。


将html文件可以通过这个网址实现在线转为MD格式,右侧点击【Import HTML】即可,如下图:

img

然后点击【Export as Markdown】导出为.md文件

当然更简单点通过wp插件库中,安装插件直接导出 Markdown:

  • WP to Markdown:将现有文章批量转换为 Markdown 文件。
  • Markdown Export:导出单个或多篇文章为 Markdown。

不过我没找到好用的插件,只能采用如上方式,欢迎在留言区交流。

http://www.dtcms.com/a/289317.html

相关文章:

  • 神经网络:卷积层
  • 使用UV管理PyTorch项目
  • PyTorch常用的简单数学运算
  • Paimon INSERT OVERWRITE
  • 一维数组练题习~
  • PyTorch的基础概念和复杂模型的基本使用
  • 【软件测试】从软件测试到Bug评审:生命周期与管理技巧
  • ESXi6.7硬件传感器红色警示信息
  • ICT模拟零件测试方法--测量参数详解
  • ThinkPHP8极简上手指南:开启高效开发之旅
  • 基于机器视觉的迈克耳孙干涉环自动计数系统设计与实现
  • STM32CubeMX的一些操作步骤的作用
  • 拼写纠错模型Noisy Channel(下)
  • 机器学习理论基础 - 核心概念篇
  • 复杂度优先:基于推理链复杂性的提示工程新范式
  • Linux操作系统之线程(四):线程控制
  • 20250720-1-Kubernetes 调度-白话理解创建一个Pod的内部工作流_笔记
  • Qt的安装和环境配置
  • Ubuntu挂载和取消挂载
  • 【vue-7】Vue3 响应式数据声明:深入理解 reactive()
  • Matlab自学笔记六十四:求解自变量带有约束条件的方程
  • 相同问题的有奇点模型和无奇点模型有什么区别
  • 服务器上的文件复制到本地 Windows 系统
  • [学习] 深入理解傅里叶变换:从时域到频域的桥梁
  • 04训练windows电脑低算力显卡如何部署pytorch实现GPU加速
  • LINUX720 SWAP扩容;新增逻辑卷;逻辑卷扩容;数据库迁移;gdisk
  • 【超越VGGT】π3-利用置换等变方法去除3r系列的归纳偏置
  • 机器视觉---深度图像存储格式
  • 监督学习应用
  • 零基础学习性能测试第三章:执行性能测试