当前位置: 首页 > news >正文

PDF文件转Markdown,基于开源项目marker

首先我们来问下deepseek

为啥要选marker呢

基于深度学习,一看就逼格拉满。搞科研必备,效果应该不会太差。跟其他的阿猫阿狗工具没法比。

看下官网

https://github.com/VikParuchuri/marker

在这里插入图片描述

一看头像是个印度佬,自吹——又快又好。那就试试吧。

安装步骤

安装Anaconda

https://www.anaconda.com/docs/main
在这里插入图片描述

进入Anaconda

在这里插入图片描述

进入conda命令行

在这里插入图片描述

创建虚拟环境

conda create -n marker_env python=3.10  //  还未试过3.12,理论上3.12会向下兼容
 
conda env list //  查看创建的虚拟环境是否成功
 
conda activate marker_env  //  激活环境

安装PyTorch、Marker

1、安装PyTorch(CPU版本,无显卡用户用此命令):

pip3 install torch torchvision torchaudio

有显卡的、可以在官网上的Start Locally | PyTorch,根据自己电脑的配置,选择后在箭头处复制语句后执行。(我的是图中这条命令行)
在这里插入图片描述

2、安装Marker,耐心等待插件安装。

pip install marker-pdf

测试文件转换

准备一个PDF文件,路径不含中文或空格

在这里插入图片描述

执行转换命令:

marker_single D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf --languages eng+chi_sim --llm_service cpu --output_dir D:\Information_Technology\App\pdf2md_package\output_md
命令的解释:
   --命令里没有其他博主的--batch_multiplier 2,有这个的都是有显卡的;

  -- marker_single:调用marker_single执行转换操作;
   
  -- D:\Information_Technology\App\pdf2md_package\input_pdf\DeepSeek15天入门手册.pdf:需要转换的文件的所在目录(可自定义);

   --languages eng+chi_si:设置语言,可查官网或帮助,支持的语言还是有蛮多的;

   --llm_service cpu:强制使用CPU,也可以不加此句;

   --output_dir:文件转换后的存放目录(可自定义)。

看下效果

在这里插入图片描述

效果拉满,格式基本跟原文档一致,甚至更简洁美观。印度佬确实有一手

在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/a/83289.html

相关文章:

  • Mybatis—01
  • 在 Spring Boot 结合 MyBatis 的项目中,实现字段脱敏(如手机号、身份证号、银行卡号等敏感信息的部分隐藏)可以通过以下方案实现
  • 13、STL中的unordered_set使用方法
  • 探索MCP-我的学习与实践笔记
  • 基于WebAssembly的浏览器密码套件
  • [AI速读]如何构建高效的AMBA协议检查器(Checker IP)
  • DockerTLS加密/不加密传输
  • GitLab CI/CD学习教程(第二章Runner)
  • vpc网络之间的关系
  • 游戏引擎 Unity - Unity 顶部菜单栏(文件、编辑、资源、游戏对象、组件、服务、窗口、帮助)
  • 区块链技术的应用场景和优势
  • 【汽车开发工具选型指南】Jama Connect® for Automotive解决方案解析
  • Powershell WSL Windows系统复制数据到ubuntu子系统系统
  • element 样式记录
  • Unity音频混合器如何暴露参数
  • vue/H5图片压缩/压缩后上传
  • Java集合框架深度剖析:从数据结构到实战应用
  • 【计算机网络】网络简介
  • AI 生成 PPT 网站介绍与优缺点分析
  • 天地图InfoWindow插入React自定义组件
  • OpenHarmony子系统开发 - 电源管理(一)
  • 可视化图解算法:链表相加( 两数相加)
  • LabVIEW软件长时间运行导致蓝屏问题排查与优化
  • SpringCache小记
  • CentOS 7 设置 Nginx 开机自启(使用 Systemd)
  • 【Hbase】列族版本问题
  • sqli-labs学习记录6
  • 使用 Fetch API 实现流式读取
  • 单片机学习笔记——入门51单片机
  • 在windows下通过wsl工具管理Linux子系统