当前位置: 首页 > news >正文

所有文件转markdown文件

当前支持的文件格式如下:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • Images (EXIF metadata, and OCR)
  • Audio (EXIF metadata, and speech transcription)
  • HTML (special handling of Wikipedia, etc.)
  • 其它各种文本格式 (csv, json, xml, etc.)

先安装:

pip install markitdown

基础使用:

from markitdown import MarkItDown

md = MarkItDown(enable_plugins=False) # Set to True to enable plugins
result = md.convert("test.xlsx")
print(result.text_content)

进阶使用:
开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:

from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

相关文章:

  • hot100-3、438、560、239、240、160、234(2简3中1难)
  • Goutte库的使用方法详解
  • 基于VirtualBox虚拟机部署完全分布式Hadoop环境
  • 影视大数据分析新范式:亮数据动态代理驱动的实时数据采集方案
  • MMLU论文简介
  • 深度学习(CNN\TensorFlow)在遥感影像分析中的应用(矿产勘探、精准农业、城市规划、林业测量、军事目标识别和灾害评估等)
  • 测试类型术语,使用指标,计算方式,使用场景总结
  • Apache Struts RCE (CVE-2024-53677)
  • android ViewPager 管理 Fragment的预加载onCreate
  • FunASR:语音识别集成工具箱
  • [数据结构]顺序表详解
  • 使用LlamaIndex查询 MongoDB 数据库,并获取 OSS (对象存储服务) 上的 PDF 文件,最终用Langchain搭建应用
  • C语言之typedef
  • voltage/temperature derate指什么?
  • NCRE全国计算机等级考试二级Java-50道选择题【带解析】
  • RepVGGBlock实现
  • 解决MySQL错误:You can‘t specify target table ‘xxx‘ for update in FROM clause
  • SpringBoot速成(16)项目部署P30
  • 【YOLOv8】损失函数
  • 11.编写前端内容|vscode链接Linux|html|css|js(C++)
  • 泽连斯基:乌代表团已启程,谈判可能于今晚或明天举行
  • 浙江省台州市政协原副主席林虹被“双开”
  • 现场丨在胡适施蛰存等手札与文献间,再看百年光华
  • 与总书记交流的上海人工智能实验室年轻人,在探索什么前沿领域?
  • 思想史家陈谷嘉逝世,曾为岳麓书院当代复兴奠定重要基础
  • 美叙领导人25年来首次会面探索关系正常化,特朗普下令解除对叙经济制裁