当前位置: 首页 > news >正文

所有文件转markdown文件

当前支持的文件格式如下:

  • PDF (.pdf)
  • PowerPoint (.pptx)
  • Word (.docx)
  • Excel (.xlsx)
  • Images (EXIF metadata, and OCR)
  • Audio (EXIF metadata, and speech transcription)
  • HTML (special handling of Wikipedia, etc.)
  • 其它各种文本格式 (csv, json, xml, etc.)

先安装:

pip install markitdown

基础使用:

from markitdown import MarkItDown

md = MarkItDown(enable_plugins=False) # Set to True to enable plugins
result = md.convert("test.xlsx")
print(result.text_content)

进阶使用:
开发人员还可以配置 MarkItDown 库,使用大型语言模型来描述图像,需要将 mlm_client 和 mlm_model 参数设置为 MarkItDown 对象,如下所示:

from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
http://www.dtcms.com/a/25948.html

相关文章:

  • hot100-3、438、560、239、240、160、234(2简3中1难)
  • Goutte库的使用方法详解
  • 基于VirtualBox虚拟机部署完全分布式Hadoop环境
  • 影视大数据分析新范式:亮数据动态代理驱动的实时数据采集方案
  • MMLU论文简介
  • 深度学习(CNN\TensorFlow)在遥感影像分析中的应用(矿产勘探、精准农业、城市规划、林业测量、军事目标识别和灾害评估等)
  • 测试类型术语,使用指标,计算方式,使用场景总结
  • Apache Struts RCE (CVE-2024-53677)
  • android ViewPager 管理 Fragment的预加载onCreate
  • FunASR:语音识别集成工具箱
  • [数据结构]顺序表详解
  • 使用LlamaIndex查询 MongoDB 数据库,并获取 OSS (对象存储服务) 上的 PDF 文件,最终用Langchain搭建应用
  • C语言之typedef
  • voltage/temperature derate指什么?
  • NCRE全国计算机等级考试二级Java-50道选择题【带解析】
  • RepVGGBlock实现
  • 解决MySQL错误:You can‘t specify target table ‘xxx‘ for update in FROM clause
  • SpringBoot速成(16)项目部署P30
  • 【YOLOv8】损失函数
  • 11.编写前端内容|vscode链接Linux|html|css|js(C++)
  • Spring中事务的传播行为方式
  • DeepSeek掀起推理服务器新风暴,AI应用迎来变革转折点?
  • FreeSwitch的mod_translate模块详细,附带场景案例及代码示例
  • EasyExcel实现excel导入(模版上传)
  • 【pytest】编写自动化测试用例命名规范README
  • 考研操作系统------锁(仅仅作为王道哔站课程讲义作用)
  • 第二章:16.6 回归树
  • RadASM环境,win32汇编入门教程之七
  • JVM类加载过程详解:从字节码到内存的蜕变之旅
  • 基于Flask的第七次人口普查数据分析系统的设计与实现