当前位置: 首页 > news >正文

阳山做网站什么网站做视频

阳山做网站,什么网站做视频,工作服款式,官方网站建设银行本地可部署的模型 Marker Marker 快速准确地将文档转换为 markdown、JSON 和 HTML。 转换所有语言的 PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB 文件在给定 JSON 架构 (beta) 的情况下进行结构化提取设置表格、表单、方程式、内联数学、链接、引用和代…

本地可部署的模型

 Marker

Marker 快速准确地将文档转换为 markdown、JSON 和 HTML。

  • 转换所有语言的 PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB 文件
  • 在给定 JSON 架构 (beta) 的情况下进行结构化提取
  • 设置表格、表单、方程式、内联数学、链接、引用和代码块的格式
  • 提取和保存图像
  • 删除页眉/页脚/其他工件
  • 可使用您自己的格式和逻辑进行扩展
  • (可选)使用 LLM 提高准确性
  • 适用于 GPU、CPU 或 MPS

https://github.com/VikParuchuri/marker

Surya

Surya 是一个文档 OCR 工具包,它做到了:

  • 90+ 种语言的 OCR,与云服务相比具有优势
  • 任何语言的行级文本检测
  • 布局分析(表格、图像、标题等检测)
  • 读取顺序检测
  • 表识别(检测行/列)
  • LaTeX OCR

https://github.com/VikParuchuri/surya

MinerU

MinerU 是一种将 PDF 转换为机器可读格式(例如 markdown、JSON)的工具,可以轻松提取为任何格式。 MinerU 诞生于 InternLM 的预训练过程中。我们专注于解决科学文献中的符号转换问题,希望为大模型时代的技术发展做出贡献。

https://github.com/opendatalab/MinerU

需API调用的模型工具

llamaPaser

LlamaCloud

使用样例:

pip install dotenv

pip install llama_parse

pip install llama-index-llms-openai

在 modelDownload.py 文件所在的目录创建一个名为 .env 的文件,并在其中添加以下内容:

LLAMA_CLOUD_API_KEY='llamapaser API密钥'
OPENAI_API_KEY = 'openai APkey'

配置好环境后运行代码: 

# 需要LLAMA_CLOUD_API_KEY
from dotenv import load_dotenv
load_dotenv()   # LlamaParse PDF reader for PDF Parsing
from llama_parse import LlamaParse
documents = LlamaParse(result_type="markdown").load_data("90-文档-Data/黑悟空/黑神话悟空.pdf"
)
print(documents)from llama_index.core.node_parser import MarkdownElementNodeParser
node_parser = MarkdownElementNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)print(nodes)

效果如下: 

http://www.dtcms.com/a/502933.html

相关文章:

  • 虚幻引擎虚拟制片入门教程目录
  • Eclipse 快速修复指南
  • 【从0开始学习Java | 第22篇】反射
  • WEBSTORM前端 —— 第5章:Web APIs —— 第1节:Dom获取属性操作
  • 第 167 场双周赛 / 第 471 场周赛
  • 聊聊 Unity(小白专享、C# 小程序 之 加密存储)
  • 如何推销网站分销商城开发多少钱
  • 大型的营销型网站建设做国外网站翻译中国小说赚钱
  • 论文学习_PalmTree: Learning an Assembly Language Model for Instruction Embedding
  • 基于PSO-BP粒子群优化神经网络+NSGAII多目标优化算法的工艺参数优化、工程设计优化(三个输出目标案例)!(Matlab源码和数据)
  • 端到端与世界模型(2):基于认知驱动的自动驾驶3.0
  • [嵌入式系统-143]:自动驾驶汽车与智能机器人的操作系统
  • Python设计模式 - 外观模式
  • [排序算法]希尔排序
  • 做网站应该用多少分辨率西安高端网站建设首选
  • FFmpeg 基本API avcodec_receive_frame函数内部调用流程分析
  • FFmpeg 基本API av_read_frame函数内部调用流程分析
  • 广东网站建设包括什么口碑好网站建设是哪家
  • 和田地区建设局网站电子商务网络营销是干嘛的
  • SAP B1实施专家指南:如何优化成本与缩短项目周期?
  • [吾爱大神原创工具] Python多功能自动化点击录入工具V1.0
  • 不备案怎么做淘宝客网站wordpress 字体调整
  • 栈及相关算法问题
  • Docker镜像分层与写时复制原理详解
  • 药物靶点研究3天入门|Day1:从疾病差异里挖“潜力靶点”,两步锁定真目标
  • WebForms ArrayList详解
  • 达梦数据库性能调优总结
  • [JavaEE初阶]HTTPS-SSL传输过程中的加密
  • 单片机开发中裸机系统有哪些(轮询、时间片、前后台.....)
  • 一次线上MySQL分页事故,搞了半夜...