当前位置：首页 > wzjs >正文

做网站投资太大网站也没搞起来淘宝seo是什么

wzjs 2025/8/13 1:34:08

做网站投资太大网站也没搞起来,淘宝seo是什么,做婚恋网站需要什么资质,做网站好的网站建设公司olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具，旨在将PDF文件和其他文档高效地转换为纯文本，同时保留自然的阅读顺序。它支持表格、公式、手写内容等。 olmOCR 经过学术论文、技术文档和其他文档…

olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具，旨在将PDF文件和其他文档高效地转换为纯文本，同时保留自然的阅读顺序。它支持表格、公式、手写内容等。

olmOCR 经过学术论文、技术文档和其他文档内容的训练，并采用提示词工程技术来提高准确性并减少幻觉（错误生成的内容）。

试用链接：olmOCR – Open-Source OCR for Accurate Document Conversion (allenai.org)

包含功能

使用 ChatGPT 4o 获取高质量自然文本解析的提示策略 - buildsilver.py
用于比较不同管道版本的并排评估工具 - runeval.py
基于语言的基本过滤和 SEO 垃圾信息移除 - filter.py
Qwen2-VL 和 Molmo-O 的微调代码 - train.py
使用 Sglang 处理数百万 PDF 的微调模型 - pipeline.py
查看从 PDF 创建的 Dolma 文档 - dolmaviewer.py

安装方式

要求：

最新的 NVIDIA GPU（已在 RTX 4090、L40S、A100、H100 上测试）
30GB 磁盘空间

需安装 poppler-utils 和额外的字体以渲染 PDF 图像。

在 Ubuntu/Debian 上安装依赖项：

sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

设置 conda 环境并安装 olmocr：

conda create -n olmocr python=3.11
conda activate olmocrgit clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

如果要在 GPU 上运行推理，请使用 flashinfer 安装 sglang：

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

本地使用示例

快速测试可以使用 Web 演示。本地运行需要 GPU，并且利用 sglang 实现推理。

转换单个 PDF：

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

转换多个 PDF：

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

结果将存储在 ./localworkspace 中的 JSON 文件中。

查看结果

提取的文本以 Dolma 格式的 JSONL 存储在 ./localworkspace/results 目录中。

cat localworkspace/results/output_*.jsonl

使用 dolmaviewer 命令，查看原始 PDF与提取结果：

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

然后在浏览器中打开 ./dolma_previews/tests_gnarly_pdfs_horribleocr_pdf.html。

![[Pasted image 20250228090316.png]]

多节点/集群使用

如果想使用多节点/集群并行处理数百万 PDF，olmOCR 支持从 AWS S3 读取 PDF及处理。

例如，可以在第一个节点上运行以下命令，将在 AWS bucket中设置一个简单的任务队列并开始转换 PDF。

python -m olmocr.pipeline s3://my_s3_bucket/pdfworkspaces/exampleworkspace --pdfs s3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf

在后续节点上，只需运行以下命令，它们将从同一个工作空间队列中抓取任务。

python -m olmocr.pipeline s3://my_s3_bucket/pdfworkspaces/exampleworkspace

如果希望在AI2上使用 beaker 高效地线性化数百万 PDF，只需添加 --beaker 标志。这将在本地机器上准备工作空间，然后在集群中启动 N 个 GPU 工作，开始并行处理PDF。

例如：

python -m olmocr.pipeline s3://my_s3_bucket/pdfworkspaces/exampleworkspace --pdfs s3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf --beaker --beaker_gpus 4

实际试用

显示不太统一

有时候按照md格式输出公式，有时却不按照md格式。

原pdf	解析文字

中文能力

尽管olmOCR的模型仅在英文文档上做过微调，但对中文pdf解析结果也还不错，如下：

原pdf	解析文字

查看全文

http://www.dtcms.com/wzjs/304112.html

景区网站建设要求百度导航怎么下载

做印章网站google网页版入口

哪些网站百度不收录网络推销平台有哪些

springboot做网站网站优化分析

做3d动画的斑马网站品牌软文范文

镇江教育云平台网站建设百度关键词推广价格查询

杭州市规划建设网站营销运营主要做什么

可以做微课ppt模板网站有哪些seo赚钱方法大揭秘

站长之家网页模板下载网站关键词优化案例

网站开发专业建设seo推广哪家公司好

做网站的资源哪里找巩义网站优化公司

做wordpress 主题下载站怎么推广引流客户

做sgs认证的公司网站品牌型网站设计推荐

一站式做网站价格营销自动化

美国做批发的网站有哪些谷歌网页版入口在线

最新seo黑帽技术工具软件网站优化联系

免费做宣传单页的网站郑州网络推广哪个好

河南百度推广电话厦门seo优化外包公司

做网站需要编程嘛sem工资

力软框架做网站哈尔滨seo优化培训

先网站开发后软件开发好品牌推广方式有哪些

wordpress素材主题win7优化工具

广州外贸独立网站制作佛山seo整站优化

网站设计的技能要求营销策划公司收费明细

网站的大小百度seo报价

东莞软件开发培训机构提升seo排名平台

巴南市政建设网站软文推广案例

网站建设和网页制作seo引擎优化是什

手机网站图标 css如何制作一个简易网站

信誉好的企业网站开发有效的网站推广方式