当前位置: 首页 > wzjs >正文

做网站投资太大 网站也没搞起来淘宝seo是什么

做网站投资太大 网站也没搞起来,淘宝seo是什么,做婚恋网站需要什么资质,做网站好的网站建设公司olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具,旨在将PDF文件和其他文档高效地转换为纯文本,同时保留自然的阅读顺序。它支持表格、公式、手写内容等。 olmOCR 经过学术论文、技术文档和其他文档…

olmOCR 是由 Allen Institute for Artificial Intelligence (AI2) 的 AllenNLP 团队开发的一款开源工具,旨在将PDF文件和其他文档高效地转换为纯文本,同时保留自然的阅读顺序。它支持表格、公式、手写内容等。

olmOCR 经过学术论文、技术文档和其他文档内容的训练,并采用提示词工程技术来提高准确性并减少幻觉(错误生成的内容)。

试用链接:olmOCR – Open-Source OCR for Accurate Document Conversion (allenai.org)

包含功能

  • 使用 ChatGPT 4o 获取高质量自然文本解析的提示策略 - buildsilver.py
  • 用于比较不同管道版本的并排评估工具 - runeval.py
  • 基于语言的基本过滤和 SEO 垃圾信息移除 - filter.py
  • Qwen2-VL 和 Molmo-O 的微调代码 - train.py
  • 使用 Sglang 处理数百万 PDF 的微调模型 - pipeline.py
  • 查看从 PDF 创建的 Dolma 文档 - dolmaviewer.py

安装方式

要求:

  • 最新的 NVIDIA GPU(已在 RTX 4090、L40S、A100、H100 上测试)
  • 30GB 磁盘空间

需安装 poppler-utils 和额外的字体以渲染 PDF 图像。

在 Ubuntu/Debian 上安装依赖项:

sudo apt-get update
sudo apt-get install poppler-utils ttf-mscorefonts-installer msttcorefonts fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools

设置 conda 环境并安装 olmocr:

conda create -n olmocr python=3.11
conda activate olmocrgit clone https://github.com/allenai/olmocr.git
cd olmocr
pip install -e .

如果要在 GPU 上运行推理,请使用 flashinfer 安装 sglang:

pip install sgl-kernel==0.0.3.post1 --force-reinstall --no-deps
pip install "sglang[all]==0.4.2" --find-links https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

本地使用示例

快速测试可以使用 Web 演示。本地运行需要 GPU,并且利用 sglang 实现推理。

转换单个 PDF:

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/horribleocr.pdf

转换多个 PDF:

python -m olmocr.pipeline ./localworkspace --pdfs tests/gnarly_pdfs/*.pdf

结果将存储在 ./localworkspace 中的 JSON 文件中。

查看结果

提取的文本以 Dolma 格式的 JSONL 存储在 ./localworkspace/results 目录中。

cat localworkspace/results/output_*.jsonl  

使用 dolmaviewer 命令,查看原始 PDF与提取结果:

python -m olmocr.viewer.dolmaviewer localworkspace/results/output_*.jsonl

然后在浏览器中打开 ./dolma_previews/tests_gnarly_pdfs_horribleocr_pdf.html

![[Pasted image 20250228090316.png]]

多节点/集群使用

如果想使用多节点/集群并行处理数百万 PDF,olmOCR 支持从 AWS S3 读取 PDF及处理。

例如,可以在第一个节点上运行以下命令,将在 AWS bucket中设置一个简单的任务队列并开始转换 PDF。

python -m olmocr.pipeline s3://my_s3_bucket/pdfworkspaces/exampleworkspace --pdfs s3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf

在后续节点上,只需运行以下命令,它们将从同一个工作空间队列中抓取任务。

python -m olmocr.pipeline s3://my_s3_bucket/pdfworkspaces/exampleworkspace

如果希望在AI2上使用 beaker 高效地线性化数百万 PDF,只需添加 --beaker 标志。这将在本地机器上准备工作空间,然后在集群中启动 N 个 GPU 工作,开始并行处理PDF。

例如:

python -m olmocr.pipeline s3://my_s3_bucket/pdfworkspaces/exampleworkspace --pdfs s3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf --beaker --beaker_gpus 4

实际试用

显示不太统一

有时候按照md格式输出公式,有时却不按照md格式。

原pdf解析文字
![[Pasted image 20250228084533.png]]![[Pasted image 20250228084556.png]]
![[Pasted image 20250228084729.png]]![[Pasted image 20250228084755.png]]

中文能力

尽管olmOCR的模型仅在英文文档上做过微调,但对中文pdf解析结果也还不错,如下:

原pdf解析文字
![[Pasted image 20250228085834.png]]![[Pasted image 20250228085805.png]]
http://www.dtcms.com/wzjs/304112.html

相关文章:

  • 景区网站建设要求百度导航怎么下载
  • 做印章网站google网页版入口
  • 哪些网站百度不收录网络推销平台有哪些
  • springboot做网站网站优化分析
  • 做3d动画的斑马网站品牌软文范文
  • 镇江教育云平台网站建设百度关键词推广价格查询
  • 杭州市规划建设网站营销运营主要做什么
  • 可以做微课ppt模板 网站有哪些seo赚钱方法大揭秘
  • 站长之家网页模板下载网站关键词优化案例
  • 网站开发专业建设seo推广哪家公司好
  • 做网站的资源哪里找巩义网站优化公司
  • 做wordpress 主题下载站怎么推广引流客户
  • 做sgs认证的公司网站品牌型网站设计推荐
  • 一站式做网站价格营销自动化
  • 美国做批发的网站有哪些谷歌网页版入口在线
  • 最新seo黑帽技术工具软件网站优化联系
  • 免费做宣传单页的网站郑州网络推广哪个好
  • 河南百度推广电话厦门seo优化外包公司
  • 做网站需要编程嘛sem工资
  • 力软框架做网站哈尔滨seo优化培训
  • 先网站开发后软件开发好品牌推广方式有哪些
  • wordpress素材主题win7优化工具
  • 广州外贸独立网站制作佛山seo整站优化
  • 网站设计的技能要求营销策划公司收费明细
  • 网站的大小百度seo报价
  • 东莞软件开发培训机构提升seo排名平台
  • 巴南市政建设网站软文推广案例
  • 网站建设和网页制作seo引擎优化是什
  • 手机网站图标 css如何制作一个简易网站
  • 信誉好的企业网站开发有效的网站推广方式