当前位置: 首页 > news >正文

Nougat:科学文档的OCR 使用记录

https://github.com/facebookresearch/nougat

python环境需要在3.8以上

安装:pip install nougat-ocr

模型默认下载地址:/home/****/.cache/torch/hub/nougat-0.1.0-small

环境安装好之后默认使用cpu

UserWarning: CUDA initialization: The NVIDIA driver on your system is too old (found version 11080). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx Alternatively, go to: https://pytorch.org to install a PyTorch version that has been compiled with your version of the CUDA driver. (Triggered internally at ../c10/cuda/CUDAFunctions.cpp:108.)
  return torch._C._cuda_getDeviceCount() > 0
WARNING:root:No GPU found. Conversion on CPU is very slow.

如果需要使用GPU,则需要重新安装和自己cuda版本对应的torch等,我这边是cuda11.8

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

环境配置好之后即可进行PDF识别

在output目录下会生成.mmd格式的文件

vscode中使用如下插件可以查看mmd格式中的内容,文字可直接复制

3090GPU上

显存占用17368 / 24576M  显存占用17G,16页的PDF  耗时30秒 

自己随便写的文字可能识别不了,图片中的文字无法识别

相关文章:

  • 12月笔记
  • 软件测试|Linux下Python安装配置指南
  • Parallels虚拟机启动后,Mac主机无法上网怎么办
  • 软件测试|深入解析Docker Run命令:创建和启动容器的完全指南
  • 力扣(leetcode)第482题密钥格式化(Python)
  • 71内网安全-域横向网络传输应用层隧道技术
  • 【LLM】大型语言模型:2023年完整指南
  • 【STM32】STM32学习笔记-ADC单通道 ADC多通道(22)
  • 网络安全(黑客)—2024自学
  • 渗透第四天 (抽空再看一天 )
  • 游戏进度恢复--备忘录模式
  • 实验笔记之——服务器链接
  • 【STM32】STM32学习笔记-DMA数据转运+AD多通道(24)
  • uni-appcss语法
  • 浅析观察者模式在Java中的应用
  • 什么是React.FC | 封装ant design弹框组件之:ant design 修改密码弹框组件
  • 案例分享:Qt多国语言输入法软键盘
  • SpringBoot整合Elasticsearch报错
  • docker部署kibana
  • Python数据实战项目
  • 国际乒联主席索林:洛杉矶奥运会增设混团是里程碑事件
  • 特朗普称即将与伊朗达成核协议,外交部:中方愿继续发挥建设性作用
  • 长三角首次,在铁三赛事中感受竞技与生态的共鸣
  • 巴菲特谈卸任CEO:开始偶尔失去平衡,但仍然保持敏锐的头脑,仍打算继续工作
  • 病重老人被要求亲自取钱在农业银行门口去世?株洲警方介入
  • 特朗普促卡塔尔说服伊朗放弃核计划,伊朗总统:你来吓唬我们?