当前位置: 首页 > news >正文

BabelDOC,一个专为学术PDF文档设计的翻译和双语对比工具

你是否也有这样的困境,面对一篇学术论文,即使英语水平不错,仍需反复查词典,尤其是遇到专业术语和复杂长句,翻译软件又常常不能很好地处理学术PDF的排版,导致翻译结果混乱不堪。

现在,解决你烦恼的工具来了 —— BabelDOC,一个专为学术PDF文档设计的翻译和双语对比工具。

BabelDOC是一个开源项目,专注于解决科学论文PDF的翻译问题。与普通翻译工具不同,它能够理解PDF的结构,保持原文排版,并提供原文与译文的双语对照,极大提升了学术阅读体验。

核心特点

  • 专业翻译 :针对学术内容优化,能更好地理解和翻译专业术语
  • 双语对照 :支持原文与译文并排显示,方便对比理解
  • 保持排版 :尊重原PDF的排版结构,使翻译后的内容易于理解
  • 多种使用方式 :提供在线服务、自部署选项、命令行界面和Python API

使用方式

1、网页端

官方提供网页端,可以直接使用,当前功能还在实验阶段,仅支持翻译到中文,不支持扫描文件(包括OCR版)。免费用户每月限量 1000 页,Pro 会员限量 10000 页。

体验地址:https://app.immersivetranslate.com/babel-doc/

2、本地部署

# 克隆项目
git clone https://github.com/funstory-ai/BabelDOC# 切换到项目目录
cd BabelDOC# 安装依赖
uv run babeldoc --help# 单个文件
uv run babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-base-url "https://api.openai.com/v1" --openai-api-key "your-api-key-here"# 多文件
uv run babeldoc --files example.pdf --files example2.pdf --openai --openai-model "gpt-4o-mini" --openai-base-url "https://api.openai.com/v1" --openai-api-key "your-api-key-here"

3、简单命令行

# 从PyPI安装
uv tool install --python 3.12 BabelDOC# 基本使用
babeldoc --files example.pdf# 使用OpenAI进行翻译
babeldoc --bing  --files example1.pdf --files example2.pdf

4、Python API

# Generate an offline assets package
from pathlib import Path
import babeldoc.assets.assets# Generate package to a specific directory
# path is optional, default is ~/.cache/babeldoc/assets/offline_assets_{hash}.zip
babeldoc.assets.assets.generate_offline_assets_package(Path("/path/to/output/dir"))# Restore from a package file
# path is optional, default is ~/.cache/babeldoc/assets/offline_assets_{hash}.zip
babeldoc.assets.assets.restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))# You can also restore from a directory containing the offline assets package
# The tool will automatically find the correct package file based on the hash
babeldoc.assets.assets.restore_offline_assets_package(Path("/path/to/directory"))

高级选项

  • 语言选项 :–lang-in(默认en)指定源语言代码,–lang-out(默认zh)指定目标语言代码。
  • PDF处理选项 :有–files指定输入文件、–pages指定翻译页面等众多选项,还给出了一些使用提示,如–enhance-compatibility可解决兼容性问题。
  • 翻译服务选项 翻译服务选项:–qps限制每秒查询数(默认4),目前仅支持OpenAI兼容的大语言模型。
  • OpenAI特定选项 :可指定模型、基础URL和API密钥。
  • 输出控制 :–output指定输出目录,–debug开启调试日志。
  • 离线资产管理 :可生成和恢复离线资产包,用于无网络环境或多机器安装。
  • 配置文件 :使用TOML格式的配置文件,可设置各种参数。

最后

对于经常阅读英文学术论文的研究人员、学生和专业人士,BabelDOC无疑是一个值得关注的工具。它不仅能提高阅读效率,还能帮助理解复杂的学术内容。

GitHub仓库:https://github.com/funstory-ai/BabelDOC

http://www.dtcms.com/a/270211.html

相关文章:

  • C#使用Semantic Kernel实现Embedding功能
  • 解决GitHub仓库推送子文件夹后打不开的问题
  • C++高频知识点(六)
  • vue3使用inspira-ui教程【附带源码】
  • Ansible 介绍及安装
  • ubuntu24.04(vmware workstation 17.6pro)无法安装vmtools的问题解决
  • mini-program01の系统认识微信小程序开发
  • 云原生详解:构建现代化应用的未来
  • 【读论文】GLM-4.1V-Thinking 解读:用强化学习解锁 VLM 的通用推理能力
  • Tensor数据转换
  • 模型训练篇 | 如何用YOLOv13训练自己的数据集(以明火烟雾检测举例)
  • 记录一种 Java 自定义快速读的方式,解决牛客中运行超时问题
  • 数与运算-埃氏筛 P1835 素数密度
  • go入门 - day1 - 环境搭建
  • Rust 中字符串类型区别解析
  • 10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
  • Tomcat:启用https(Windows)
  • AR/VR 显示画质失真?OAS百叶窗波导案例破难题
  • Spring Cloud 企业项目技术选型
  • Fiddler-关于抓取Android手机包,安装证书后页面加载失败,提示当前证书不可信存在安全风险的问题
  • 力扣-287.寻找重复数
  • Flutter基础(前端教程①-容器和控件位置)
  • 7月5号和6号复习和预习(C++)
  • 初识mysql(一)
  • 论文略读:UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning
  • 无人机报警器探测模块技术解析
  • HDLBits刷题笔记和一些拓展知识(十一)
  • 中文编程开发工具构件系列介绍——数值比较构件
  • 视频网站弹幕系统简易实现
  • Python语言+pytest框架+allure报告+log日志+yaml文件+mysql断言实现接口自动化框架