当前位置: 首页 > wzjs >正文

江阴网站优化wordpress 缓存 自适应

江阴网站优化,wordpress 缓存 自适应,酒店网站策划书,公司网站展示有哪些基于OpenAI API实现PDF发票信息提取 1. 引言 在日常办公中,企业和个人经常需要处理大量的发票数据,包括提取发票代码、发票号码、开票日期、金额等关键信息。手动录入这些信息费时费力,因此自动化发票信息提取成为刚需。 本文将介绍如何利…

基于OpenAI API实现PDF发票信息提取

1. 引言

在日常办公中,企业和个人经常需要处理大量的发票数据,包括提取发票代码、发票号码、开票日期、金额等关键信息。手动录入这些信息费时费力,因此自动化发票信息提取成为刚需。

本文将介绍如何利用 OpenAI APIPyMuPDF (即 fitz) 实现 PDF 发票的自动信息提取。代码将解析 PDF 文件内容,并通过 AI 模型精准提取相关字段。


2. 依赖环境

在实现该功能之前,需要安装以下 Python 依赖库:

pip install openai pymupdf

此外,需要在 config.py 中配置 API KeyPDF 文件路径


3. 代码实现

3.1 完整代码

from openai import OpenAI
import fitz  # PyMuPDF
import config  # 需要配置API Key和PDF路径def get_pdf_text(pdf_path):doc = fitz.open(pdf_path)markdown_text = ""for page_num in range(len(doc)):page = doc[page_num]blocks = page.get_text("dict")["blocks"]for block in blocks:if "lines" in block:for line in block["lines"]:for span in line["spans"]:text = span["text"]markdown_text += f"{text}"markdown_text += "\n"return markdown_textdef create_invoice_extraction_prompt(invoice_text):prompt = f"""
请分析以下发票文本,准确提取以下信息:
1. 发票代码
2. 发票号码
3. 开票日期
4. 价税合计的小写金额
5. 销售方名称
6. 消费类型(如:餐饮、交通、办公用品、通讯等)请务必仔细分析商品或服务内容,据此判断消费类型。
如果无法确定某项信息,请标注为"未找到"。发票文本:
{invoice_text}请以 JSON 格式返回结果:
{{"发票代码": "","发票号码": "","开票日期": "","价税合计": "","销售方名称": "","消费类型": ""
}}
"""return prompt# 初始化 OpenAI 客户端
client = OpenAI(api_key=config.DASHSCOPE_API_KEY,base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)sample_invoice_text = get_pdf_text(config.PDF_PATH)# 创建聊天完成请求
completion = client.chat.completions.create(model="qwq-32b",  # 可按需更换模型名称messages=[{"role": "user", "content": create_invoice_extraction_prompt(sample_invoice_text)}],stream=True,
)reasoning_content = ""  # 记录思考过程
answer_content = ""     # 记录最终答案
is_answering = False   # 标记是否已进入回复阶段print("\n" + "=" * 20 + "思考过程" + "=" * 20 + "\n")for chunk in completion:if not chunk.choices:print("\nUsage:")print(chunk.usage)else:delta = chunk.choices[0].deltaif hasattr(delta, 'reasoning_content') and delta.reasoning_content:print(delta.reasoning_content, end='', flush=True)reasoning_content += delta.reasoning_contentelse:if delta.content and not is_answering:print("\n" + "=" * 20 + "完整回复" + "=" * 20 + "\n")is_answering = Trueprint(delta.content, end='', flush=True)answer_content += delta.contentprint("\n\n" + "=" * 50)
print("提取结果:")
print(answer_content)

4. 运行示例

在这里插入图片描述


5. 总结

通过本文的介绍,我们实现了一个基于 OpenAI API 解析 PDF 发票的完整流程,包括:

  1. 使用 PyMuPDF 解析 PDF 文本
  2. 构造 AI 提示词,让大模型精准提取发票信息
  3. 调用 OpenAI API 并解析返回 JSON 结果

这一方案可以广泛应用于财务报销、企业票据管理等场景,极大提高工作效率。如果你有更复杂的需求,可以尝试调整 prompt 或使用更强大的 LLM 模型。


文章转载自:

http://5yVQNkKQ.LmmyL.cn
http://w98GJ2UD.LmmyL.cn
http://AvBpcKXZ.LmmyL.cn
http://k5wLg2BC.LmmyL.cn
http://aKoxuIcl.LmmyL.cn
http://jmFhEYaH.LmmyL.cn
http://kNmhm43b.LmmyL.cn
http://7CVrZPHB.LmmyL.cn
http://dzLQqxVo.LmmyL.cn
http://ZALHGYdV.LmmyL.cn
http://tYeUETeJ.LmmyL.cn
http://jhX7HUDE.LmmyL.cn
http://J3Ka7maF.LmmyL.cn
http://YgfUuhDZ.LmmyL.cn
http://4WmQDvT7.LmmyL.cn
http://pRsduc1m.LmmyL.cn
http://1BfDF3ym.LmmyL.cn
http://wVj1qrpb.LmmyL.cn
http://VVN2Jkiv.LmmyL.cn
http://PYvRmEZK.LmmyL.cn
http://ORHtvnhM.LmmyL.cn
http://biDSACSQ.LmmyL.cn
http://Jy87RxHl.LmmyL.cn
http://1co5cnbL.LmmyL.cn
http://haameOyn.LmmyL.cn
http://TmOjxVeg.LmmyL.cn
http://YIRPYGYm.LmmyL.cn
http://QrYeNliL.LmmyL.cn
http://9CBYNUrN.LmmyL.cn
http://IdKSA8Lx.LmmyL.cn
http://www.dtcms.com/wzjs/625591.html

相关文章:

  • 地方性购物网站o2o电子商务模式是指
  • 定制网站开发公司生物医药微信小商店官网入口
  • 北京建设信息咨询中心网站怎么样给公司做网站
  • 淄博网站制作高端服务建立网站看病的经济问题
  • 有关做能源的网站淄博网站建设电话咨询
  • 网站建设公司网站源码云捷配快速开发平台
  • iis默认网站建设中wordpress怎样显示子类目
  • 做租号玩网站赚钱吗医院网站如何建立
  • 石家庄seo优化公司自助建站网站seo公司
  • 百度云网站建设教程页面 菜单 wordpress
  • 电子商务网站建设分析医疗器械分类目录2021
  • 英文网站优化页面设计描述
  • 网站开发报价表格做的好的c2c网站
  • 高端网站建设网站做logo有哪些网站
  • 建设通网站查询单位郑州郑好办app
  • 企业为什么网站建设环江建设网站
  • 兰州建设厅评职称网站常见的网络营销方法及其效果
  • 中间商可以做网站吗soho设计网站
  • 模块化建站工具哪里有网页设计培训
  • 怎样推广一个网站云建站哪家好
  • 网站如何做收录哈尔滨小程序制作公司
  • 购物网站建设工作流程发外链软件
  • 关于网站建设分类邢台发广告的平台有哪些
  • 惠安建设局网站网站备案号 放网站
  • 网站优化seo推广服务网站上面带官网字样怎么做的
  • 上海网站关键词优化方法引用网站资料怎么注明
  • 西凤九网站建设的目标wordpress可注册
  • php网站开发技术文档咸阳兼职做网站
  • 网站建设jwzcq网站开发文献综述范文
  • 孟州网站建设iis做的网站如何添加播放器