当前位置: 首页 > wzjs >正文

网站后台排版布局呼和浩特市做网站公司好的

网站后台排版布局,呼和浩特市做网站公司好的,网站编程技术,正能量软件不良网站直播文本图像信息抽取技术在自动化办公、建筑工程、教育科研、金融风控、医疗健康等行业领域具有广泛应用场景。2024年9月,飞桨低代码开发工具PaddleX中新增文本图像智能产线PP-ChatOCRv3,充分结合PaddleOCR的文本图像版面解析能力和文心一言语言理解优势&am…

文本图像信息抽取技术在自动化办公、建筑工程、教育科研、金融风控、医疗健康等行业领域具有广泛应用场景。2024年9月,飞桨低代码开发工具PaddleX中新增文本图像智能产线PP-ChatOCRv3,充分结合PaddleOCR的文本图像版面解析能力和文心一言语言理解优势,实现了高效的文本图像信息抽取。
近期,飞桨研发团队对飞桨低代码开发工具PaddleX中文本图像智能产线PP-ChatOCRv3进行升级,一方面实现了基于标准OpenAI接口的大语言模型调用,支持不同类型大模型灵活更换,另一方面针对文本图像信息抽取,丰富了自定义提示词工程的能力,从而为文本图像信息抽取注入新动力。

在这里插入图片描述
PP-ChatOCRv3 系统流程图

PP-ChatOCRv3进阶使用传送门
https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/practical_tutorials/document_scene_information_extraction(deepseek)_tutorial.md

本次升级具体特色功能如下:

新模型可快速适配多页 PDF 文件,高效抽取信息

由于大语言模型的推理时间相对较长,从多页 PDF 文件中抽取信息往往成本较高。
然而,PP-ChatOCRv3 集成了向量检索技术,先从 PDF 中筛选出与查询信息相关的内容,再借助大语言模型进行信息抽取,有效提升了处理效率。同时为了有效节约视觉特征和建立向量库的时间成本,PP-ChatOCRv3提供了数据缓存加载方法。在完成初次视觉特征和向量库建立后,后续的信息抽取过程即可基于缓存数据进行,有效的避免了频繁的视觉推理和建立索引库过程
详细的实现如下:

import os
from paddlex import create_pipelinepipeline = create_pipeline(pipeline="PP-ChatOCRv3-doc",initial_predictor=False)output_dir = "output"
if not os.path.exists(output_dir):os.makedirs(output_dir)
visual_predict_res_path = os.path.join(output_dir, "contract.visual")
vector_res_path = os.path.join(output_dir, "contract.vector")
if not os.path.exists(visual_predict_res_path):visual_predict_res = pipeline.visual_predict(input="contract.pdf",use_doc_orientation_classify=False,use_doc_unwarping=False)visual_info_list = []for res in visual_predict_res:visual_info_list.append(res["visual_info"])vector_info = pipeline.build_vector(visual_info_list, flag_save_bytes_vector=True,retriever_config={"module_name": "retriever","model_name": "embedding-v1","base_url": "https://qianfan.baidubce.com/v2","api_type": "qianfan","api_key": "api_key" # your api_key})pipeline.save_visual_info_list(visual_info_list, visual_predict_res_path)vector_info = pipeline.build_vector(visual_info_list)pipeline.save_vector(vector_info, vector_res_path)
else:visual_info_list = pipeline.load_visual_info_list(visual_predict_res_path)vector_info = pipeline.load_vector(vector_res_path)chat_result = pipeline.chat(key_list=["甲方"],visual_info=visual_info_list,vector_info=vector_info,chat_bot_config={"module_name": "chat_bot","model_name": "ernie-3.5-8k","base_url": "https://qianfan.baidubce.com/v2","api_type": "openai","api_key": "api_key" # your api_key},retriever_config={"module_name": "retriever","model_name": "embedding-v1","base_url": "https://qianfan.baidubce.com/v2","api_type": "qianfan","api_key": "api_key" # your api_key}
)
print(chat_result)

支持自定义提示词工程,拓展大语言模型的功能边界

早期进行文本图像信息抽取时,如从身份证、营业执照中提取信息,通常预先设定好关键词(如姓名、公司名称等),再查找与之相关的信息。然而,在实际应用中,关键信息往往以问题的形式呈现,例如在研报中查询《哪吒2》的票房数,要回答此类问题就需要对提示词进行修改。本次升级支持自定义提示词工程,涵盖问题描述、提取规则、结果规范以及少样本学习等方面,可根据实际问题灵活调整,从而拓展大语言模型在信息抽取方面的功能边界。
一个提示词修改示例如下:

  • text_task_description:对话任务的描述,例如“你现在的任务是根据提供的文本内容回答用户的问题,并给出你回答问题引用的原文片段”。
  • text_rules_str:用户设置的细节规则,例如“对于问题结果,使用“答案:”标注,对于引用原文片段,使用“引用原文:”标注。问题结果中的日期格式为“YYYY-MM-DD””。
  • text_few_shot_demo_text_content:用于少样本演示的文本内容,例如“当用户询问关于“时间”的问题时,返回某年某月某日”,通常设置为空即可。
  • text_few_shot_demo_key_value_list:用于少样本演示的键值对列表,例如[{“该规定是何时公布的?”: “2005年2月4日”}, {“该规定是何时施行的?”: “2005年4月1日”}],通常设置为空即可

产出结果:

{'chat_res': {'reasoning_content': ['好的,我现在需要处理用户的问题。用户提供的OCR文本是关于《勘察设计注册工程师管理规定》的内容,问题是要找出该规定是何时公布的。首先,我要仔细阅读OCR文本,寻找相关的日期信息。\n\n在OCR文本的开头部分,我看到这样的文字:“勘察设计注册工程师管理规定 (2005年2月4日中华人民共和国建设部令第137号公布自2005年4月1日起施行)”。这里有两个日期,一个是公布的日期,另一个是施行的日期。用户的问题是询问公布的日期,所以需要确认哪个对应公布。\n\n根据中文法律法规的常见格式,通常会在标题后的括号内注明公布日期和施行日期,格式为“(日期公布机关公布,自日期起施行)”。这里的结构是“2005年2月4日中华人民共和国建设部令第137号公布自2005年4月1日起施行”,所以前半部分“2005年2月4日”应该是公布的日期,后半部分“2005年4月1日”是施行日期。\n\n接下来,我需要确认用户的问题是否确实指向公布日期。用户的问题明确问的是“该规定是何时公布的?”,所以答案应该是2005年2月4日。需要将日期格式转换为“YYYY-MM-DD”,即“2005-02-04”。\n\n然后,检查是否有其他可能的日期信息。OCR文本的其他部分主要涉及注册工程师的管理规定,没有提到其他日期。因此,可以确定答案正确。\n\n最后,按照用户的要求,用JSON格式返回结果,问题作为key,答案作为value,并引用对应的原文片段。确保日期格式正确,没有其他多余内容。\n'], '该规定是何时公布的?': {'答案': '2005-02-04', '引用原文': '勘察设计注册工程师管理规定 (2005年2月4日中华人民共和国建设部令第137号公布自2005年4月1日起施行)'}}}

精彩课程预告

为了帮助您全面掌握PP-ChatOCRv3的最新技术进展,百度研发团队精心打造视频精讲课程,深入解读PP-ChatOCRv3的最新技术方案,并分享其在实际产业中的应用技巧。同时,我们还特别设置了产业场景实战营,配套详细教程文档,将手把手指导您针对具体问题灵活优化自定义提示词工程能力。机会难得,立即点击链接报名https://www.wjx.top/vm/wFZcC0n.aspx?udsid=749768

在这里插入图片描述


文章转载自:

http://UCsxdpn8.ytrbq.cn
http://cn56L1Kg.ytrbq.cn
http://5WfzYyJg.ytrbq.cn
http://E1zNWH3c.ytrbq.cn
http://fPk9B24n.ytrbq.cn
http://kBD1Fg0x.ytrbq.cn
http://sLJLRNvM.ytrbq.cn
http://HZFzcXv9.ytrbq.cn
http://teemX38X.ytrbq.cn
http://XlFtYzAV.ytrbq.cn
http://rsNpMC8N.ytrbq.cn
http://JtkTmvm4.ytrbq.cn
http://ipMEo8jV.ytrbq.cn
http://8PV8M8m6.ytrbq.cn
http://CGExpG1L.ytrbq.cn
http://QpP1IrQk.ytrbq.cn
http://vToJTF11.ytrbq.cn
http://pEwKgOzU.ytrbq.cn
http://u19JQewL.ytrbq.cn
http://wyptuVTh.ytrbq.cn
http://vLMZ2T3L.ytrbq.cn
http://JhoT1o2Z.ytrbq.cn
http://omMrI4Tc.ytrbq.cn
http://2yqxwZAG.ytrbq.cn
http://uAeIouWP.ytrbq.cn
http://pDDWPCjO.ytrbq.cn
http://dFY7qn8I.ytrbq.cn
http://Vfvk3oGs.ytrbq.cn
http://Xa3IVdqB.ytrbq.cn
http://Mz9gHNEz.ytrbq.cn
http://www.dtcms.com/wzjs/665212.html

相关文章:

  • 佛山网站制作哪家北京中小企业建站价格
  • 哪里可以免费注册网站网站活动专题页面
  • 什么网站可以做会计题目百度竞价排名收费
  • 做网站有名的公司湖南it网站建设mxtia
  • 会展网站建设大余网站建设
  • 做普通网站价格wordpress 配置邮件
  • 网站开发专业主修课程最新网络营销方式
  • 网站规划说明书net网站建设
  • 深圳论坛网站设计哪家公司好网站专项审批查询
  • 网站制作苏州企业通过网络营销学到了什么
  • 手机网站制作哪家好国外创意设计网站
  • 济南专业的设计网站温州网站关键词
  • 手机网站转app开发教程网站制作电话多少
  • 大兴网站设计揭阳高端品牌网站建设
  • 网站怎么seo关键词排名优化推广有名的网页游戏
  • 怎么做frontpage网站网页制作素材图片是什么格式
  • 网站建设销售工作内容女主网站和男主做
  • 网站不能风格哪个微信公众号有a
  • 高要网站制作保安服定制公司
  • 保定酒店网站制作wordpress 展示微博
  • 泉州网站设计找哪家vue如何网站开发
  • 网站免费建站众享星球人物网页设计模板
  • 个人网站广告投放玩具外贸网站模板
  • 济宁华园建设有限公司网站akm建站系统
  • 创建平台网站下载软件做qq的网站
  • 商城网站开发费用住建局
  • 上海网站建设工作室wordpress 多站点方法
  • 内黄县建设局网站网站建设捌金手指花总六
  • 整合营销网站建设阿里云oss可以做网站
  • 福田做棋牌网站建设多少钱alexa排名分析