当前位置: 首页 > wzjs >正文

江苏省建设工程质量监督站网站乔柘云智能建站

江苏省建设工程质量监督站网站,乔柘云智能建站,wordpress多用户模板,江苏专业网站制作公司本人项目地址大全:Victor94-king/NLP__ManVictor: CSDN of ManVictor 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新不易…

本人项目地址大全:Victor94-king/NLP__ManVictor: CSDN of ManVictor


写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!


Jina AI是一家成立于2020年的人工智能公司,专注于开发用于搜索和智能分析的开源软件。提供了非常多好用的API,例如Jina Reader可以将网页解析为Markdown文档、Reranker可以对RAG的向量模型检索到的文档进行重排序等,除了在线API,在HuggingFace上也开源了若干模型。

今天我们要使用的,是Jina提供的文本切分工具,它是以REST API形式提供服务的,主页为:

https://jina.ai/segmenter/

Jina Segment API提供语义切分能力,更重要的是,它是免费的,不过国内用户需要注意自己的网络是否能够访问。

下图是官方网站提供的对《汉书》的切分效果,可以看出,对于文言文,也可以有比较好的切分结果。

图片

API有一些参数,可以在官方页面上通过交互式的方式进行探索,找到一个最优参数后,就可以固定到自己的工作流中了。

图片

效果

从下图可以看出,使用Jina Segment API,最终的问答结果,相比Baseline还是有一定差距的,从概述中《汉书》的切分效果也可以看出,Jina会把标题和正文切割开,而在RAG场景中,标题的作用一般是非常大的,我们在使用RAG技术构建企业级文档问答系统:切分(1)Markdown文档切分的实验中也验证了这一点。

图片

代码

本文对应完整代码已开源,地址在:https://github.com/Steven-Luo/MasteringRAG/blob/main/split/03_jina_segment_api.ipynb

由于是调用Jina API,切分的核心代码非常简单,使用POST请求将全文放到content中即可,其他参数可以直接从官方网站拷贝。

import requests
from langchain.schema import Documentdef split_with_jina_api(text, max_len=700):url = 'https://segment.jina.ai/'headers = {'Content-Type': 'application/json','Authorization': f"Bearer {os.getenv('JINA_SEGMENT_API_KEY')}"}data = {"content": text,"return_tokens": True,"return_chunks": True,"max_chunk_length": max_len}response = requests.post(url, headers=headers, json=data)resp_json = response.json()chunks = resp_json['chunks']return [Document(page_content=chunk.strip()) for chunk in chunks if chunk.strip() != '']

文章转载自:

http://5j4R2H2g.tbcLn.cn
http://AcmFpUsK.tbcLn.cn
http://2nusT9v0.tbcLn.cn
http://fx2bJG8k.tbcLn.cn
http://44hjJpCA.tbcLn.cn
http://CFahn3Ow.tbcLn.cn
http://e8dLKgez.tbcLn.cn
http://qDpSgnKB.tbcLn.cn
http://UNfkz3Fg.tbcLn.cn
http://IS2nWJb0.tbcLn.cn
http://jEBrbbsx.tbcLn.cn
http://4N0flqTK.tbcLn.cn
http://kdME0JPq.tbcLn.cn
http://jreZofr2.tbcLn.cn
http://QjUYMx7u.tbcLn.cn
http://pXxqMecF.tbcLn.cn
http://qZ63MlMw.tbcLn.cn
http://KpGSgtEv.tbcLn.cn
http://IpzkKxDE.tbcLn.cn
http://aoyiVts6.tbcLn.cn
http://O5V4WReW.tbcLn.cn
http://uAdzJ7KZ.tbcLn.cn
http://tKNIlkOI.tbcLn.cn
http://blN8zclQ.tbcLn.cn
http://6OvnYkiJ.tbcLn.cn
http://tgiZ2GDR.tbcLn.cn
http://HYWXbgU1.tbcLn.cn
http://KPtf64o0.tbcLn.cn
http://NBkmeYRN.tbcLn.cn
http://seeVBlsM.tbcLn.cn
http://www.dtcms.com/wzjs/776580.html

相关文章:

  • 网站建设与设计致谢logo设计在线生成 免费
  • 常州网站建设思创网络做新网站不换域名
  • 大连企业网站建设模板河南平顶山网站建设公司
  • 二级域名可以做网站云梦网站怎么做浮窗
  • 山东网站定制策划建站过程
  • 如何自己做网站卖东西wordpress作者信息
  • 上海平台网站建设价格数据服务器
  • 河南网站制作价格安吉网站设计
  • 拓者设计吧官方网站网络工程是做什么的
  • 网站建设进度表怎么做农特产品网站建设合同模板
  • 网站建设公司对父亲节宣传口号朋友让你做网站如何拒绝
  • 教育网站如何做seo网站模板安装教程
  • angularjs 做的网站免备案虚拟主机哪家强
  • 制作一个网站平台要多钱网站建设进度汇报
  • 广州建设银行保安招聘网站网络维护员
  • 淄博网站备案西安网站建设报价
  • 厚街仿做网站小程序商城哪家好
  • 网销的网站建设与管理绍兴市住房与城乡建设厅网站
  • 国外对旅游网站建设的现状禁用软件app大全
  • 外发加工是否有专门的网站酷 网站模板
  • 做网站着用什么软件win7优化教程
  • 上海专业高端网站建设服务器北京永辉超市有限公司
  • 怎样做公司的网站这是我自己做的网站吗
  • 网易门户网站建设天河网站建设制作
  • 自己做的网站服务器在哪里中国人去菲律宾做网站赌钱会抓吗
  • 建设类招标代理公司网站请人做竞价网站的要求重点
  • 网站建设维护去哪里学做爰网站名称
  • 网站建设基础包括设计师可以做兼职的网站有哪些
  • 怎么做百度推广网站昆明有几个区
  • 怎么建立网站平台wordpress sql替换域名