当前位置: 首页 > wzjs >正文

怎么把网站排名品牌建设有待加强

怎么把网站排名,品牌建设有待加强,app开发流程 网站开发,怎样做自己的 优惠卷网站1. 多表征/向量索引 为每一个文档块生成一条向量用于记录该文本的特征信息,如果能从多个维度记录该文档块的信息,会大大增加该文档块被检索到的概率,多个维度记录信息 等同于为文档块生成 多个向量,支持的方法如下: …

1. 多表征/向量索引

为每一个文档块生成一条向量用于记录该文本的特征信息,如果能从多个维度记录该文档块的信息,会大大增加该文档块被检索到的概率,多个维度记录信息 等同于为文档块生成 多个向量,支持的方法如下:

  1. 把文档切割成更小的块:通过检索更小的块,但是查找其父类文档(ParentDocumentRetriever)。
  2. 摘要:使用 LLM 为每个文档块生成一段摘要,将其和原文档一起嵌入或者代替,返回时返回原文档。
  3. 假设性问题:使用 LLM 为每个文档块生成适合回答的假设性问题,将其和原文档一起嵌入或者代替,返回时返回原文档。

通过这种方式可以为一个文档块生成多条特征/向量,在检索时能提升关联文档被检索到的概率,多向量检索的运行流程其实也非常简单,以 摘要文档 检索 原文档 为例,运行流程图如下
在这里插入图片描述
通过上面的运行流程,可以很容易知道在 原始文档 和 摘要文档 中都在元数据中设置了 唯一标识,从向量数据库中找到符合规则的数据后,通过查找其 元数据 的唯一标识,即可在 文档数据库 中匹配出原文档,完成整个多表征/向量的检索。

2. 多向量索引示例

在 LangChain 中,为多向量索引的集成封装了MultiVectorRetriever类,实例化该类只需要传递 向量数据库、字节存储数据库(文档数据库)、id标识(关联标识) 即可快速完成整个运行流程的集成。
以 FAISS向量数据库 和 本地文件存储库 为例,构建一个 存储摘要->检索原文 的优化策略,代码示例如下:

import uuidimport dotenv
from langchain.retrievers import MultiVectorRetriever
from langchain.storage import LocalFileStore
from langchain_community.document_loaders import UnstructuredFileLoader
from langchain_community.vectorstores import FAISS
from langchain_core.documents import Document
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitterdotenv.load_dotenv()# 1.创建加载器、文本分割器并处理文档
loader = UnstructuredFileLoader("./电商产品数据.txt")
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
docs = loader.load_and_split(text_splitter)# 2.定义摘要生成链
summary_chain = ({"doc": lambda x: x.page_content}| ChatPromptTemplate.from_template("总结以下文档的内容: \n\n{doc}")| ChatOpenAI(model="gpt-3.5-turbo-16k", temperature=0)| StrOutputParser()
)# 3.批量生成摘要与唯一标识
summaries = summary_chain.batch(docs, {"max_concurrency": 5})
doc_ids = [str(uuid.uuid4()) for _ in enumerate(docs)]# 4.构建摘要文档
summary_docs = [Document(page_content=summary, metadata={"doc_id": doc_ids[idx]})for idx, summary in enumerate(summaries)
]# 5.构建文档数据库与向量数据库
byte_store = LocalFileStore("./multy-vector")
db = FAISS.from_documents(summary_docs,embedding=OpenAIEmbeddings(model="text-embedding-3-small"),
)# 6.构建多向量检索器
retriever = MultiVectorRetriever(vectorstore=db,byte_store=byte_store,id_key="doc_id",
)# 7.将摘要文档和原文档存储到数据库中
retriever.docstore.mset(list(zip(doc_ids, docs)))# 8.执行检索
search_docs = retriever.invoke("推荐一些潮州特产?")
print(search_docs)
print(len(search_docs))

输出内容:

[Document(metadata={'source': './电商产品数据.txt'}, page_content='产品名称: 潮汕鱼丸\n\n电商网址: shop.example.com/fishballs\n\n产品描述: 潮汕鱼丸采用新鲜鱼肉,加入少量淀粉和调味料,手工捶打成丸,Q弹爽滑,鱼香浓郁。\n\n产品特点:\n\n原材料: 新鲜鱼肉、淀粉、盐、胡椒粉\n\n制作工艺: 传统手工捶打\n\n口感: Q弹爽滑,鲜美可口\n\n净重: 500克/袋、1000克/袋\n\n保质期: 6个月(冷冻保存)\n\n发货方式: 顺丰冷链配送,确保新鲜\n\n物流信息: 24小时内发货,预计2\n\n3天到货\n\n推荐菜系:\n\n鱼丸火锅: 搭配各类蔬菜、菌类,煮至鱼丸浮起即可。\n\n鱼丸煮汤: 与蔬菜同煮,味道鲜美。\n\n价格:\n\n500克: 55元/袋\n\n1000克: 100元/袋\n\n6. 潮汕豆腐花\n\n产品名称: 潮汕豆腐花\n\n电商网址: shop.example.com/tofupudding\n\n产品描述: 潮汕豆腐花使用优质黄豆,传统工艺制作,质地细腻,入口即化,豆香浓郁。\n\n产品特点:\n\n原材料: 黄豆、水、石膏\n\n制作工艺: 传统手工点浆\n\n口感: 细腻嫩滑,豆香浓郁\n\n净重: 450克/盒\n\n保质期: 5天(冷藏保存)'), Document(metadata={'source': './电商产品数据.txt'}, page_content='产品特点:\n\n原材料: 猪后腿肉、香料、盐、糖\n\n制作工艺: 精细切割,手工卷制\n\n口感: 鲜嫩多汁,咸香可口\n\n净重: 400克/袋、800克/袋\n\n保质期: 3个月(冷冻保存)\n\n发货方式: 顺丰冷链配送,确保新鲜\n\n物流信息: 24小时内发货,预计2\n\n3天到货\n\n推荐菜系:\n\n猪肉卷煎烤: 切片后煎至金黄,外脆里嫩。\n\n猪肉卷炖煮: 切块后与蔬菜同炖,风味更佳。\n\n价格:\n\n400克: 58元/袋\n\n800克: 108元/袋\n\n3. 潮汕三宝(酱油、甜醋、虾酱)\n\n产品名称: 潮汕三宝\n\n电商网址: shop.example.com/chaoshanthree\n\n产品描述: 潮汕三宝包含酱油、甜醋和虾酱。酱油由大豆、麦子自然发酵而成,甜醋以糯米酿制,虾酱选用新鲜海虾发酵,是潮汕菜肴必备调味品。\n\n产品特点:\n\n酱油: 大豆、麦子自然发酵,500ml/瓶\n\n甜醋: 糯米酿制,500ml/瓶\n\n虾酱: 新鲜海虾发酵,200克/瓶\n\n保质期: 酱油和甜醋12个月,虾酱6个月\n\n发货方式: 顺丰配送,确保完好\n\n物流信息: 24小时内发货,预计2\n\n3天到货\n\n推荐菜系:'), Document(metadata={'source': './电商产品数据.txt'}, page_content='口感: 鲜嫩多汁,味道浓郁\n\n净重: 500克/袋、1000克/袋\n\n保质期: 3个月(冷冻保存)\n\n发货方式: 顺丰冷链配送,确保新鲜\n\n物流信息: 24小时内发货,预计2\n\n3天到货\n\n推荐菜系:\n\n红烧狮子头: 加热后直接食用,适合作为主菜。\n\n狮子头炖菜: 与蔬菜同炖,味道更佳。\n\n价格:\n\n500克: 60元/袋\n\n1000克: 110元/袋\n\n10. 潮汕香菇肉酱\n\n产品名称: 潮汕香菇肉酱\n\n电商网址: shop.example.com/mushroomsauce\n\n产品描述: 潮汕香菇肉酱采用香菇和猪肉为主要原料,加入特制酱料炒制而成,香气扑鼻,味道鲜美。\n\n产品特点:\n\n原材料: 香菇、猪肉、酱料\n\n制作工艺: 精细切割,炒制均匀\n\n口感: 鲜香可口,酱香浓郁\n\n净重: 200克/瓶、400克/瓶\n\n保质期: 6个月(常温保存)\n\n发货方式: 顺丰配送,确保完好\n\n物流信息: 24小时内发货,预计2\n\n3天到货\n\n推荐菜系:\n\n拌饭: 加入米饭中,提升口感。\n\n拌面: 加入面条中,风味独特。\n\n价格:\n\n200克: 35元/瓶\n\n400克: 65元/瓶'), Document(metadata={'source': './电商产品数据.txt'}, page_content='口感: 细腻嫩滑,豆香浓郁\n\n净重: 450克/盒\n\n保质期: 5天(冷藏保存)\n\n发货方式: 顺丰冷链配送,确保新鲜\n\n物流信息: 24小时内发货,预计2\n\n3天到货\n\n推荐菜系:\n\n甜食: 加糖水、红豆、芝麻食用。\n\n咸食: 加入虾米、葱花、酱油食用。\n\n价格: 25元/盒\n\n7. 潮汕鱼露\n\n产品名称: 潮汕鱼露\n\n电商网址: shop.example.com/fishsauce\n\n产品描述: 潮汕鱼露以新鲜小鱼为原料,经过发酵、过滤而成,味道鲜美,是潮汕菜肴必备调味品。\n\n产品特点:\n\n原材料: 小鱼、盐\n\n制作工艺: 自然发酵,传统工艺\n\n口感: 鲜美咸香\n\n净重: 500ml/瓶\n\n保质期: 12个月\n\n发货方式: 顺丰配送,确保完好\n\n物流信息: 24小时内发货,预计2\n\n3天到货\n\n推荐菜系:\n\n凉拌菜: 作为调味料使用,提升菜肴鲜味。\n\n炒菜: 适合炒菜提鲜。\n\n价格: 38元/瓶\n\n8. 潮汕糯米肠\n\n产品名称: 潮汕糯米肠\n\n电商网址: shop.example.com/glutinousrice')]

除了使用 摘要 来检索全文,多向量检索一般还适用于 子文档检索父文档 假设性查询检索,其中 假设性查询检索 是利用 LLM 对切块后的文档生成多个 假设性标题,在向量数据库中存储 假设性标题 文档块,使用检索到的数据查找 原始文档。
核心代码修正如下

from typing import Listimport dotenv
from langchain_core.documents import Document
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_openai import ChatOpenAIdotenv.load_dotenv()class HypotheticalQuestions(BaseModel):"""生成假设性问题"""questions: List[str] = Field(description="假设性问题列表,类型为字符串列表",)# 1.构建一个生成假设性问题的prompt
prompt = ChatPromptTemplate.from_template("生成一个包含3个假设性问题的列表,这些问题可以用于回答下面的文档:\n\n{doc}")# 2.创建大语言模型,并绑定对应的规范化输出结构
llm = ChatOpenAI(model="gpt-3.5-turbo-16k", temperature=0)
structured_llm = llm.with_structured_output(HypotheticalQuestions)# 3.创建链应用
chain = ({"doc": lambda x: x.page_content}| prompt| structured_llm
)hypothetical_questions: HypotheticalQuestions = chain.invoke(Document(page_content="我叫慕小课,我喜欢打篮球,游泳")
)
print(hypothetical_questions)

输出内容

questions=['如果你不能打篮球,你会选择什么运动?', '如果你不能游泳,你会选择什么运动?', '如果你不能进行任何体育运动,你会选择什么爱好?']

接下来针对每个文档生成的 假设性查询 创建 Document列表,并添加 doc_id,添加到向量数据库中,并将 doc_id 与原始文档进行绑定,存储到 文档数据库/字节数据库 即可。


文章转载自:

http://5TuCgjj8.zdnrb.cn
http://eFDIqlT7.zdnrb.cn
http://ZjtV7HpT.zdnrb.cn
http://XBMxRHLT.zdnrb.cn
http://BDjYzOuX.zdnrb.cn
http://hP9WzXiR.zdnrb.cn
http://73XggndI.zdnrb.cn
http://ZjYvMNcn.zdnrb.cn
http://alLhi0J4.zdnrb.cn
http://gRvRUh7u.zdnrb.cn
http://SrHt0Vgi.zdnrb.cn
http://Ur3kxOW2.zdnrb.cn
http://kXsR2NdK.zdnrb.cn
http://Fg44Kp4D.zdnrb.cn
http://LPwusWlH.zdnrb.cn
http://zGtS9Yi4.zdnrb.cn
http://eXoTy1Rs.zdnrb.cn
http://5BjI8afx.zdnrb.cn
http://wvF81AO7.zdnrb.cn
http://7GsGexGE.zdnrb.cn
http://xhpEQs74.zdnrb.cn
http://wLFTP3o9.zdnrb.cn
http://rZZJaA0P.zdnrb.cn
http://vAKXI9s4.zdnrb.cn
http://MrPo26Kv.zdnrb.cn
http://AgOYGBcs.zdnrb.cn
http://Rwqv2Wrz.zdnrb.cn
http://K2OFtIaL.zdnrb.cn
http://M9KxFtoo.zdnrb.cn
http://KHjsWhcJ.zdnrb.cn
http://www.dtcms.com/wzjs/664274.html

相关文章:

  • 湖州佳成建设网站网页设计实训报告1500字通用
  • 做网站好用的cms中国icp备案的有多少企业网站
  • 网站建设的软件有哪些徐州seo排名收费
  • 北京网站排名制作郑州网站关键词排名
  • 长春头条新闻今天广州搜索引擎优化
  • 做淘宝网站要会程序吗智慧团建团员注册入口
  • 做网站价格报价费用多少钱网站如何paypal支付方式
  • 广州互帮物流哪家公司做的网站wordpress 父级页面
  • html网站源码昆明出入最新规定
  • 网站备案账号是什么情况重庆排名seo公司
  • 网站建设的问题网站改版的方式大致为
  • 站免费下载安装秋风最新消息
  • 怎么样网站建设监控系统网站开发
  • 江苏省工程建设协会网站广告传媒公司加盟代理
  • 厦门做外贸网站重庆装修贷
  • 免费开源网站系统有哪些世安建设有限网站
  • 怀宁县住房和建设局网站企业网站建设骆诗设计
  • 巨野住房和城乡建设局网站中国电信企业邮箱21cn
  • 体育用品网站模板北京城建道桥建设网站
  • 如何做阿里详情页面链接到外部网站西安建站
  • 腾讯云网站备案吗罗湖区seo排名
  • 易语言编程软件做网站西安论坛网站制作维护
  • 网站建设管理属于职业资格吗做是么网站
  • 短视频seo厂家青岛seo整站优化
  • 网站建设工作策划方案谷歌paypal下载
  • 重庆建网站 私单国内网站建设流程
  • 就有公司域名怎么建设网站简单网页制作素材
  • 太仓住房与城乡建设部网站如何用个门户网站做销售
  • 做钓鱼网站会被抓判刑吗宿迁网站建设宿迁
  • 做与食品安全有关的网站如何用云指做自己的网站