当前位置: 首页 > wzjs >正文

收录网站是怎么做的天猫关键词排名怎么控制

收录网站是怎么做的,天猫关键词排名怎么控制,北京工商注册网官网,胖哥网站的建设目标大语言模型>3.10 课程中会用到python 工具箱: faiss,modelscope,langchain,langchain_community,PyPDF2 1)大模型应用开发的三种模式 提示词没多少工作量,微调又花费时间费用,RAG是很多公司招聘用来对LLM进行应用…

大语言模型>=3.10

课程中会用到python 工具箱:

faiss,modelscope,langchain,langchain_community,PyPDF2

1)大模型应用开发的三种模式

提示词没多少工作量,微调又花费时间费用,RAG是很多公司招聘用来对LLM进行应用开发的

 什么是RAG 

RAG(Retrieval-Augmented Generation):

检索增强生成,是一种结合信息检索(Retrieval)和文本生成(Generation)的技术

RAG技术通过实时检索相关文档或信息,并将其作为上下文输入到生成模型中,从而提高生成结果的时效性和准确性

RAG的优势是什么?

解决知识时效性问题:大模型的训练数据通常是静止的,无法涵盖最新信息,而RAG可以搜索外部知识库实时更新信息。

减少模型幻觉:通过引入外部知识,RAG能够减少模型生成虚假或不准确内容的可能性

提升专业领域回答质量:RAG能够结合垂直领域的专业知识库,生成更专业深度的回答

2)RAG的核心原理与流程

Step1,数据预处理

知识库构建:收集并整理文档,网页,数据库等多源数据,构建外部知识库
文档分块:将文档切分为适当大小的片段(chunk),以便后续检索。分块策略需要在语义完整性与检索效率之间取得平衡
向量化处理:使用嵌入模型(如BGE,M3E,Chinese-AIpaca-2)将文本块转为向量,并存储在向量数据库中

Step2,检索阶段

查询处理:将用户输入的问题转换为向量,并在向量数据库中进行相似度检索,找到最相关的文本片段
重排序:对检索结果进行相关性排序,选择最相关的片段作为生成阶段的输入

Step3,生成阶段

上下文组装:将检索到的文本片段与用户问题结合,形成增强的上下文输入
生成回答:大语言模型基于增强的上下文生成最终回答

Q1企业原始知识整理有什么特殊的格式吗?比如统一知识文档格式啥的
对于AI来说,Markdown是最友好的格式
        如果想要将PPT转化为Markdown,
        1)对PPT里面的内容进行extract
        2)对抽取出来的内容 放到Markdown中
        如果是图像 =>使用 Qwen-VL进行理解
Q2知识是存储在向量库还是其他库
向量数据库=>原文,embedding(相似度检索,找到最优价值的chunks)
Q3 原始文档切分chunk怎么做
        a)指定规则,比如chunk size = 1000,overlap =10%,包含句子,标定
        b)语义上的切分
        c)对数据质量提升,和文档总结还需要多关注

NativeRAG

NoteBookLM使用(推荐工具)

需要在外网使用,https://notebooklm.google.com/

现成RAG产品 Cherry Studio,ima compilot,notebooklm ,钉钉助理很像coze
 

Embedding模型选择

Embedding嵌入向量中表达方式
Q1:Embedding模型选择:huggingface有打榜排名(开源和闭源)
Q2:在哪里找到embedding模型:https//modelscope.cn/

偏向知识类

偏向指令驱动和复杂任务模型

BGM3,Qwen不错,Jina适合端侧推理

Q1)在modescope下载很快

Q2)用户的Query指令:
1)instruction指令
2)知识
多模态的embedding
Q3)知识分为2阶段
在向量数据库中,可以有2个阶段
1)召回:快速采用多种策略进行粗筛过程,策略1基于关键词匹配100,策略2基于相似策略匹配
2)重排
向量数据库中保存的chunk可能会有1000万个=>召回快速筛出1000个=>重排序Top10

CASE:DeepSeek+Faiss搭建本地知识库检索

# 创建文本分割器,用于将长文本分割成小块
text_splitter =RecursiveCharacterTextSplitter(
        separators=["\n\n","\n"," "],
        chunk size=1000,#chunk大小的上限
        chunk_overlap=200,#每个chunk之间重叠的比例
        length function=len,

读取pdf然后用分割函数进行分隔,再从文本块创建知识库放入knowledge =FAISS.from_texts(chunks,embeddings)中,后面process_text_splitter 处理文本并创建向量存储
用langchai回答提示词promt的query

总结:
chatpdf- faiss代码中,使用2个模型
1)推理模型 qwen-turbo
2)Embedding模型text-embedding-v1

chunk策略:
        chunk_size =1000, overlap = 200,分割是按照标定符号进行分割(句号,换行)
        docs = knowledgeBase.similarity_search(query)
为什么要分块:
        如果不分块,整个文件作为一个基本单元,那么文件里面的内容会比较多=>3072维的向量中不清晰
chunks是原文,chunk_embedding 3072维

可以进行新增知识库软件
        1)扣子 coze软件 ,
        上传文件,
        创建设置:文档解析,分段策略,分段层级,配置存储
        数据解析
        2)Dify开源
        3)LangChain实现了qa_chain,可以用fassis做向量数据库
 

知识库回答不了的,再调用推理模型吗?
知识库的作用是上下文,可能上下文中没有用户提到的问题,可以在prompt中说明,是否让LLM自己来进行回答,如果llm中没有相关知识,rag是不是就没有效果了。

LangChain中的问答链

RAG的意义 

RAG 是一种Filter过滤,检索过程透明(根据参考文献)

RAG常见问题--如何提升RAG质量

rag 准备阶段---检索阶段---生成阶段

layoutLM和layoutLLM

改进词提示模板

1)人工规则=>针对常见的Query,但是能设置的规则有限
2)LLM自己来思考

通过think=>优化了用户的提示词,让回答质量回答很高

RAG和Chunk关联是什么-->RAG 知识检索系统,chunk分块,是知识的最小单位
向量数据库是存储在本地文件夹下:knowledgeBase.save_local('./faiss-1')

如果文档里,有文字和图片,怎么保证图片跟相关文字不会拆成2个chunk呢?
如果PDF中有图片,需要先做预处理(将图片转化为文本),=>转化为全部文本
再做chunk(chunk_size =1000,overlap = 100)

总结=>概要级的

        LangChain更灵活,个性化 dify更方便
不同的维度向量能计算相似度吗?还是会补充维度
        需要变成统一维度
向量数据库和embedding模型是什么关系
        向量数据库是一个软件,存储了很多chunk的embedding,给你提供了save,load,find_similarity的接口
        embedding是一种向量格式
LLM可以兼容RAG吗.rag的优势怎么集成在LLM中
        LLM(推理引擎)+RAG(外挂知识库)

私有化RAG用来数据安全性,如果知识来自于网络,用notebookLM是方便的(Gemini-embedding,Gemini2.5,召回和重拍的策略,以及对每篇文章做了预处理:文档的概览+关键词)
质量好=>开发工作少不了,使用开源Qwent-Agent=>RAG 质量不错的,但是会用token换取质量高

Thinking:个人想构建知识库,用于教学,资料主要是PPT,Word,Excel和PDF,如何低成本构建,并且可以保护知识产权?
先试试Qwen-Agent(效果还不错,而且是开源的)
Thinking:
结构化的数据可以用Qwen-Agent吗,免得做传统的SQL开发
Text2SOL.可以在Qwen-Agent中设置 Tool,Qwen-Agent不光是可以用于RAG,还可以让AI Agent
调用各种Tool,针对结构化的数据可以使用Text2SQL工具

Thinking:如果QWEN-AGENT非常的成熟的话,简单易做,那我们学RAG如何体现出我们自己的价值现阶段 没有很成熟的RAG系统
Qwen-Agent只是一种Agent框架,(集成了一部分 RAG的策略,召回、重排、以及生成的策略)
=>Qwen-Agent 回答质量还可以(比钉钉助理略好),但是不如 notebookLM自己使用Qwen-Agent的话,也可以加很多其他的策略,比如对数据的预处理

(开源)LayoutLM=>LayoutLLM=>进行提问和理解=>整理出来PDF和PPT理解,用于完善对应的知识markdown

Thinking:知识图谱和知识库有什么区别
        知识图谱 是用Graph的方式,将知识链接起来。map=node,edge
        我们就可以在知识图谱上,对知识进行计算,比如姚明的女儿的身高是多少?
        chunk1:姚明的女儿叫 ABC
        chunk2: ABC的身高是多少

Thinking:cherry studio和qwen-agent哪个RAG策略好?
        cherry studio本身是个套壳产品,只是链接各种工具(LLM,MCP,RAG知识库)
        qwen-agent:开源的框架,提供了一些tool,提供一些RAG策略

http://www.dtcms.com/wzjs/113622.html

相关文章:

  • 做调查的网站网站模板免费下载
  • shopify做全品类网站代写文章多少钱
  • 门户网站建设美丽手游代理加盟哪个平台最强大
  • 做项目的招聘网站可口可乐软文营销案例
  • 临沂企业做网站seo新手教程
  • o元做网站曹操seo博客
  • 凡客诚品官方淘宝seo搜索排名优化
  • 福州小学网站建设重庆网站关键词排名优化
  • 宜昌做网站seo关键词排名教程
  • 做头像的网站空白智慧教育
  • 杭州百度做网站多少钱seo诊断专家
  • 常州制作企业网站网页设计规范
  • 大一学生做的网站最新新闻热点事件摘抄
  • 四川汉舟电力建设有限公司网站竞价推广账户托管服务
  • 网站制作合同模板优化英语
  • 手机网站自动跳转东莞seo排名扣费
  • 创建网络公司需要什么条件石家庄seo培训
  • wordpress 帝国备份王南京市网站seo整站优化
  • wifiu盘做网站网站怎样优化文章关键词
  • asp.net做网站武汉全网营销推广公司
  • 高端网站建设方案报价百度上免费创建网站
  • 在家用电脑做网站互联网营销师培训多少钱
  • 网站平台被骗了怎么办云搜索系统
  • 酒类做网站市场营销
  • 做网站生意深圳搜索seo优化排名
  • 济宁商城网站开发设计深圳网络推广服务公司
  • 现在哪个行业做网站需求多点免费网站排名优化软件
  • 网站开发流程图qq群排名优化
  • 大连网站设计公司如何快速网络推广
  • 推销别人做网站有什么作用营销策略分析论文