当前位置: 首页 > news >正文

网站 入站规则 设置湖北十大建筑公司排名

网站 入站规则 设置,湖北十大建筑公司排名,模板背景图片,网站选项卡代码概述 文本处理和查询处理系统将自然语言查询转换为与 RAGFlow 的文档存储后端配合使用的优化搜索表达式。该系统支持中英文文本处理,具有专门的标记化、术语加权和查询增强技术。核心组件 FulltextQueryer 类 FulltextQueryer 类是查询处理和文本分析的主要接口。它…

概述

文本处理和查询处理系统将自然语言查询转换为与 RAGFlow 的文档存储后端配合使用的优化搜索表达式。该系统支持中英文文本处理,具有专门的标记化、术语加权和查询增强技术。

在这里插入图片描述

核心组件

FulltextQueryer 类

FulltextQueryer 类是查询处理和文本分析的主要接口。它协调标记化、术语加权和查询构造。

元件目的关键方法
FulltextQueryer主查询处理控制器question()、paragraph()、hybrid_similarity()
RagTokenizer文本标记化和分段tokenize()、fine_grained_tokenize()
Dealer术语加权和预处理权重()、 预代币()、拆分()

系统使用预定义的查询字段进行初始化,这些字段在搜索期间接收不同的提升权重:

query_fields = ["title_tks^10",      # Title tokens (highest boost)"title_sm_tks^5",    # Title small tokens  "important_kwd^30",  # Important keywords (highest boost)"important_tks^20",  # Important tokens"question_tks^20",   # Question tokens"content_ltks^2",    # Content large tokens"content_sm_ltks"    # Content small tokens (base weight)
]

代币化系统

RagTokenizer 使用基于 trie 的方法进行中文文本分割,使用 NLTK 进行英文处理:

在这里插入图片描述

术语权重和评分

Dealer 类使用 IDF 分数和语言特征实现复杂的术语加权:

加权因子公式目的
频率 IDFlog10(10 + (N - s + 0.5) / (s + 0.5))惩罚常用术语
文档频率 IDF与文档计数类似的公式上下文感知权重
NER 权重命名实体类型乘数提升重要实体
POS 重量基于词性的评分语法重要性

最终权重结合了以下因素: (0.3 * freq_idf + 0.7 * df_idf) * ner_weight * pos_weight

查询处理管道

问题处理

question() 方法将用户查询转换为与 Elasticsearch 兼容的查询表达式:

在这里插入图片描述

文本预处理函数

该系统包括几个文本预处理实用程序:

功能目的实现
subSpecialChar()转义 Elasticsearch 特殊字符re.sub(r"([:{}/[]-*"()
isChinese()检测中文文本优势基于比率的性格分析
rmWWW()删除疑问词和停用词基于正则表达式的多种语言过滤
add_space_between_eng_zh()在英文和中文之间添加空格基于正则表达式的文本规范化

相似性计算

混合相似性评分

hybrid_similarity() 方法将向量相似性与基于标记的相似性相结合:
在这里插入图片描述
公式为: vector_sim * 0.7 + token_sim * 0.3

代币相似度算法

代币相似性使用加权术语匹配:

# Simplified version of the similarity calculation
def similarity(self, qtwt, dtwt):s = 1e-9  # Small constant to avoid division by zerofor k, v in qtwt.items():if k in dtwt:s += v  # Add query term weight if present in documentq = 1e-9  # Query normalization factor  for k, v in qtwt.items():q += v  # Sum all query term weightsreturn s/q  # Normalized similarity score

段落处理

paragraph() 方法通过从文本内容中提取和加权关键术语来生成基于内容的检索查询:

在这里插入图片描述
该方法构造具有动态最小匹配要求的查询:min(3, len(keywords) // 10)

与文档存储集成

查询处理系统生成与 RAGFlow 的文档存储层集成的 MatchTextExpr 对象:

参数目的示例值
query_fields要使用权重搜索的字段[“title_tks^10”, “content_ltks^2”]
query_stringElasticsearch 查询表达式(term1^1.5 OR synonyms^0.2)
boost总体查询提升因子100
minimum_should_match最低匹配项0.6 或 3

配置和定制

系统使用多个可配置资源:

资源位置目的
字典rag/res/huqie.txt中文分割词典
NER 数据rag/res/ner.json命名实体识别映射
术语频率rag/res/term.freq文档频率统计
停用词内置套装要过滤的常用词
http://www.dtcms.com/a/608609.html

相关文章:

  • 厦门服装商城网站建设做电影网站心得体会
  • 青海住房与城乡建设厅网站广州微网站建设咨询
  • 石家庄建设厅官方网站湛江人才网招聘官方网
  • wordpress 为什么要ftp做seo是要先有网站吗
  • 佛山外贸网站建设新闻淄博网站制作设计定制
  • 有没有做培养基的网站手机网站开发下崽
  • 南通网站seo津南区提供网站建设协议
  • 怎么做购物网站系统文本网站开发环境与工具
  • 微服务与单体应用终极指南:如何选择最适合的系统架构
  • 长春网站制作网络推广网站开发人员工具下载视频
  • 网站优化方案ppt长沙seo外包服务
  • 360路由器做网站长沙模板网站长沙网站建设
  • 网站设计公司网站设计物流公司哪个最便宜
  • 什么网站可以做高仿网红营销策略
  • 寻找聊城做网站的公司一键搭建云免流服务器
  • 第一接单网app优化方案
  • 网站SEO的评价最挣钱没人干的行业
  • 网站功能模块是什么建筑材料交易平台
  • 焦作网站建设费用手机网站你们
  • 中国免费网站服务器主机域名免费网络wifi连接
  • 网站设计不同的原因p2p网站的建设
  • 网站内容建设需要注意哪些问题哈尔滨网站建设公司
  • 黄埭做网站宜兴做阿里巴巴网站
  • 门户网站网页设计成都推广运营公司
  • 一个做问卷调查的网站dw个人网站设计
  • 自适应企业建站企业58网站建设
  • 前端网站建设山西网站建设哪家好
  • 竹子林附近网站建设wordpress速度主题
  • 网站建设怎么学习上海网络维护找哪家好
  • 网站建设服务协议模板公众号怎么开通视频号