当前位置: 首页 > wzjs >正文

网站广告推广公司北京建设信源咨询有限公司网站

网站广告推广公司,北京建设信源咨询有限公司网站,wordpress 点击放大,设计师必去十大网站1. 引言构建一个基于BERT与混合检索策略的智能问答系统,通过深度学习与传统检索技术的融合,解决了心法领域知识检索中的三个关键问题:(1)专业术语的语义理解不足;(2)问答匹配精度低;(3)检索结果多样性差。2. 方法2.1. …

1. 引言

构建一个基于BERT与混合检索策略的智能问答系统,通过深度学习与传统检索技术的融合,解决了心法领域知识检索中的三个关键问题:(1)专业术语的语义理解不足;(2)问答匹配精度低;(3)检索结果多样性差。

2. 方法

2.1. 深度语义理解模块

BERT是预训练语言模型,基于 Transformer 架构,通过双向 Transformer 编码来学习文本的深层语义表示。BERT 的核心创新在于其双向训练方式,能够同时理解上下文的关系,常用于多项自然语言处理任务。

采用BERT最后四层隐藏状态的加权融合策略,将问题转换为向量表示。

  1. 选取了 BERT 模型的最后四层隐藏状态
  2. 定义了各层的权重( [0.15, 0.25, 0.35, 0.25]),并进行了归一化处理
  3. 提取了各层隐藏状态中 CLS 标记的向量表示
  4. 对各层的 CLS 向量进行加权求和

2.2. 混合检索算法

混合检索算法是结合符号检索(如关键词匹配、规则匹配)和语义检索(如向量匹配、深度学习模型)优势的检索技术,旨在平衡检索的准确性、召回率和语义理解能力。它解决了单一检索方式的局限性,如关键词检索无法理解语义,纯语义检索可能遗漏精确匹配结果;应用于信息检索、推荐系统、问答系统等领域。

2.2.1. 语义-关键词协同架构

既保证对 “显性关键词” 的精准匹配,又能理解 “隐性语义”(如同义词、上下文关联),最终提升检索的召回率和准确率,即不漏掉相关结果、返回更相关的结果。

语义检索通道:

  • 原理:基于 “隐性语义理解”,将查询和文档转换为向量,通过向量相似度匹配语义相关内容,不依赖字面关键词。
  • 优势:能理解同义词、上下文语义、跨语言检索。
  • 局限性:可能引入语义相似但无关的 “噪声结果”(如 “猫的饲养方法” 匹配 “狗的训练技巧”)、计算成本高于关键词检索。

关键词检索通道:

  • 原理:基于 “显性符号匹配”,聚焦查询中的核心关键词,通过精确匹配或模糊匹配定位相关内容。
  • 优势:速度快、可解释性强、对专有名词、人名、地名的检索精准。
  • 局限性:无法处理同义词、语义歧义、长句上下文关联(代词的指向)

2.2.2. 权重分配策略

2.3. 智能去重模块

2.3.1. 三重去重机制

内容哈希级去重:

  • 基于SimHash算法检测字面重复
  • 设置5词滑动窗口处理近义表达(如"如何静心"与"怎样静心")

语义级去重:

  • 93%相似度阈值基于实验确定:低于该值可能丢失合理变体,高于则产生冗余
  • 采用余弦相似度+曼哈顿距离的双重度量

动态阈值扩展:

  • 初始相似度阈值设为0.85
  • 当返回结果不足5条时,以0.02为步长逐步放宽至0.75
  • 确保在任何情况下都能返回适度数量的相关结果
2.3.2. 语义相似度判定

采用双阈值判定策略:

  1. 余弦相似度>0.93
  2. 曼哈顿距离<0.15

同时满足上述两点才判定为重复

3. 实验结果

创建虚拟环境并激活

python -m venv venv
venv\Scripts\activate

分步安装依赖

#升级pip工具
python -m pip install --upgrade pip
#安装核心依赖
pip install torch==2.0.1+cpu -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers==4.30.0 jieba==0.42.1 numpy==1.24.2 flask==2.3.2

准备

#确保BERT目录存在
if not exist BERT mkdir BERT
# 首次运行预加载
python -c "from transformers import BertModel; BertModel.from_pretrained('bert-base-chinese').save_pretrained('./BERT')"

运行

python xinfa_QA.py

4. 总结

本周完成了戴雄斌学长的中华心法问答系统的复现,对其中的一些方法实现基本了解,了解了多层BERT向量融合、混合检索算法、三层去重的机制等方法的实现。


文章转载自:

http://gi80iYTu.qwbtr.cn
http://KaHSqPIc.qwbtr.cn
http://00HBTlz5.qwbtr.cn
http://1TJF8mMR.qwbtr.cn
http://0KJvnz3j.qwbtr.cn
http://snKnAfPO.qwbtr.cn
http://fkKB8FsC.qwbtr.cn
http://PJQuFLbV.qwbtr.cn
http://pP0m7Oxm.qwbtr.cn
http://wTifjwxU.qwbtr.cn
http://psGPAcVA.qwbtr.cn
http://KTA4hYL3.qwbtr.cn
http://T3uTWexT.qwbtr.cn
http://eo2p54wR.qwbtr.cn
http://A2nEQAFp.qwbtr.cn
http://IWnd18CY.qwbtr.cn
http://oi4DMS0e.qwbtr.cn
http://PMVmjZuB.qwbtr.cn
http://VLUqV4Y0.qwbtr.cn
http://bh3f7sLP.qwbtr.cn
http://O63wbV3V.qwbtr.cn
http://ymWoCdPm.qwbtr.cn
http://0QZ22o2F.qwbtr.cn
http://qLItqnlu.qwbtr.cn
http://AojOqUJK.qwbtr.cn
http://TKveTvvN.qwbtr.cn
http://2Wa7KgBW.qwbtr.cn
http://QgDTpKCP.qwbtr.cn
http://pxmZXCEw.qwbtr.cn
http://pRVVcShr.qwbtr.cn
http://www.dtcms.com/wzjs/776779.html

相关文章:

  • 手机站网站布局电商网站首页
  • 陕西建设厅网站上海网站设计开
  • 自己主机做网站服务器吗wordpress中国风主题
  • 做网站需要写代码鸿顺里网站建设
  • 建设银行资讯网站北京漫步云端网站建设
  • 网站建设中网站功能描述书功能建网站怎么弄
  • 信阳网站开发石家庄百度推广开户
  • 中小型网站建设机构常用网站开发软件
  • 个人做网络推广哪个网站好优秀的html5网站 2016
  • 加强健康养老网站建设南宁建站公司有哪些
  • 中国建设招标网 官方网站dw做网站注册页代码
  • 淮安集团网站建设网站扫二维码怎么做的
  • 做网站有没有前景江苏省建筑网站
  • 简述网站开发的流程深圳小程序开发
  • 黄金网站软件app大全下载深圳社保
  • 二级网站收录廊坊排名推广
  • 网站策划公司化妆品 营销型网站
  • 北京做网站哪家便宜网站历史记录怎么恢复
  • 用wordpress做微站装修方案
  • 正版win10做win7系统下载网站wordpress title标签
  • 电子商城网站开发价格企业网站建设的请示
  • 山东济南公司网站wordpress用户注册邮件
  • 要建网站有产品做推广 选哪个 网站
  • 台州企业做网站合肥网站建设是什么意思
  • 个人建个网站多少钱侨联网站建设方案
  • php美食网站开发背景免费的空间网站
  • 淘宝客网站免费建站扬州市建筑信息平台
  • 做项目的编程网站空白word个人简历
  • 怎样提高网站转化率海口本地网站
  • 58同城石家庄网站建设上海发布网站