当前位置: 首页 > news >正文

AGI大模型(21):混合检索之混合搜索

为了执行混合搜索,我们结合了 BM25 和密集检索的结果。每种方法的分数均经过标准化和加权以获得最佳总体结果

1 代码

先编写 BM25搜索的代码,再编写密集检索的代码,最后进行混合。

from rank_bm25 import BM25Okapi
from nltk.tokenize import word_tokenize
import jieba
import json# Sampledocuments
# documents = ["The cat sat on the mat.", "The dog barked at the moon.", "The sun is shining bright."]with open('train_zh.json', 'r', encoding='utf-8') as f:data = [json.loads(line) for line in f]# print(data[0:100])
# Extract instructions and outputs
instructions = [entry[

相关文章:

  • CSS 浮动与定位以及定位中z-index的堆叠问题
  • 管理前端项目依赖版本冲突导致启动失败的问题的解决办法
  • 深度学习---知识蒸馏(Knowledge Distillation, KD)
  • 代码随想录算法训练营第60期第三十九天打卡
  • C# 深入理解类(静态函数成员)
  • UDP三种通信方式
  • Axure元件动作四:设置选中
  • 为 Spring Boot 应用程序构建 CI/CD 流水线
  • 3、函数和约束
  • 2025B难题练习
  • ecmascript 第6版特性 ECMA-262 ES6
  • 数据库的规范化设计方法---3种范式
  • scss additionalData Can‘t find stylesheet to import
  • WebXR教学 07 项目5 贪吃蛇小游戏
  • 阿里巴巴开源移动端多模态LLM工具——MNN
  • 北京市工程技术人才职称评价基本标准条件解读
  • 力扣HOT100之二叉树:98. 验证二叉搜索树
  • JAVA的常见API文档(上)
  • AtCoder AT_abc406_c [ABC406C] ~
  • 蓝牙耳机什么牌子好?倍思值得冲不?
  • 中国旅马大熊猫“福娃”和“凤仪”启程回国
  • 2024年全国博物馆接待观众14.9亿人次
  • 李洋谈美国黑帮电影与黑帮文化
  • 中国驻美大使:远离故土的子弹库帛书正随民族复兴踏上归途
  • 天算星座二期首批卫星成功发射,将助力6G空天信息基础设施建设
  • 特朗普称即将与伊朗达成核协议,外交部:中方愿继续发挥建设性作用