当前位置：首页 > news >正文

智能座舱问答

news 2025/10/1 7:25:13

动态调整窗口长度（覆盖 512–2048 token 区间）的具体逻辑与实现细节是怎样的？

多维度召回策略的“维度”具体包含哪些？为何选择 Dense、Sparse、字面召回这三类？

集成 Dense 语义召回时，选择 M3E 模型的依据是什么？版本如何确定？

语义匹配准确率提升 22%”的 baseline 是什么？原准确率是多少？

Sparse 召回覆盖率能到 95%+，具体是用什么方法实现的？

基础信息召回率稳定 95%+”里的“基础信息”指哪些内容？如何保障稳定性

字面召回中 TF-IDF 与 BM25 是串行、并行还是加权融合？融合权重如何确定？

选择 Faiss 作为向量检索引擎，对比 Milvus 等其他向量数据库有何考量？

BGE-Reranker 精排模型与 Faiss 如何配合？精排的输入内容与格式是怎样的？

候选答案排序 AUC 提升至 0.91”，AUC 计算的数据集与评价逻辑是什么？

IDF 和 BM25 在召回中的作用有什么区别？

Faiss 的索引类型你们是怎么选的？

Faiss 的空间优化？

多路召回与精排的整体流程，你能简单复述一下吗？

1. 第一步：多路召回。用户 query 同时走 Dense、Sparse、字面三种召回，得到候选集合。
2. 第二步：融合。对多路结果进行归一化打分，按权重融合，形成统一候选集。
3. 第三步：精排。候选集输入 BGE-Reranker，与 query 成对打分，重新排序。
4. 第四步：生成。Top-K 文档送入大模型生成最终答案。

推理基座理由

人工构造 2000+ 条全场景测试集时，“全场景”覆盖了哪些具体场景？如何保障全面性？

“全场景”主要涵盖 功能性问答（按钮、操作步骤）、故障排查（报警灯、异常现象）、安全提示（急刹车、气囊）、保养维护（机油、更换零件）、跨语言问答（中英文混合）。
为保障全面性，我们参考了 3 种来源：① 汽车厂商官方手册目录；② 用户常见问题（售后 FAQ）；③ 模拟场景对话（如车机交互）。
每类场景覆盖 200–500 条问答，确保不同类别均有足够样本。
测试集定期由人工审核和增量补充，保证场景不遗漏。