面试被问到query不规范,导致召回难度大,如何解决呢
1. 查询规范化 (Query Normalization)
查询规范化的目的是将用户的多样化、口语化的表达,统一成机器更容易理解和处理的标准形式。主要方法包括:
-
拼写纠错 (Spelling Correction):
-
问题: 用户输入时可能出现手误、拼音错误等。例如,将“苹果手机”输成“凭果手机”。
-
解决方法:
-
离线构建纠错词典: 基于海量用户日志和公开词库,挖掘常见的错误对。
-
在线检测与纠正: 利用语言模型(如N-gram)或深度学习模型(如Seq2Seq、BERT)来检测并纠正错误。例如,系统可以将“iphon”自动改写为“iphone”。[1]
-
-
效果: 直接修正错误,大大提升后续环节的准确性。
-
-
词形归一 (Stemming and Lemmatization):
-
问题: 用户可能使用一个词的不同形态,如“跑步”和“跑”。
-
解决方法: 将词语转换为其基本形态(词干或词元)。例如,将英文中的 "running"、"ran" 都归一化为 "run"。[2]
-
效果: 扩大匹配范围,避免因词形不同而漏掉相关结果。
-