当前位置: 首页 > news >正文

Milvus vs. ElasticSearch:向量库检索性能测试

目录

    • 1. 构建检索库
    • 2. 测试条件
    • 3. 测试结果
    • 4. 性能分析
    • 5. 结论

1. 构建检索库

  • 构建通用场景库总计约2万张。
  • 构建车辆数据库总计约12万张。
  • 构建公共数据库,包括Flickr30k、COCO、nlvr2、vqa等数据集约43万张。

2. 测试条件

  • 环境说明:分别单机部署Milvus和Elasticsearch。
  • 配置说明:分别基于Milvus和Elasticsearch构建三种不同规模的检索库,Embedding维度为1024,均是采用余弦相似度计算距离,采用ANN方法返回topk检索结果,其他检索条件均相同。

3. 测试结果

检索库类型检索库大小(万)ES检索性能(秒/次)Milvus检索性能(秒/次)Milvus性能优势倍数
通用场景库20.02530.00524.87
车辆数据库120.108250.0064616.76
公共数据库430.366840.0070851.82

4. 性能分析

  1. 小数据量场景(2W)

    • Milvus 性能是 ES 的 4.87 倍,表明即使在小规模数据下,Milvus 的向量检索效率仍显著优于 ES。
  2. 中大数据量场景(12W/43W)

  • 12W 数据量时,Milvus 性能提升倍数扩大至 16.76
  • 43W 数据量时,Milvus 性能优势达到 51.82
  • ES 的检索耗时随数据量增长呈非线性上升(从 0.0253s → 0.36684s),而 Milvus 仅从 0.0052s → 0.00708s,增长幅度极小。
  1. 扩展性差异
  • ES 的检索性能与数据量高度相关,说明其底层架构对大规模向量数据的处理效率存在瓶颈。

  • Milvus 则展现出优异的扩展性,其检索耗时几乎不受数据量增长影响,体现了专用向量数据库的设计优势。

5. 结论

  • Milvus 优势:专为向量检索优化,采用列式存储、近似最近邻(ANN)算法和分布式架构,在大规模场景下性能显著优于 ES。
  • ES 局限性:基于倒排索引的架构对非结构化向量数据处理效率较低,适合文本检索为主的混合场景。
  • 选型建议
    ✔️ 纯向量检索场景(尤其是数据量 >10W 时)优先选择 Milvus
    ✔️ 文本+向量混合检索场景可考虑 ES,但需接受向量性能折损

相关文章:

  • 中断服务函数和回调函数的理解
  • 介绍一下TiDB、RocksDb、levelDB、LSM 树、SSTable。
  • 2025年R1 快开门式压力容器操作证考试题目及答案解析
  • 【“缘起”:万物依条件而生】
  • dart学习记录4(循环、分钟、错误处理)
  • 【AI News | 20250320】每日AI进展
  • MyBatis 执行流程详解:一级缓存与二级缓存深度解析
  • QT并发编程进阶--线程安全与同步技巧详解
  • css-grid布局
  • 日期类的实现
  • 基于复杂的商业和政策信息构建GraphRAG,并结合通义千问大模型进行问答的应用场景
  • 美团Leaf分布式ID实战:深入解析雪花算法原理与应用
  • 网络空间安全(38)Windows/Linux权限
  • 算法刷题记录——LeetCode篇(1) [第1~100题](持续更新)
  • yarn install 出现certificate has expired报错问题
  • 读博士论文(未完待续)
  • (九)Dart 中的 Map(映射)
  • FPGA设计中时间单位科普
  • VS Code使用过程记录
  • Redisson 分布式锁原理
  • 王毅将出席《关于建立国际调解院的公约》签署仪式
  • 讲述“外国货币上的中国故事”,《世界钱币上的中国印记》主题书刊出版发布
  • 第1现场|俄媒称乌克兰网上出售北约对乌军培训手册
  • 新华社千笔楼:地方文旅宣传应走出“魔性尬舞”的流量焦虑
  • 一女游客在稻城亚丁景区因高反去世,急救两个多小时未能恢复生命体征
  • 义乌至迪拜“铁海快线+中东快航”首发,物流成本降低18%