当前位置：首页 > news >正文

一个强大的向量数据库——Milvus

news 2025/8/2 18:55:21

Milvus 是一个开源的、高性能的向量数据库，专门用于存储和检索大规模、高维度的向量数据。它特别适用于 近似最近邻（ANN） 搜索，广泛应用于 推荐系统、计算机视觉、自然语言处理、语音识别 等领域，特别是在处理高维嵌入数据时，Milvus 提供了高效的查询性能。

Milvus 设计为支持大规模、高并发的数据查询，提供了多种先进的索引方法，并且支持分布式部署，可以扩展到处理数亿甚至数十亿级别的向量数据。

1. Milvus 的核心特点

1.1 高效的相似性搜索

Milvus 的主要功能是 近似最近邻（ANN）搜索，通过将高维向量映射到低维空间，并使用高效的索引结构来加速查询。Milvus 提供了多种索引算法和距离度量方式，适应不同场景的需求。

1.2 支持多种索引类型

Milvus 支持多种索引算法，可以根据数据特点和应用需求选择合适的索引：

IVF（倒排文件）：适用于大规模数据集，提供良好的查询性能。
HNSW（Hierarchical Navigable Small World）：一种图索引方法，适用于高维度数据，提供快速的查询响应。
ANNOY：基于近似向量树的索引，适用于内存限制的场景。
RocksDB：Milvus 使用 RocksDB 作为存储后端，具有高效的键值存储功能。

1.3 分布式架构

Milvus 支持 分布式部署，可以横向扩展处理大量数据。当数据量增大时，可以通过添加节点来扩展集群，支持高吞吐量和低延迟的查询。

1.4 支持高并发查询

Milvus 设计上支持高并发的查询请求，适用于需要实时响应的场景。支持多线程和异步查询，能够在大规模数据环境中保持高效的查询性能。

1.5 存储与计算分离

Milvus 支持存储与计算的分离，这意味着它的存储引擎和计算引擎是解耦的，可以分别独立扩展。这种设计使得 Milvus 在处理大规模数据时，能够提供良好的弹性和性能。

1.6 多种数据类型支持

Milvus 不仅支持向量数据，还支持其他数据类型，如整型、浮动型、字符串等，可以结合元数据进行搜索和过滤。

1.7 丰富的 API 和工具集

Milvus 提供了多种 API，支持多种编程语言（如 Python、Java、Go、Node.js 等），以及 CLI 和 RESTful API 接口，便于开发者进行集成。

2. Milvus 的工作原理

Milvus 的工作原理基于向量嵌入和高效的相似性搜索。以下是 Milvus 的数据流和操作流程：

数据导入：Milvus 接收输入的向量数据，并存储在内部数据库中。数据可以通过向量化模型（如 BERT、ResNet 等）转换成向量后导入到 Milvus 中。
创建索引：Milvus 根据数据的特性和应用需求，生成合适的索引（如 IVF、HNSW、ANNOY）。这些索引帮助加速查询，特别是在大规模数据集上。
相似性搜索：用户提交查询时，Milvus 使用预先生成的索引来快速找到与查询向量最相似的数据点（近似最近邻）。Milvus 支持多种距离度量，如欧式距离、余弦相似度等。
结果返回：Milvus 返回查询结果，这些结果是与查询向量相似度最高的向量。

3. Milvus 支持的距离度量

Milvus 支持多种距离度量方式，常用的包括：

欧式距离（L2）：用于计算两个向量之间的直线距离。
内积（IP）：计算两个向量的内积，常用于衡量向量之间的相似度。
余弦相似度（Cosine）：衡量两个向量的方向相似度，广泛应用于文本嵌入。

4. Milvus 的应用场景

Milvus 的高效相似性搜索功能使其适用于多个领域，特别是在大数据和高维向量处理场景下。常见的应用场景包括：

4.1 推荐系统

在推荐系统中，用户的历史行为和物品的特征往往可以转换为向量表示。Milvus 可以高效地检索与用户兴趣相似的物品，从而提供个性化的推荐。

4.2 计算机视觉

Milvus 可以存储来自计算机视觉模型（如 CNN、ResNet 等）提取的图像特征向量，支持图像检索、相似图像搜索等应用。

4.3 自然语言处理（NLP）

Milvus 在 NLP 领域中用于存储文本嵌入（如通过 BERT 或其他模型生成的句子或文档向量）。它支持高效的文本相似度检索，广泛应用于问答系统、文档检索和对话系统。

4.4 语音识别

Milvus 可以处理从语音识别系统中提取的语音特征向量，并进行语音检索和匹配。

4.5 知识图谱和搜索引擎

Milvus 可以与知识图谱结合，支持语义搜索，通过高效的向量查询为用户提供相关的信息和答案。

5. Milvus 的安装与使用

5.1 安装 Milvus

Milvus 提供了简单的安装方式，可以通过 Docker、Kubernetes 或直接通过源码编译进行安装。

通过 Docker 安装（最常见）：

docker pull milvusdb/milvus:v2.0.0
docker run -d --name milvus -p 19530:19530 -p 19121:19121 milvusdb/milvus:v2.0.0

通过 Kubernetes 安装：
Milvus 提供了 Helm Charts 来简化 Kubernetes 上的部署，详情请参考 Milvus 官方文档。

5.2 Milvus 使用示例

使用 Milvus 提供的 Python SDK (pymilvus) 进行简单操作：

from pymilvus import connections, Collection, FieldSchema, CollectionSchema, DataType# 建立连接
connections.connect("default", host="localhost", port="19530")# 定义字段
field1 = FieldSchema(name="vector", dtype=DataType.FLOAT_VECTOR, dim=128)
field2 = FieldSchema(name="id", dtype=DataType.INT64, is_primary=True)
schema = CollectionSchema(fields=[field1, field2], description="test collection")# 创建集合
collection = Collection(name="test_collection", schema=schema)# 插入数据
import numpy as np
vectors = np.random.rand(1000, 128).tolist()
ids = list(range(1000))
collection.insert([vectors, ids])# 创建索引
collection.create_index(field_name="vector", index_params={"index_type": "IVF_FLAT", "nlist": 128})# 执行查询
results = collection.search(vectors[:5], "vector", param={"nprobe": 10}, limit=5)
for result in results:print(result.id, result.distance)