向量数据库介绍及应用
向量数据库介绍及应用
一、向量数据库概述
什么是向量数据库?
向量数据库(Vector Database)是一类专门用于存储、索引和检索高维向量数据的数据库。相比传统的关系型数据库(RDBMS),向量数据库的核心特点是能够高效地进行相似性搜索,主要用于处理如文本、图像、音频等非结构化数据。
发展背景
随着深度学习和大模型的发展,许多应用需要对高维嵌入向量(Embedding)进行高效检索,如搜索引擎、推荐系统、AI 聊天助手等。传统数据库难以满足高维数据的高效查询需求,因此向量数据库成为了 AI 时代的重要基础设施。
二、底层原理
1. 向量表示与距离计算
向量数据库存储的数据通常是高维向量,例如:
-
文本 -> 由 BERT、GPT 生成的文本嵌入(Embedding)
-
图像 -> 由 ResNet、CLIP 提取的特征向量
-
音频 -> 由 Wav2Vec 提取的音频特征
向量数据库使用相似性度量来进行搜索,常见的距离计算方式包括:
-
欧氏