论 AI Database
AI Database 工程化路径(以控制面/接口为核心)
数据库成为 AI 的“第一入口与控制平面”:提供统一的、声明式的 API 与元数据管理,把数据、特征、模型元信息、策略与审计集中起来;并通过可插拔的执行后端(专用训练/推理引擎、GPU 集群、向量引擎)去实际完成训练与推理。
关键设计原则与能力(数据库需要承担的职责):
- 声明式 AI 原语:在 SQL 或扩展 API 中提供语义操作(例如 EMBED(), SIMILARITY_SEARCH, TRAIN MODEL, INFER),让开发者用熟悉的接口发起 AI 工作流。
- 模型与特征的单一真源:内置 model registry、feature store、schema & version 管理、数据 lineage、实验元数据。
- 策略/治理/合规层:统一的访问控制、审计日志、数据脱敏与合规策略在 DB 层强制执行。
- 可插拔执行后端:把训练/推理/索引任务交给专门后端(K8s + GPU、Triton、FAISS/GPU 不在此列),DB 负责调度、编排与度量。
- 低延迟缓存/近源推理:为实时推理提供边缘缓存或内置推理代理(model cache / warmed endpoints),减少网络往返。
- 元数据驱动的优化:基于 profile/PGO、query pattern,自动选用最合适的后端、索引类型或数据布局。
- 透明计费与资源配额:把模型推理/训练的成本计入到 DB 的计费/审计体系,便于成本管理。
一句话表达
“Database as AI” = 把数据库打造为开发者使用 AI 的首要入口与控制平面:提供声明式 AI 原语、统一的特征与模型元数据管理、强制的治理与审计,并负责把 AI 工作流安全高效地调度到专用执行后端。”
- 统一数据 → 特征 → 模型元数据(single source of truth)。
- 声明式接口(SQL 扩展/REST)让开发者不必关心后端模型细节。
- DB 做 orchestration、policy enforcement 与 lineage;专用 runtimes 做
heavy compute。 - 提供低延迟推理路径(缓存/近源部署)和可审计的模型使用记录。
MVP(最小可行实现)建议
- 向量与语义查询 + 元数据:在现有 DB 上先实现 embedding 存储、向量索引(支持外部 ANN 引擎)+ model metadata store。
- 声明式推理 API(SQL UDF):允许用户在 SQL 里写 SELECT PREDICT(model_id, features) FROM …,DB 将查询转成后端推理请求并返回结果。
- Model Registry & Lineage:记录模型版本、训练数据集引用、审计日志与部署记录。
- 可插拔后端适配器:支持至少两个后端(CPU 推理 + Triton/GPU 推理)示范性能分流能力。
- 治理策略:基于角色的访问控制、黑名单/白名单数据集、审计日志导出。
常见反对意见与应对
- “训练/大规模推理不是 DB 的事” → 同意;因此 DB 只做控制面与低延迟路径,不直接做大规模分布式训练。
- “开发者更习惯 ML 平台” → 用熟悉的 SQL/事务语义做入口可以降低门槛,同时保持与现有 ML 平台互操作。
- “会不会造成锁定(vendor lock-in)?” → 通过开放模型格式(ONNX)、插件式后端、标准化 API 来减轻风险。
批判性审视
- 核心假设:开发者愿意把 AI 操作通过 DB 来做
• 现实:开发者目前在数据、特征、模型和训练/推理基础设施之间往往使用专门工具(feature store、ML platform、model registry、K8s、GPU/TPU 集群)。要把这些工作流“收敛”到数据库,必须证明数据库能提供比现有组合更高的生产力或更低的运维成本。
• 风险:若体验或性能不如专门工具,开发者不会迁移。 - 功能边界模糊 — 数据库能做什么、不能做什么?
• 数据管理、版本控制、审计、权限、低延迟查询这些数据库擅长。
• 但**大规模训练、GPU 编排、分布式深度学习通信(AllReduce)**等属于专用计算基础设施,数据库难以替代。
• 结论:数据库更适合作为控制面/编排层 + 数据与模型元数据的单一真源(SoR),而非把所有训练计算搬进 DB 内核。 - 性能与延迟挑战
• AI 推理对低延迟、模型热加载以及高并发吞吐有很高要求,数据库在这些场景若没有边缘缓存或模型近源部署机制,可能成为瓶颈。
• 向量检索、ANN 索引等需要专门优化(内存布局、SIMD、GPU 加速),若仅靠通用存储层难以达到最佳表现。 - 生态与兼容性问题
• 模型格式(PyTorch, TensorFlow, ONNX)、推理引擎(TorchServe, Triton, custom serving)众多。DB 必须提供可插拔的适配器,否则会造成锁定或兼容地狱。
• 标准化成本高,但不做会阻碍采用。 - 治理、合规与审计是优势也是负担
• 把 AI 接口集中到 DB 有助于统一审计、数据血缘、隐私策略与合规(这是强有力的卖点)。
• 但它要求 DB 实现复杂的模型可解释性、数据白名单/黑名单、差分隐私或基于策略的推理限制,开发和维护成本高。 - 商业与组织阻力
• 企业已有 ML 平台团队、SRE/Infra 团队和数据科学团队,迁移到 DB 为第一入口需要组织变更、培训、以及利益再分配。
• 需要明确价值主张(节省多少成本、提高多少速度或合规性)才能推动落地。