当前位置：首页 > news >正文

GPU 嗡嗡作响！ Elastic 推理服务（ EIS ）：为 Elasticsearch 提供 GPU 加速推理

news 2025/10/14 10:20:27

作者：来自 Elastic Shubha Anjur Tupil, Josh Devins, Sean Handley, Max Jakob, Diana Jourdan

我们很高兴地宣布 Elastic 推理服务（ EIS ），它在 Elastic Cloud 上与 Elasticsearch 原生集成，引入了 GPU 加速推理功能。

Elasticsearch 是部署最广泛的向量和语义搜索数据库。现代搜索和 AI 工作负载依赖于用于嵌入、重排序和语言模型的快速、可扩展推理。随着数据量增长，管理基础设施、测试模型、处理集成以及拼接各种独立解决方案会带来沉重的运维负担。这使得客户对托管的 GPU 加速集群有了明确需求，以便在无需管理基础设施或集成运维负担的情况下获得速度、可扩展性和成本效率。Elastic 推理服务旨在提供推理即服务，并在大规模下提供嵌入、重排序以及大、小语言模型即服务。我们还将 EIS 设计为多云服务提供商（ CSP ）、多区域和多模态服务，以满足你所有长期的推理需求。

EIS 已经提供对最先进的大语言模型（ LLM ）的访问，这反过来为 Playground 和 AI 助手提供了自动摄取、威胁检测、问题调查、根因分析等开箱即用的 AI 功能。我们现在很高兴地将 Elastic 学习稀疏编码器（ ELSER ）—— Elastic 内置的用于最先进搜索相关性的稀疏向量模型 —— 作为 EIS 上的首个文本嵌入模型以技术预览形式推出。ELSER 为我们平台上的大多数语义搜索用例提供支持，并带来行业领先的相关性和性能。而这只是开始；来自 Jina.ai（最近通过收购加入 Elastic ）的多语言嵌入、重排序等更多模型也即将推出，以进一步拓展可能性。

最先进的架构和性能

EIS 提供了一个可扩展的架构，使用现代 NVIDIA GPU 来实现低延迟、高吞吐量的推理。GPU 使机器学习（ ML ）模型能够并行处理大量计算，从而将整体效率提升一个数量级。

EIS 为 Elasticsearch 用户带来快速的推理体验，同时简化了设置和工作流管理。该服务通过 API 提供易于使用的推理接口，支持端到端的 semantic_text 体验，用于生成向量嵌入，并利用 LLM 推动上下文工程和代理工作流，从而确保一致的卓越性能和开发者体验。

精简的开发者体验：无需下载模型、手动配置或资源预配。EIS 直接与 semantic_text 和推理 API 集成，带来愉快的开发体验。部署模型时没有冷启动，也无需实现自动扩展。
改进的端到端语义搜索体验：稀疏向量、稠密向量或语义重排序 —— 我们都能满足。更多模型即将推出！
增强的性能：GPU 加速推理在高负载下相比基于 CPU 的替代方案可提供一致的延迟和高达 10 倍的摄取吞吐提升。
简化的生成式 AI（ GenAI ）工作流：无需处理外部服务、API 密钥或合同的摩擦。通过 Elastic 托管 LLM，AI 在摄取、调查、检测和分析方面的功能从第一天起就能开箱即用。
向后兼容性：现有的 Elasticsearch ML 节点仍然受支持，同时推理 API 让你可以灵活连接任何第三方服务。
易于理解的定价：EIS 提供基于消耗的定价模式，与其他推理服务类似，按每个模型每百万 token 计费。Elastic 还为 EIS 上提供的所有模型提供法律保障，使你可以轻松上手并获得支持。
访问方式：所有 CSP 和区域的 Elastic Cloud 无服务器和 Elastic Cloud 托管部署都可以访问 EIS 上的推理端点。

下图展示了 Elasticsearch 中推理的演变，从自管的、基于 CPU 的工作流到 GPU 优化的、完全集成的 Elastic 推理服务。

接下来是什么？

我们正在为 Elastic Inference Service 开发许多令人兴奋的改进，以支持各种用例。其中一些主要包括：

更多模型：我们正在扩展模型目录，以满足客户不断增长的推理需求。在接下来的几个月中，我们将在 EIS 上引入新模型，以支持更广泛的搜索和推理需求，包括：
- 多语言嵌入模型，用于语义搜索
- 语义重排序模型，用于增强语义搜索和改进基于关键词的搜索
- 多模态嵌入和重排序模型
- 小型语言模型（SLM）
- 更多 LLM

我们将继续添加更多类型的模型，所以如果你希望看到某个模型，请通过 support@elastic.co 联系我们。

更多 CSP 和区域：我们正在努力扩展到更多的 CSP 和区域。有关当前可用性，请查看我们的文档。
简化的语义搜索：在查询中使用字段类型 semantic_text 的语义搜索，通过在摄取时提供推理并自动提供合理的默认值，简化了推理工作流。很快，semantic_text 将开始默认使用 Elastic Inference Service 上的 ELSER 端点。
更多对自管客户的支持：我们的自管用户也将很快加入。未来，Cloud Connected Mode 将把 EIS 引入自管环境，减少运维负担，并实现混合架构和更灵活的扩展，以便在最适合你的地方运行。

我们还专注于许多令人兴奋的改进，因此如果你有任何问题，请随时联系我们。

在 Elastic Cloud 上试用 EIS

通过无缝的工作流、实时洞察和加速的性能，EIS 使开发者能够在 Elastic 生态系统中构建更快、更高效的 GenAI 应用。

所有 Elastic Cloud 试用都可使用 Elastic Inference Service。现在就在 Elastic Cloud Serverless 和 Elastic Cloud Hosted 上试试吧。

本文所描述的任何功能或特性，其发布时间和实现均由 Elastic 自行决定。目前尚不可用的功能或特性可能不会按时交付，甚至可能不会交付。

在本文中，我们可能使用或提及了第三方生成式 AI 工具，这些工具由其各自的所有者拥有和运营。Elastic 无法控制这些第三方工具，对于其内容、运行或使用，我们不承担任何责任或义务，也不对因使用这些工具而造成的任何损失或损害承担责任。请在使用 AI 工具处理个人、敏感或机密信息时保持谨慎。你提交的任何数据可能会被用于 AI 训练或其他目的。我们无法保证你提供的信息将保持安全或保密。在使用任何生成式 AI 工具之前，你应熟悉其隐私政策和使用条款。

Elastic、Elasticsearch 及相关标志是 Elasticsearch B.V. 在美国和其他国家的商标、标识或注册商标。所有其他公司和产品名称均为其各自所有者的商标、标识或注册商标。

原文：https://www.elastic.co/blog/elastic-inference-service

查看全文

http://www.dtcms.com/a/478811.html