GPU 嗡嗡作响! Elastic 推理服务( EIS ):为 Elasticsearch 提供 GPU 加速推理
作者:来自 Elastic Shubha Anjur Tupil, Josh Devins, Sean Handley, Max Jakob, Diana Jourdan
我们很高兴地宣布 Elastic 推理服务( EIS ),它在 Elastic Cloud 上与 Elasticsearch 原生集成,引入了 GPU 加速推理功能。
Elasticsearch 是部署最广泛的向量和语义搜索数据库。现代搜索和 AI 工作负载依赖于用于嵌入、重排序和语言模型的快速、可扩展推理。随着数据量增长,管理基础设施、测试模型、处理集成以及拼接各种独立解决方案会带来沉重的运维负担。这使得客户对托管的 GPU 加速集群有了明确需求,以便在无需管理基础设施或集成运维负担的情况下获得速度、可扩展性和成本效率。Elastic 推理服务旨在提供推理即服务,并在大规模下提供嵌入、重排序以及大、小语言模型即服务。我们还将 EIS 设计为多云服务提供商( CSP )、多区域和多模态服务,以满足你所有长期的推理需求。
EIS 已经提供对最先进的大语言模型( LLM )的访问,这反过来为 Playground 和 AI 助手提供了自动摄取、威胁检测、问题调查、根因分析等开箱即用的 AI 功能。我们现在很高兴地将 Elastic 学习稀疏编码器( ELSER )—— Elastic 内置的用于最先进搜索相关性的稀疏向量模型 —— 作为 EIS 上的首个文本嵌入模型以技术预览形式推出。ELSER 为我们平台上的大多数语义搜索用例提供支持,并带来行业领先的相关性和性能。而这只是开始;来自 Jina.ai(最近通过收购加入 Elastic )的多语言嵌入、重排序等更多模型也即将推出,以进一步拓展可能性。
最先进的架构和性能
EIS 提供了一个可扩展的架构,使用现代 NVIDIA GPU 来实现低延迟、高吞吐量的推理。GPU 使机器学习( ML )模型能够并行处理大量计算,从而将整体效率提升一个数量级。
EIS 为 Elasticsearch 用户带来快速的推理体验,同时简化了设置和工作流管理。该服务通过 API 提供易于使用的推理接口,支持端到端的 semantic_text 体验,用于生成向量嵌入,并利用 LLM 推动上下文工程和代理工作流,从而确保一致的卓越性能和开发者体验。
- 精简的开发者体验:无需下载模型、手动配置或资源预配。EIS 直接与 semantic_text 和推理 API 集成,带来愉快的开发体验。部署模型时没有冷启动,也无需实现自动扩展。
- 改进的端到端语义搜索体验:稀疏向量、稠密向量或语义重排序 —— 我们都能满足。更多模型即将推出!
- 增强的性能:GPU 加速推理在高负载下相比基于 CPU 的替代方案可提供一致的延迟和高达 10 倍的摄取吞吐提升。
- 简化的生成式 AI( GenAI )工作流:无需处理外部服务、API 密钥或合同的摩擦。通过 Elastic 托管 LLM,AI 在摄取、调查、检测和分析方面的功能从第一天起就能开箱即用。
- 向后兼容性:现有的 Elasticsearch ML 节点仍然受支持,同时推理 API 让你可以灵活连接任何第三方服务。
- 易于理解的定价:EIS 提供基于消耗的定价模式,与其他推理服务类似,按每个模型每百万 token 计费。Elastic 还为 EIS 上提供的所有模型提供法律保障,使你可以轻松上手并获得支持。
- 访问方式:所有 CSP 和区域的 Elastic Cloud 无服务器和 Elastic Cloud 托管部署都可以访问 EIS 上的推理端点。
下图展示了 Elasticsearch 中推理的演变,从自管的、基于 CPU 的工作流到 GPU 优化的、完全集成的 Elastic 推理服务。
接下来是什么?
我们正在为 Elastic Inference Service 开发许多令人兴奋的改进,以支持各种用例。其中一些主要包括:
- 更多模型:我们正在扩展模型目录,以满足客户不断增长的推理需求。在接下来的几个月中,我们将在 EIS 上引入新模型,以支持更广泛的搜索和推理需求,包括:
- 多语言嵌入模型,用于语义搜索
- 语义重排序模型,用于增强语义搜索和改进基于关键词的搜索
- 多模态嵌入和重排序模型
- 小型语言模型(SLM)
- 更多 LLM
我们将继续添加更多类型的模型,所以如果你希望看到某个模型,请通过 support@elastic.co 联系我们。
- 更多 CSP 和区域:我们正在努力扩展到更多的 CSP 和区域。有关当前可用性,请查看我们的文档。
- 简化的语义搜索:在查询中使用字段类型 semantic_text 的语义搜索,通过在摄取时提供推理并自动提供合理的默认值,简化了推理工作流。很快,semantic_text 将开始默认使用 Elastic Inference Service 上的 ELSER 端点。
- 更多对自管客户的支持:我们的自管用户也将很快加入。未来,Cloud Connected Mode 将把 EIS 引入自管环境,减少运维负担,并实现混合架构和更灵活的扩展,以便在最适合你的地方运行。
我们还专注于许多令人兴奋的改进,因此如果你有任何问题,请随时联系我们。
在 Elastic Cloud 上试用 EIS
通过无缝的工作流、实时洞察和加速的性能,EIS 使开发者能够在 Elastic 生态系统中构建更快、更高效的 GenAI 应用。
所有 Elastic Cloud 试用都可使用 Elastic Inference Service。现在就在 Elastic Cloud Serverless 和 Elastic Cloud Hosted 上试试吧。
本文所描述的任何功能或特性,其发布时间和实现均由 Elastic 自行决定。目前尚不可用的功能或特性可能不会按时交付,甚至可能不会交付。
在本文中,我们可能使用或提及了第三方生成式 AI 工具,这些工具由其各自的所有者拥有和运营。Elastic 无法控制这些第三方工具,对于其内容、运行或使用,我们不承担任何责任或义务,也不对因使用这些工具而造成的任何损失或损害承担责任。请在使用 AI 工具处理个人、敏感或机密信息时保持谨慎。你提交的任何数据可能会被用于 AI 训练或其他目的。我们无法保证你提供的信息将保持安全或保密。在使用任何生成式 AI 工具之前,你应熟悉其隐私政策和使用条款。
Elastic、Elasticsearch 及相关标志是 Elasticsearch B.V. 在美国和其他国家的商标、标识或注册商标。所有其他公司和产品名称均为其各自所有者的商标、标识或注册商标。
原文:https://www.elastic.co/blog/elastic-inference-service