当前位置: 首页 > news >正文

GPU 嗡嗡作响! Elastic 推理服务( EIS ):为 Elasticsearch 提供 GPU 加速推理

作者:来自 Elastic Shubha Anjur Tupil, Josh Devins, Sean Handley, Max Jakob, Diana Jourdan

我们很高兴地宣布 Elastic 推理服务( EIS ),它在 Elastic Cloud 上与 Elasticsearch 原生集成,引入了 GPU 加速推理功能。

Elasticsearch 是部署最广泛的向量和语义搜索数据库。现代搜索和 AI 工作负载依赖于用于嵌入、重排序和语言模型的快速、可扩展推理。随着数据量增长,管理基础设施、测试模型、处理集成以及拼接各种独立解决方案会带来沉重的运维负担。这使得客户对托管的 GPU 加速集群有了明确需求,以便在无需管理基础设施或集成运维负担的情况下获得速度、可扩展性和成本效率。Elastic 推理服务旨在提供推理即服务,并在大规模下提供嵌入、重排序以及大、小语言模型即服务。我们还将 EIS 设计为多云服务提供商( CSP )、多区域和多模态服务,以满足你所有长期的推理需求。

EIS 已经提供对最先进的大语言模型( LLM )的访问,这反过来为 Playground 和 AI 助手提供了自动摄取、威胁检测、问题调查、根因分析等开箱即用的 AI 功能。我们现在很高兴地将 Elastic 学习稀疏编码器( ELSER )—— Elastic 内置的用于最先进搜索相关性的稀疏向量模型 —— 作为 EIS 上的首个文本嵌入模型以技术预览形式推出。ELSER 为我们平台上的大多数语义搜索用例提供支持,并带来行业领先的相关性和性能。而这只是开始;来自 Jina.ai(最近通过收购加入 Elastic )的多语言嵌入、重排序等更多模型也即将推出,以进一步拓展可能性。

最先进的架构和性能

EIS 提供了一个可扩展的架构,使用现代 NVIDIA GPU 来实现低延迟、高吞吐量的推理。GPU 使机器学习( ML )模型能够并行处理大量计算,从而将整体效率提升一个数量级。

EIS 为 Elasticsearch 用户带来快速的推理体验,同时简化了设置和工作流管理。该服务通过 API 提供易于使用的推理接口,支持端到端的 semantic_text 体验,用于生成向量嵌入,并利用 LLM 推动上下文工程和代理工作流,从而确保一致的卓越性能和开发者体验。

  • 精简的开发者体验:无需下载模型、手动配置或资源预配。EIS 直接与 semantic_text 和推理 API 集成,带来愉快的开发体验。部署模型时没有冷启动,也无需实现自动扩展。
  • 改进的端到端语义搜索体验:稀疏向量、稠密向量或语义重排序 —— 我们都能满足。更多模型即将推出!
  • 增强的性能:GPU 加速推理在高负载下相比基于 CPU 的替代方案可提供一致的延迟和高达 10 倍的摄取吞吐提升。
  • 简化的生成式 AI( GenAI )工作流:无需处理外部服务、API 密钥或合同的摩擦。通过 Elastic 托管 LLM,AI 在摄取、调查、检测和分析方面的功能从第一天起就能开箱即用。
  • 向后兼容性:现有的 Elasticsearch ML 节点仍然受支持,同时推理 API 让你可以灵活连接任何第三方服务。
  • 易于理解的定价:EIS 提供基于消耗的定价模式,与其他推理服务类似,按每个模型每百万 token 计费。Elastic 还为 EIS 上提供的所有模型提供法律保障,使你可以轻松上手并获得支持。
  • 访问方式:所有 CSP 和区域的 Elastic Cloud 无服务器和 Elastic Cloud 托管部署都可以访问 EIS 上的推理端点。

下图展示了 Elasticsearch 中推理的演变,从自管的、基于 CPU 的工作流到 GPU 优化的、完全集成的 Elastic 推理服务。

接下来是什么?

我们正在为 Elastic Inference Service 开发许多令人兴奋的改进,以支持各种用例。其中一些主要包括:

  • 更多模型:我们正在扩展模型目录,以满足客户不断增长的推理需求。在接下来的几个月中,我们将在 EIS 上引入新模型,以支持更广泛的搜索和推理需求,包括:
    • 多语言嵌入模型,用于语义搜索
    • 语义重排序模型,用于增强语义搜索和改进基于关键词的搜索
    • 多模态嵌入和重排序模型
    • 小型语言模型(SLM)
    • 更多 LLM

我们将继续添加更多类型的模型,所以如果你希望看到某个模型,请通过 support@elastic.co 联系我们。

  • 更多 CSP 和区域:我们正在努力扩展到更多的 CSP 和区域。有关当前可用性,请查看我们的文档。
  • 简化的语义搜索:在查询中使用字段类型 semantic_text 的语义搜索,通过在摄取时提供推理并自动提供合理的默认值,简化了推理工作流。很快,semantic_text 将开始默认使用 Elastic Inference Service 上的 ELSER 端点。
  • 更多对自管客户的支持:我们的自管用户也将很快加入。未来,Cloud Connected Mode 将把 EIS 引入自管环境,减少运维负担,并实现混合架构和更灵活的扩展,以便在最适合你的地方运行。

我们还专注于许多令人兴奋的改进,因此如果你有任何问题,请随时联系我们。

在 Elastic Cloud 上试用 EIS

通过无缝的工作流、实时洞察和加速的性能,EIS 使开发者能够在 Elastic 生态系统中构建更快、更高效的 GenAI 应用。

所有 Elastic Cloud 试用都可使用 Elastic Inference Service。现在就在 Elastic Cloud Serverless 和 Elastic Cloud Hosted 上试试吧。

本文所描述的任何功能或特性,其发布时间和实现均由 Elastic 自行决定。目前尚不可用的功能或特性可能不会按时交付,甚至可能不会交付。

在本文中,我们可能使用或提及了第三方生成式 AI 工具,这些工具由其各自的所有者拥有和运营。Elastic 无法控制这些第三方工具,对于其内容、运行或使用,我们不承担任何责任或义务,也不对因使用这些工具而造成的任何损失或损害承担责任。请在使用 AI 工具处理个人、敏感或机密信息时保持谨慎。你提交的任何数据可能会被用于 AI 训练或其他目的。我们无法保证你提供的信息将保持安全或保密。在使用任何生成式 AI 工具之前,你应熟悉其隐私政策和使用条款。

Elastic、Elasticsearch 及相关标志是 Elasticsearch B.V. 在美国和其他国家的商标、标识或注册商标。所有其他公司和产品名称均为其各自所有者的商标、标识或注册商标。

原文:https://www.elastic.co/blog/elastic-inference-service

http://www.dtcms.com/a/478811.html

相关文章:

  • 前端碎碎念笔记:JavaScript 对象的封装与抽象
  • Spring Boot 3零基础教程,条件注解,笔记09
  • 余杭区住房与建设局网站wordpress目录权限
  • 认知觉醒 (一) · 感性
  • 谷歌站长平台承德市宽城县建设局网站
  • 【论文阅读】Sparks of Science
  • 论文笔记:π0.5 (PI 0.5)KI改进版
  • 【005】人个日程安排管理系统
  • 网站建设 北京做网站有必要用wordpress
  • 怎么做wp网站网上商城开发网站建设
  • Android Framework开机动画开发
  • 香港大学等提出增量天气预报模型VA-MoE,参数精简 75% 仍达 SOTA 性能
  • 北京企业建站服务中企论坛排名
  • 江门网站推广排名江苏省网站备案系统
  • Shuffle产生的三种场景
  • 公司网站制作的公司百度排名工具
  • 攻防世界-Web-shrine
  • arkTs:UIAbility 生命周期(补充版)
  • wordpress 首页导航代码广告网站建设网站排名优化
  • Synwit UI Creator中文输入法移植指南
  • wordpress tag生成的链接乱张家港优化网站seo
  • 中天建设集团网站wordpress显示不了图片
  • 【React】19.2 新特性全面解析:并发优化与性能提升指南
  • SALSITA AI:3D产品演示、安装动态过程展示
  • 网站建设国内现状松原网站推广
  • 东营区建设局网站湛江城乡建设局网站
  • 多制式基站综合测试线的架构与验证实践(2)
  • 基于单片机智能水产养殖系统设计(论文+源码)
  • 关于STM32L051单片机(Stop)休眠唤醒后初始化USART2,单片机死机问题
  • 做网站的一些好处科技类网站简介怎么做