当前位置: 首页 > news >正文

从“开源开放”走向“高效智能”:阿里云 EMR 年度重磅发布

EMR 发展历程回顾

自 2016 年首次发布以来,阿里云 EMR 始终以开源生态为基石,逐步构建起覆盖 Hadoop、Hive、Spark、StarRocks 等主流开源计算和存储引擎的公有云大数据平台。九年间,EMR 产品技术不仅支撑了阿里巴巴集团内部如淘宝闪购、A+等核心业务的海量数据处理需求,也服务了互联网、金融、零售、制造等众多行业的公有云客户。从最初的开源组件版本和服务管控,到如今面向湖仓一体、实时智能场景的企业级数据平台,EMR 的演进轨迹,本质上是在“开源开放”的基础上向“高效智能”的持续跃迁。

AI 时代对大数据处理系统的新挑战

随着大模型和生成式 AI 的普及,数据系统的边界正在被重新定义。用户不再满足于编写 SQL 或配置作业,而是期望通过自然语言直接表达分析意图;系统也不再仅处理结构化表格,还需融合流数据、文本、向量、半结构化日志等多模态信息。更重要的是,传统的批处理、OLAP、机器学习、全文检索等能力,正被要求在一个统一平台内协同工作。这种融合趋势对底层架构提出了更高要求:既要极致性能,又要高度自治;既要开放兼容,又要开箱即用。而当前的大数据系统在存算分离架构下面临的元数据风暴、串行 I/O、低效读取等问题,已成为制约 AI 时代数据价值释放的关键瓶颈。

高效:开箱即用,极致性能

面对上述挑战,EMR 将“高效”作为核心突破方向。我们对 EMR on ECS 产品的 I/O 路径进行了全链路优化,重点解决存算分离架构下的三大性能瓶颈。针对元数据风暴问题,通过批量并发处理机制,将元数据获取时间从分钟级降至秒级;针对计算与 I/O 串行等待,引入向量化异步预取和动态自适应预读策略,使计算与数据加载并行执行;针对小文件和离散列读带来的零散 I/O,实现请求合并与并行预打开,显著提升吞吐能力。实测表明,TPC-DS 1TB 查询开箱性能提升 40%,小文件密集型场景算力节省高达 90%,真正实现“开箱即用”的高性能体验。

在此基础上,Stella——阿里云自研的企业级 StarRocks 内核正式发布。Stella 深度协同 DLF 与 Paimon,全面优化湖仓读写路径,内表与湖表查询性能均提升 100%,DV 表查询性能更是提升 300%。在淘宝闪购业务中,系统支撑万级 QPS,查询耗时减少 80%;阿里爱橙业务整体性能提升 150%。尤为突出的是,EMR Serverless StarRocks 凭借 Stella 内核登顶 TPC-H 10TB 世界性能榜单,相较第二名性能提升 111%,性价比提升 90%,数据加载效率提升 6200%。

与此同时,Fusion ——企业级 Spark 内核也完成 2.0 版本重大升级。其向量化算子与表达式覆盖率达 100%,JSON 解析性能提升 78%,Paimon 读写性能翻倍,数据倾斜场景性能提升 10 倍。在 TPC-DS 10TB 测试中,性能领先开源 Spark 高达 500%。更进一步,EMR Serverless Spark 凭借 Fusion 2.0 登顶 TPC-DS 100TB 世界榜单,相较 Databricks 2021 年纪录,性能提升 100%,性价比提升 500%,充分验证了其在超大规模数据湖分析中的领先优势。

智能:AI 升级,高度自治

如果说“高效”解决了性能问题,那么“智能”则致力于降低使用门槛。EMR AI 助手正式进入公测阶段,旨在通过自然语言交互简化运维与分析流程。用户可直接提问“集群为什么变慢了?”或“今天凌晨三点的弹性扩容为什么出现了部分失败的情况”,系统将自动分析日志、指标与执行计划,提供精准诊断与修复建议。该助手覆盖EMR on ECS 集群组件异常、资源瓶颈、集群性能等常见问题,支持 7×24 小时自助服务,大幅减少对专业运维人员的依赖。

EMR Serverless StarRocks 智能平台也同步升级,集成健康诊断、业务洞察、事件通知与 AI 中心四大模块。平台不仅提供集群维度的 T+1 全局健康评估,还能实时定位问题组件并给出优化建议;SQL 诊断功能可生成详细 Profiling 报告,辅助用户理解执行瓶颈;业务洞察则将查询延迟、缓存效率等技术指标与业务结果关联,帮助用户量化数据对实际业务的影响。

EMR AI Function:让 SQL 拥抱大模型

为打通数据分析与 AI 能力的最后一公里,EMR Serverless StarRocks 与 Spark 同步启动 AI Function 邀测。用户可在 SQL 中直接调用大模型函数,实现情感分析、敏感信息脱敏、文本摘要、语言翻译、工单分类等常见任务。

例如,SELECT ai_mask('John Doe lives in New York. His email is john.doe@example.com.', ['person', 'email']) 可自动返回脱敏结果。这些函数默认集成阿里云百炼通用模型,也支持用户接入自定义模型,灵活适配不同场景需求。

EMR Serverless Spark 还全面支持 GPU 调度,实现作业级 GPU 资源分配、AI Function 本地推理、Spark ML(如 XGBoost、LightGBM)与 Spark SQL 的 GPU 加速,并支持对接百炼、PAI EAS 或本地 GPU 模型服务,构建端到端的 AI 数据处理闭环。

http://www.dtcms.com/a/511080.html

相关文章:

  • AI服务器工作之ubuntu系统下的驱动安装
  • 将跨平台框架或游戏引擎开发的 Windows 应用上架 Microsoft Store
  • 网站建立需要什么永久网站建设教程
  • 安装nginx
  • Leetcode+Java+图论+最小生成树拓扑排序
  • Unity画线功能LineRenderer详解附有案例
  • 从零部署自维护版 Uptime Kuma:Node.js + PM2 + Nginx 全链路实战指南
  • 哪个网站可以做纸箱沈阳市住房和城乡建设部网站
  • 腾讯送命题:手写多头注意力机制。。。
  • 信息传递视角下开源AI智能名片链动2+1模式S2B2C商城小程序对零售企业的赋能研究
  • AWS IoT Core 自动化巡检工具开发与实战报告
  • 【开题答辩过程】以《重庆市社区养老服务小程序设计与实现》为例,不会开题答辩的可以进来看看
  • 思淘网站建设网站域名证书
  • Substance Designer的通道合并(Channel Packing)自动化工作流
  • 【数据分析】基于R语言的宏基因组微生物群落下游数据的统计分析与可视化教程
  • TDE透明加密技术原理深度解析与文件在线安全传输实践指南
  • AI协作天花板!CherryStudio让多模型协同像搭积木
  • flash网站开发用什么语言wordpress 静态文件大
  • 小游戏引擎架构设计案例分析
  • [特殊字符] PM2 入门实战:从 0 到线上托管 React SPA
  • 指定位置打开 jupyter notebook
  • 设计模式-单例模式:从原理到实战的三种经典实现
  • 深度解析JVM GC调优实践指南
  • 决策规划仿真平台搭建
  • 河北住房城乡建设厅官方网站wordpress改浏览数数据库
  • 正规的金融行业网站开发wordpress如何生成rss
  • 华为网路设备学习-34(BGP协议 九)BGP路由 选路规则二
  • AR巡检系统:工业非计划停机的终结者
  • ECharts地图数据压缩-ZigZag算法
  • 垃圾分类抠像拍照系统-垃圾分类AR互动游戏-体感漫画拍照一体机