当前位置：首页 > news >正文

云原生与 AI 驱动下的数据工程新图景——解读 DZone 2025 数据工程趋势报告【附报告下载】

news 2025/9/16 7:38:53

在 AI 技术从“实验性”走向“企业级落地”的关键阶段，数据工程作为底层支撑的重要性愈发凸显。近日，DZone 发布的《2025 数据工程趋势报告》（Scaling Intelligence with the Modern Data Stack）通过对全球 123 位 IT 专业人士的调研，揭示了当前数据工程领域的核心趋势、技术选型偏好与实践痛点。本文将梳理报告的核心发现，并解读其对数据工程师、架构师及技术管理者的实践价值。

在这里插入图片描述

一、报告概览：调研背景与核心基调

DZone 本次调研覆盖了全球范围内的开发者、架构师等 IT 从业者，样本呈现三大特征：

角色集中：32%为“开发者/工程师”，10%为“开发团队负责人”，核心受访者均深度参与数据系统构建；
技术栈成熟：80%企业使用 Python 生态，50%从业者以 Python 为主要工作语言，Java（22%）位居第二；
经验丰富：受访者平均 IT 从业经验达 14.65 年，中位数 13 年，反馈具备较强实践参考性。

报告核心基调明确：企业数据能力正从“技术堆砌”转向“整合优化”——不再盲目追逐新工具，而是聚焦成本控制、性能监控与流程编排，以适配 AI 原生架构、实时分析等新需求。

二、核心发现：数据工程的三大“转向”

1. 存储架构：从“混合分散”转向“云原生主导”

数据存储是本次调研的重点领域，结果显示“云原生”已成为不可逆趋势：

云存储占比大幅提升：49%企业主要采用“纯云存储”，较 2024 年的 30%增长 19 个百分点；而混合存储（37%，-11%）、本地私有存储（10%，-10%）占比显著下降；
迁移动机务实化：“维持高可用性”（44%）、“降低成本”（39%）、“提升数据可访问性”（34%）是云迁移的三大核心诉求，其中大企业更倾向通过云迁移实现“现代化改造”与“AI 分析支撑”；
存储架构分层明显：55%企业使用数据仓库，47%使用数据湖，27%使用湖仓一体（Lakehouse）；大企业（1000+员工）是“湖仓一体”的主要实践者（38%），小企业（<100 人）因规模限制，数据仓库使用率仅 37%（低于整体 55%）。

在这里插入图片描述

2. 数据安全：从“工具堆砌”转向“体系化落地”

尽管数据安全的重要性达成共识，但实践呈现“认知与落地脱节”的特点：

核心策略集中：62%企业依赖“加密与安全传输”“访问控制与认证”，59%关注“合规性标准”，三者构成安全实践的“铁三角”；
实践 Adoption 下降：与 2024 年相比，“灾难恢复”（-22%）、“数据脱敏”（-21%）、“安全编码”（-22%）等实践的使用率显著下滑，推测与“依赖云厂商默认安全能力”“成本压缩”有关；
威胁感知聚焦：60%企业最担忧“数据泄露”，50%关注“认证与访问控制失效”，43%警惕“不安全数据处理”，中小企业对“弱加密”的担忧更突出（40%，高于大企业 17%）。

在这里插入图片描述

3. 数据管道：从“批量离线”转向“实时 AI 适配”

数据管道是支撑 AI 落地的核心环节，调研显示其正在向“实时化、AI 原生”转型：

ETL 工作量高企：从业者平均 30%工作时间用于 ETL/ELT，大企业（35%）与小企业（33%）耗时更高，中型企业（20%）因流程成熟度居中；
工具选型分化：48%企业仍依赖“手动数据库导入/导出”，33%使用“专业 ETL 工具”（较 2024 年下降 11%）；大企业更偏好专业工具（40%），小企业则依赖“临时批处理脚本”（43%）；
AI 数据准备待加强：仅 18%从业者“非常自信”于 AI/ML 数据准备最佳实践，39%通过“API 实时供数”支撑生成式 AI，36%使用向量数据库实现 RAG（检索增强生成），但小企业的数据质量实践覆盖率显著低于大企业。

在这里插入图片描述

三、专家洞见：来自行业一线的实践指南

报告收录了微软、Netflix、Factorial 等企业专家的深度解读，核心聚焦三大方向：

1. 数据架构的“融合与开放”：湖仓一体+开放表格式

Factorial 工程 VP Miguel Garcia Lorenzo 指出，传统数据湖、仓库的边界正在消失，基于开放表格式（如 Apache Iceberg）的湖仓一体成为主流：

Iceberg 凭借“引擎中立性”“隐藏分区”“元数据管理”优势，成为多引擎（Trino、Flink、DuckDB）共享数据的统一层；
现代架构采用“多引擎策略”：DuckDB 用于嵌入式边缘分析，Trino 用于跨源联邦查询，ClickHouse 用于实时 OLAP，实现“存储与计算解耦”。

2. AI 原生架构的“底层重构”

微软产品经理 Abhishek Gupta 强调，AI 原生架构与传统架构存在本质差异（如下表），需从“数据类型、处理模式、存储选型”全链路重构：

维度	传统架构	AI 原生架构
数据类型	结构化数据	文本、图像等多模态数据
处理模式	批量 ETL	实时流+批量混合
延迟要求	小时级-天级	毫秒级-秒级
存储核心	数据仓库（星型模型）	数据湖+向量库+特征库
查询模式	SQL 分析	向量相似性搜索+传统查询