当前位置：首页 > news >正文

让 ETL 更懂语义：DataWorks 支持数据集成 AI 辅助处理能力

news 2025/11/8 7:55:14

在生成式 AI 浪潮下，数据不再只是“被搬运的原料”，更应是“可理解、可推理、可挖掘价值”的智能资产。然而，传统 ETL（Extract-Transform-Load）流程仍停留在结构化数据处理层面，面对海量文本、日志、反馈等非结构化数据时，往往依赖人工标注或复杂开发链路，效率低、成本高、响应慢。

为此，阿里云大数据开发治理平台 DataWorks 数据集成全新智能化升级，以“ AI 释放数据价值”为核心，正式推出 AI 辅助处理能力，并将该功能在阿里云全球所有地域全面开放！将大模型语义理解、AI 智能分析能力深度融入离线同步任务的数据集成任务，真正实现“让每一条数据流都能思考”。

核心能力-开箱即用的智能 ETL 引擎

DataWorks Serverless 资源组全新升级，支持大模型一键部署与高效调用！现已支持 Qwen3 系列、DeepSeek 系列及 Embedding 模型，提供多种 GPU 规格按需选用，按量付费，灵活成本。通过 AI Function 可便捷调用模型服务，小尺寸模型推理性能提升近 10 倍，并支持使用 DataWorks Serverless CU 资源抵扣，助力 AI 应用快速构建与弹性扩展。

DataWorks 数据集成现已支持在离线同步任务中直接调用大模型服务，用户无需部署模型、无需编写代码、无需额外付费，只需通过自然语言提示（Prompt），即可完成复杂的数据清洗、增强与语义结构化操作。

整个过程完全托管，且 AI 处理功能本身不额外收费 —— 您只需为同步任务消耗的计算资源付费，与其他普通离线同步任务计费方式完全一致。

适用场景-多行业多场景赋能企业 AI 落地

智能数据处理在数据同步 ETL 流程中可广泛应用于多个企业场景，通过情感分析、摘要生成、关键词提取、翻译和向量化等能力提升数据处理效率与洞察深度。这些应用可以显著提升了企业的决策支持能力和运营智能化水平。

1、电商客服场景：用户反馈分析与情感分类

示例，客户留言：“快递太慢了，等了半个月还没到！”

👉 自动归类千万级评论，支撑运营决策与服务质量优化。

2、智能汽车场景：设备日志分析与预测性维护

示例，日志内容：“The break pump pressure：abnormal; sensor exceeding : 15%”

👉 将非结构化日志转为结构化告警信息，助力预测性维护系统快速响应。

3、供应链场景：供应商反馈分析与风险预警

示例，供应商邮件：“We are unable to fulfill the order due to a shortage of raw materials.”

👉 自动识别交付风险，提前触发备选供应商调度机制。

4、法律场景：合同条款分析与风险标注

示例，合同条款：“In the event of force majeure, the delivery deadline may be extended.”

👉 提升法务审查效率，降低合同履约风险。

案例说明

接下来介绍如何使用AI辅助处理功能，将数据来源表中feedback_info列的数据翻译为英文并同步至目标表。

来源表数据准备

CREATE TABLE customer_feedback (id BIGINT PRIMARY KEY,device STRING,feedback_info STRING,pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', '价格实惠，适合学生党，性能够用', 2020),
(1, 'iphone', '这个商品还行，我用了1年', 2013),
(10, 'Bose QuietComfort 35 II', '降噪耳机中的经典，舒适度满分', 2021);

一、创建离线同步任务

进入DataWorks工作空间列表页，在顶部切换至目标地域，找到已创建的工作空间，单击操作列的快速进入 > Data Studio，进入Data Studio。

在左侧导航栏单击按钮，进入数据开发页面，在项目目录右侧单击+，选择新建节点 > 数据集成 > 离线同步，进入新建节点对话框。设置节点路径、数据来源去向和节点名称后，单击确认，创建离线同步节点。

本文以Hologres同步至Hologres为例，介绍离线同步任务中的AI辅助处理功能。

二、配置同步任务

创建离线同步节点后，会自动进入任务编辑页面，您需要在此页面配置如下信息：

1、数据源

分别配置数据同步任务的数据来源和数据去向。

类型：创建离线同步任务步骤中已选择的数据来源和去向的数据源类型，不支持修改，如需修改请重新创建离线同步任务。

配置方式：

快速配置：手动配置数据来源与数据去向的连接信息，详细的配置参数解释可在配置界面查看对应参数的文案提示。

使用已有数据源：请在数据源参数后的下拉列表中选择已创建的数据源。

说明

数据源中只展示对应类型的数据源。

2、运行资源

选择同步任务所使用的资源组。如果使用 Serverless 资源组，您还可以为该任务分配资源占用 CU 数。

选择资源组后，数据集成将自动检测资源组与数据来源、数据去向的连通性，您也可以手动单击连通性检查。

3、数据来源

配置数据来源具体待同步的表信息，如Schema、表、分区和数据过滤条件等。您可以单击数据预览，查看待同步的具体数据。

4、数据处理

在数据处理区域，您可以开启数据处理能力，数据处理能力需要更多的计算资源，会增加任务的资源占用开销。

单击添加节点，当前支持字符串替换和AI辅助处理。本案例以AI辅助处理为例进行介绍。

配置AI辅助处理相关信息。

关键参数解释如下：

参数	描述
模型提供商	支持阿里云DataWorks模型服务、阿里百炼平台、阿里云PAI模型市场。
模型名称	负责智能数据处理的模型，按需选择。
API Key	访问模型的API KEY，请前往模型提供商获取。阿里云百炼平台：获取百炼API Key。阿里云PAI模型市场：前往部署的EAS任务，进入在线调试，获取Token，将其作为API KEY填写到此处。
处理工作描述	请使用自然语言描述对来源字段的处理，字段名以`#{column_name}`格式书写。例如，本案例中，此处填写`请将'#{feedback_info}'翻译成英文`。
写入字段	此处请输入存储结果字段的名称，如果对应字段不存在，将自动新增一个字段。