当前位置: 首页 > news >正文

让 ETL 更懂语义:DataWorks 支持数据集成 AI 辅助处理能力

在生成式 AI 浪潮下,数据不再只是“被搬运的原料”,更应是“可理解、可推理、可挖掘价值”的智能资产。然而,传统 ETL(Extract-Transform-Load)流程仍停留在结构化数据处理层面,面对海量文本、日志、反馈等非结构化数据时,往往依赖人工标注或复杂开发链路,效率低、成本高、响应慢。

为此,阿里云大数据开发治理平台 DataWorks 数据集成全新智能化升级,以“ AI 释放数据价值”为核心,正式推出 AI 辅助处理能力,并将该功能在阿里云全球所有地域全面开放!将大模型语义理解、AI 智能分析能力深度融入离线同步任务的数据集成任务,真正实现“让每一条数据流都能思考”。

核心能力-开箱即用的智能 ETL 引擎

DataWorks Serverless 资源组全新升级,支持大模型一键部署与高效调用!现已支持 Qwen3 系列、DeepSeek 系列及 Embedding 模型,提供多种 GPU 规格按需选用,按量付费,灵活成本。通过 AI Function 可便捷调用模型服务,小尺寸模型推理性能提升近 10 倍,并支持使用 DataWorks Serverless CU 资源抵扣,助力 AI 应用快速构建与弹性扩展。

DataWorks 数据集成现已支持在离线同步任务中直接调用大模型服务,用户无需部署模型、无需编写代码、无需额外付费,只需通过自然语言提示(Prompt),即可完成复杂的数据清洗、增强与语义结构化操作。

整个过程完全托管,且 AI 处理功能本身不额外收费 —— 您只需为同步任务消耗的计算资源付费,与其他普通离线同步任务计费方式完全一致。

适用场景-多行业多场景赋能企业 AI 落地

智能数据处理在数据同步 ETL 流程中可广泛应用于多个企业场景,通过情感分析、摘要生成、关键词提取、翻译和向量化等能力提升数据处理效率与洞察深度。这些应用可以显著提升了企业的决策支持能力和运营智能化水平。

1、电商客服场景:用户反馈分析与情感分类

示例,客户留言:“快递太慢了,等了半个月还没到!”

👉 自动归类千万级评论,支撑运营决策与服务质量优化。

2、智能汽车场景:设备日志分析与预测性维护

示例,日志内容:“The break pump pressure:abnormal; sensor exceeding : 15%”

👉 将非结构化日志转为结构化告警信息,助力预测性维护系统快速响应。

3、供应链场景:供应商反馈分析与风险预警

示例,供应商邮件:“We are unable to fulfill the order due to a shortage of raw materials.”

👉 自动识别交付风险,提前触发备选供应商调度机制。

4、法律场景:合同条款分析与风险标注

示例,合同条款:“In the event of force majeure, the delivery deadline may be extended.”

👉 提升法务审查效率,降低合同履约风险。

案例说明

接下来介绍如何使用AI辅助处理功能,将数据来源表中feedback_info列的数据翻译为英文并同步至目标表。

来源表数据准备

CREATE TABLE customer_feedback (id BIGINT PRIMARY KEY,device STRING,feedback_info STRING,pt INT
)
PARTITIONED BY (pt)
DISTRIBUTED BY HASH(id)
WITH (table_type='Duplication');INSERT INTO customer_feedback (id, device, feedback_info, pt)
VALUES
(8, 'Huawei MateBook D14', '价格实惠,适合学生党,性能够用', 2020),
(1, 'iphone', '这个商品还行,我用了1年', 2013),
(10, 'Bose QuietComfort 35 II', '降噪耳机中的经典,舒适度满分', 2021);

一、创建离线同步任务

进入DataWorks工作空间列表页,在顶部切换至目标地域,找到已创建的工作空间,单击操作列的快速进入 > Data Studio,进入Data Studio。

在左侧导航栏单击按钮,进入数据开发页面,在项目目录右侧单击+,选择新建节点 > 数据集成 > 离线同步,进入新建节点对话框。设置节点路径、数据来源去向和节点名称后,单击确认,创建离线同步节点。

本文以Hologres同步至Hologres为例,介绍离线同步任务中的AI辅助处理功能。

二、配置同步任务

创建离线同步节点后,会自动进入任务编辑页面,您需要在此页面配置如下信息:

1、数据源

分别配置数据同步任务的数据来源和数据去向。

类型:创建离线同步任务步骤中已选择的数据来源和去向的数据源类型,不支持修改,如需修改请重新创建离线同步任务。

配置方式:

快速配置:手动配置数据来源与数据去向的连接信息,详细的配置参数解释可在配置界面查看对应参数的文案提示。

使用已有数据源:请在数据源参数后的下拉列表中选择已创建的数据源。

说明

数据源中只展示对应类型的数据源。

2、运行资源

选择同步任务所使用的资源组。如果使用 Serverless 资源组,您还可以为该任务分配资源占用 CU 数。

选择资源组后,数据集成将自动检测资源组与数据来源、数据去向的连通性,您也可以手动单击连通性检查。

3、数据来源

配置数据来源具体待同步的表信息,如Schema、表、分区和数据过滤条件等。您可以单击数据预览,查看待同步的具体数据。

4、数据处理

在数据处理区域,您可以开启数据处理能力,数据处理能力需要更多的计算资源,会增加任务的资源占用开销。

单击添加节点,当前支持字符串替换和AI辅助处理。本案例以AI辅助处理为例进行介绍。

配置AI辅助处理相关信息。

关键参数解释如下:

参数描述
模型提供商

支持阿里云DataWorks模型服务、阿里百炼平台、阿里云PAI模型市场。

模型名称

负责智能数据处理的模型,按需选择。

API Key

访问模型的API KEY,请前往模型提供商获取。

阿里云百炼平台:获取百炼API Key。

阿里云PAI模型市场:前往部署的EAS任务,进入在线调试,获取Token,将其作为API KEY填写到此处。

处理工作描述

请使用自然语言描述对来源字段的处理,字段名以#{column_name}格式书写。例如,本案例中,此处填写请将'#{feedback_info}'翻译成英文

写入字段

此处请输入存储结果字段的名称,如果对应字段不存在,将自动新增一个字段。

说明

本案例的示例配置中,会将来源表的feedback_info字段翻译成英文,并存储到feedback_processed字段中。

您可以单击AI辅助处理区域右上角的数据输出预览,查看输出的最终数据效果。

(可选)您可以配置多个先后按顺序执行的数据处理流程。

5、数据去向

配置数据同步的目标表信息,例如Schema、表名、分区等。

您可以单击一键生成目标表结构,快速生成目标表。

如果目标端中已存在表用于接收数据,则按需选择即可。

配置写入模式以及写入冲突策略。

配置同步前是否要清空Hologres表中的已有数据。

(可选)配置最大连接数。

最大连接数仅在写入模式为SQL(INSERT INTO)下生效,在开启任务时请确保Hologres实例有充足的空闲连接。一个任务最多使用9个连接。

6、去向字段映射

配置完成数据来源、数据处理和数据去向后,会在此处展示来源与去向表间的字段映射关系,默认为同名映射和同行映射,你也可以按需进行调整。

说明

本案例中除了将源表已有字段(iddevicefeedback_infopt)同名映射外,还需要手动将源表中存储翻译后结果的feedback_processed字段,映射至目标表的translate_feedback字段中。

三、调试任务

在离线同步任务的编辑窗口右侧,单击调试配置,配置调试本节点使用的资源组和相关脚本参数。

单击节点顶部工具栏的保存,然后单击运行,等待运行结束,查看运行结果是否成功,您可以前往目标端数据库查看表数据是否符合预期。

四、调度配置

若离线同步节点需要周期性调度执行,您需要在节点右侧的调度配置中设置调度策略,配置相关的节点调度属性。

五、节点发布

请单击节点工具栏的发布图标唤起发布流程,通过该流程将任务发布至生产环境。只有在发布至生产环境后,才会进行周期性调度。

后续操作:任务运维

节点发布后,您可以在发布流程中单击补数据或去运维。

补数据:仅支持对当前节点进行补数据。如果需要更复杂的补数据功能请前往运维中心操作。更多信息,请参见执行补数据并查看补数据实例(新版)。

去运维:任务发布后将自动进入运维中心,您可在运维中心查看任务运行情况,或手动触发任务执行。详情请参见:运维中心。

http://www.dtcms.com/a/581225.html

相关文章:

  • 新能源汽车底盘紧固件的“防腐密码”:从技术革新到体系共创
  • 前端性能优化实战:从理论到实践的深度解析
  • 【C++:红黑树】深入理解红黑树的平衡之道:从原理、变色、旋转到完整实现代码
  • 网站怎么做翻页徐州专业网站seo
  • 《算法通关指南数据结构和算法篇(4)--- 队列和queue》
  • 云计算运维监控实战:生产环境与自建方案对比
  • 深入理解MySQL行锁,间隙锁和临键锁
  • 鸿安建设集团网站wordpress主题2019
  • 申请软著,怎么快速整理软件源代码
  • sam2 点选 分割图片 2025
  • 网站开发源程序重庆建筑人才网官网
  • 如何理解蒙特卡洛方法并用python进行模拟
  • 公司网站代码模板wordpress 虎嗅网
  • 在 Windows 中清理依赖node_modules并重新安装
  • 【数据结构】从零开始认识图论 --- 并查集与最小生成树算法
  • 使用 AWS WAF 防护 Stored XSS 攻击完整指南
  • 当爬虫遇到GraphQL:如何分析与查询这种新型API?
  • 游戏手柄遥控越疆协作机器人[一]
  • MATLAB实现决策树数值预测
  • Maven 多模块项目与 Spring Boot 结合指南
  • 搜索量最高的网站小白学编程应该从哪里开始学
  • 西安大型网站制作wordpress耗时显示
  • Kubernetes(k8s)
  • 如何提高 SaaS 产品的成功率?
  • ​技术融合新纪元:深度学习、大数据与云原生的跨界实践
  • 中国高分辨率单季稻种植分布数据集(2017-2023)
  • PDF工具箱/合并拆分pdf/提取图片
  • 如何在PDF文档中打钩?(福昕阅读器)打√
  • 新手怎么样学做网站企业网站建设规划的基本原则是什么
  • 【DIY】PCB练习记录2——51单片机核心板