当前位置: 首页 > news >正文

Flink CDC「Data Pipeline」定义与参数速查

一、核心概念

  • Data Pipeline:Flink CDC 里,事件从上游流向下游,整条 ETL 作业即称为一个“数据管道(Data Pipeline)”。管道在 Flink 中对应一串有序的 operators(算子链)。必备部分:source / sink / pipeline;可选部分:route / transform。(Apache Nightlies)

二、最小可用示例(Only required)

目标:把 MySQL app_db 库下的所有表,实时同步到 Doris

✅ 正则要写成 app_db\..*(点号要转义;YAML 中避免使用 \.* 这样的 Markdown 残留写法)。

pipeline:name: Sync MySQL Database to Dorisparallelism: 2source:type: mysqlhostname: localhostport: 3306username: rootpassword: 123456tables: app_db\..*sink:type: dorisfenodes: 127.0.0.1:8030username: rootpassword: ""
  • pipeline.parallelism 为全局并行度,默认 1。(Apache Nightlies)
  • Doris 作为 sink 需要 FE 地址 fenodes、用户名等基础配置。(Apache Nightlies)

三、进阶示例(With optional)

目标:同步 app_db 全库到 Doris,同时:

  • 字段投影/过滤transform
  • 表路由route):把上游表写到指定库表(ods_db.ods_*
  • 注册UDFtransform 使用
source:type: mysqlhostname: localhostport: 3306username: rootpassword: 123456tables: app_db\..*sink:type: dorisfenodes: 127.0.0.1:8030username: rootpassword: ""transform:- source-table: adb.web_order01# 用双引号包住整个表达式,避免 YAML 把 * 解析为锚点projection: "*, format('%S', product_name) as product_name"filter: "addone(id) > 10 AND order_id > 100"description: project fields and filter- source-table: adb.web_order02projection: "*, format('%S', product_name) as product_name"filter: "addone(id) > 20 AND order_id > 200"description: project fields and filterroute:- source-table: app_db.orderssink-table: ods_db.ods_orders- source-table: app_db.shipmentssink-table: ods_db.ods_shipments- source-table: app_db.productssink-table: ods_db.ods_productspipeline:name: Sync MySQL Database to Dorisparallelism: 2user-defined-function:- name: addoneclasspath: com.example.functions.AddOneFunctionClass- name: formatclasspath: com.example.functions.FormatFunctionClass

上述结构、字段名与含义,均出自 Flink CDC 官方 “Data Pipeline” 文档与 “MySQL→Doris Quickstart”。(Apache Nightlies)
Doris sink 关键参数(type: dorisfenodes 等)见 Doris 连接器页面与对应 3.5 API。(Apache Nightlies)

四、Pipeline 级参数一览(至少设置一个参数;pipeline 段不可为空

参数作用备注
name提交到 Flink 集群时的作业名可选
parallelism管道全局并行度(默认 1)可选
local-time-zone会话时区 ID可选
execution.runtime-mode运行模式:STREAMING / BATCH(默认 STREAMING可选
schema.change.behavior上游模式变更处理策略:exception / evolve / try_evolve / lenient(默认) / ignore可选
schema.operator.uid已弃用(用 operator.uid.prefix可选
schema-operator.rpc-timeout等下游应用 Schema 变更的超时,默认 3 分钟可选
operator.uid.prefix给所有算子 UID 统一加前缀,便于有状态升级/排障/定位可选

官方强调:上述参数各自可选,但 pipeline 段必须存在且不能为空。(Apache Nightlies)

五、常见踩坑与修正

  1. 正则写法

    • 正确:app_db\..*(转义点号,匹配该库全部表)
    • 错误:app_db.\.*(多见于网页转义后的拷贝)
      原因:Markdown/网页中常把 *\ 做转义展示,直接复制会“多出反斜杠”。(按上文示例已修正)(Apache Nightlies)
  2. YAML 里使用 *

    • projection 里建议把整句用引号包起来:"*, col as alias",避免 YAML 把 * 解析成锚点语法。
  3. Doris 连接参数

    • 至少提供 type: dorisfenodes(FE 的 HTTP 地址),其他如 username/password/jdbc-url 视集群而定。(Apache Nightlies)
  4. Schema 演进策略

    • 生产环境常用 lenienttry_evolve;严格治理可用 evolve/exception。(Apache Nightlies)

六、参考与延伸阅读

  • Flink CDC —— Data Pipeline:定义、必选/可选段落、示例、Pipeline 配置项。(Apache Nightlies)
  • MySQL → Doris 快速上手:端到端 YAML + CLI。(Apache Nightlies)
  • Doris 管道连接器:必需/可选参数与示例。(Apache Nightlies)
http://www.dtcms.com/a/582215.html

相关文章:

  • 电子烟花:科技点亮夜空的艺术
  • Anatomy-guided Pathology Segmentation
  • 广州建设工程合同备案系统网站做一个网站需要多少费用
  • 内存区域划分——垃圾回收
  • 网站建设可行性分析网站开发需求分析用的图
  • Android 无侵入式数据采集:从手动埋点到字节码插桩的演进之路
  • 一致性哈希和普通哈希有什么区别
  • vue 三种类型的插槽
  • TCP的核心特性精讲(上篇)
  • 河源市企业网站seo价格商城网站策划书
  • Spark-3.5.7文档5 - Spark Streaming 编程指南
  • 北京网站关键词优化推荐徐州列表网
  • Spring 事务管理 Transaction rolled back because it has been marked as rollback-only
  • git不想被添加的文件加入到了列表中如何去掉
  • 网关开发笔记
  • 不备案怎么做淘宝客网站吗网站的视频怎么下载
  • 贵阳市住房和城乡建设部网站北京有几个区几个县
  • 【笔记】修复 ComfyUI 启动 ImportError: cannot import name ‘cached_download‘ 错误
  • 长沙网站优化页面学校网站建设工作
  • 昆明企业做网站黎城网站建设
  • 在vue3+uniapp+vite中挂载全局属性方法
  • 地理信息科学 vs 测绘工程:专业区别与就业前景
  • ​​Linux环境下的C语言编程(十六)
  • 淘宝购物返利网站开发基层建设杂志网站
  • 某多多 Redis 面试相关知识点总结
  • 【STM32】知识点介绍三:哈希算法详解
  • Effective STL第8条: 切勿创建包含auto_ptr的容器对象
  • 使用DrissionPage实现虚拟货币市场数据智能爬取
  • 零基础入门C语言之预处理详解
  • 做外汇门户网站重庆相亲网