当前位置：首页 > news >正文

Flume之选择器：复制和多路复用（比喻化理解

news 2025/11/1 7:40:13

Flume 的选择器决定了Source 如何将数据分发到多个 Channel。这就像 “快递员如何分配包裹到不同的运输通道”，有两种策略：复制和多路复用。

一、复制（Replicating Selector）：每个 Channel 都送一份

核心逻辑

将同一个 Event（数据）复制到所有配置的 Channel，就像 “一个快递员同时给多个收件人发相同的包裹”。

应用场景

需要将数据同时写入多个目的地（如同时备份到 HDFS 和 Kafka）。
示例：监控系统日志，同时存储到 HDFS（长期归档）和 Elasticsearch（实时搜索）。

配置示例

# Source配置
a1.sources = r1
a1.channels = c1 c2  # 配置两个Channel# 选择器类型：复制（默认）
a1.sources.r1.selector.type = replicating

二、多路复用（Multiplexing Selector）：按规则分配

核心逻辑

根据 Event 的Header 值（类似包裹上的 “地址标签”），将数据路由到不同的 Channel，就像 “快递员按收件地址分区域派送”。

应用场景

根据数据类型拆分（如将错误日志和访问日志分到不同 Channel）。
示例：电商订单数据，按支付方式（微信 / 支付宝）分流到不同 Kafka Topic。

配置示例

# Source配置
a1.sources = r1
a1.channels = c1 c2  # 配置两个Channel# 选择器类型：多路复用
a1.sources.r1.selector.type = multiplexing# 按Header中的"type"字段路由
a1.sources.r1.selector.header = type
a1.sources.r1.selector.mapping.error = c1  # type=error的Event走c1
a1.sources.r1.selector.mapping.access = c2  # type=access的Event走c2
a1.sources.r1.selector.default = c2  # 未匹配的默认走c2

三、对比与记忆技巧

维度	复制（Replicating）	多路复用（Multiplexing）
数据流向	一个 Event 复制到所有 Channel	一个 Event 只走一个 Channel（按规则选）
比喻	快递员给每个客户都发相同的包裹	快递员按地址分区派送包裹
配置关键词	`replicating`（默认，无需显式配置）	`multiplexing` + `header` + `mapping`
典型场景	数据备份、多目的地存储	数据分类、分流处理