当前位置: 首页 > wzjs >正文

哪些网站不能备案百度小程序入口官网

哪些网站不能备案,百度小程序入口官网,班级响应式网站html格式,网站漏洞原理在 Flink SQL 中,要确保从 Hive 读取的 STRING 类型时间戳数据排序后有序写入 Kafka,需要结合 批处理模式、时间类型转换、单分区写入 和 Kafka 生产者配置。以下是完整解决方案: 一、核心解决方案 1. 批处理模式 全局排序 将作业设置为批处…

在 Flink SQL 中,要确保从 Hive 读取的 STRING 类型时间戳数据排序后有序写入 Kafka,需要结合 批处理模式时间类型转换单分区写入Kafka 生产者配置。以下是完整解决方案:

一、核心解决方案

1. 批处理模式 + 全局排序

将作业设置为批处理模式,并对字符串时间戳进行类型转换后排序:

-- 设置为批处理模式(关键!)
SET 'execution.runtime-mode' = 'batch';-- 从 Hive 读取数据
CREATE TABLE hive_source (id STRING,ts_str STRING,  -- 字符串类型的时间戳,如 '2024-01-01 12:00:00' 或 '1718524800000'value DOUBLE
) WITH ('connector' = 'hive','catalog-name' = 'myhive','database-name' = 'default','table-name' = 'my_table'
);-- 创建 Kafka 目标表(单分区)
CREATE TABLE kafka_sink (id STRING,ts_str STRING,value DOUBLE
) WITH ('connector' = 'kafka','topic' = 'output_topic','properties.bootstrap.servers' = 'kafka:9092','properties.max.in.flight.requests.per.connection' = '1',  -- 确保生产者按顺序发送'properties.acks' = 'all',  -- 等待所有副本确认'format' = 'json'
);-- 转换时间戳类型并全局排序后写入 Kafka
INSERT INTO kafka_sink
SELECT id,ts_str,value
FROM hive_source
ORDER BY CASE WHEN REGEXP_EXTRACT(ts_str, '^\\d{4}-\\d{2}-\\d{2}', 0) != '' THEN TO_TIMESTAMP(ts_str)  -- 处理 'yyyy-MM-dd HH:mm:ss' 格式ELSE TO_TIMESTAMP_LTZ(CAST(ts_str AS BIGINT), 3)  -- 处理毫秒时间戳END ASC;  -- 按时间升序排列

2. 强制写入单 Kafka 分区

通过 固定分区键 确保所有数据写入同一 Kafka 分区:

-- 创建带分区键的 Kafka 表
CREATE TABLE kafka_sink (id STRING,ts_str STRING,value DOUBLE,partition_key STRING  -- 用于分区的字段
) WITH ('connector' = 'kafka','topic' = 'output_topic','properties.bootstrap.servers' = 'kafka:9092','format' = 'json','sink.partitioner' = 'fixed'  -- 使用固定分区器
);-- 写入时指定相同分区键(确保所有数据在同一分区内有序)
INSERT INTO kafka_sink
SELECT id,ts_str,value,'fixed_key' AS partition_key  -- 固定分区键,所有数据写入同一分区
FROM (SELECT *,CASE WHEN REGEXP_EXTRACT(ts_str, '^\\d{4}-\\d{2}-\\d{2}', 0) != '' THEN TO_TIMESTAMP(ts_str) ELSE TO_TIMESTAMP_LTZ(CAST(ts_str AS BIGINT), 3) END AS ts_time  -- 转换为时间类型FROM hive_source
)
ORDER BY ts_time ASC;  -- 按转换后的时间排序

二、关键配置说明

配置项作用
execution.runtime-mode = 'batch'启用批处理模式,支持全局排序(流模式仅支持时间属性字段排序)
properties.max.in.flight.requests.per.connection = '1'限制 Kafka 生产者并发请求数,确保消息按顺序发送
properties.acks = 'all'等待所有 Kafka 副本确认,保证消息不丢失
sink.partitioner = 'fixed'使用固定分区器,结合相同分区键,确保所有数据写入同一分区

三、注意事项

  1. 时间戳格式适配

    • 代码示例中通过 REGEXP_EXTRACT 自动判断格式(字符串日期或毫秒),需根据实际数据调整。
    • 若格式固定,可简化为单一转换函数(如 TO_TIMESTAMP(ts_str))。
  2. 性能与有序性权衡

    • 单分区写入会导致吞吐量下降,适合对顺序要求极高但数据量较小的场景。
    • 若数据量大,可考虑按时间窗口分组,每个窗口内有序写入不同分区。
  3. Kafka 主题配置

    • 确保 Kafka 主题的分区数至少为 1。若需更高吞吐量,可增加分区但需接受不同分区间可能乱序。

四、验证方法

  1. 检查 Kafka 消息顺序

    kafka-console-consumer.sh \--bootstrap-server kafka:9092 \--topic output_topic \--from-beginning | jq -r '.ts_str'  # 使用 jq 解析 JSON 中的时间戳字段
    
  2. 在 Flink WebUI 中观察

    • 访问 http://jobmanager-host:8081,查看作业是否正常完成,以及 sink 算子的并行度是否为 1(若设置)。

五、总结

要保障写入 Kafka 的数据有序,需同时满足:

  1. 批处理模式:确保全局排序生效。
  2. 类型转换:将字符串时间戳正确转换为 TIMESTAMPTIMESTAMP_LTZ 类型。
  3. 单分区写入:通过固定分区键将所有数据路由到同一 Kafka 分区。
  4. 生产者配置:限制并发请求,确保消息按顺序发送和确认。

通过以上步骤,可实现从 Hive 到 Kafka 的有序数据传输。

http://www.dtcms.com/wzjs/792195.html

相关文章:

  • 地方电商门户网站如何建设方案青岛网站建设方案托管
  • 兼职网站的建设目标怎么写服务器和网站维护
  • 交易链接大全帮网站做关键词排名优化
  • 手机商城建站系统网站建设建设厅网站打不开
  • 音乐网站开发开发沧州微网网络信息有限公司
  • 做外贸需要网站吗中山建设厅网站首页
  • 有没有做租赁的网站西安专业网站建设报价
  • 网站建设要些什么如何再网站上做免费广告词
  • 哈尔滨道里建设局网站辽宁城乡住房建设厅官网证书查询
  • 网站开发沟通深圳做营销网站公司简介
  • 网站建设得步骤wordpress loper
  • 手机网站设计公司优选亿企邦网站建设架构细节
  • 网站后台管理系统代码外籍人士在中国注册公司
  • 网站栏目框架seo推广怎么样
  • 哪个公司可以做网站每个
  • 建设部网站监理公告wordpress ugc
  • 福田做商城网站建设哪家服务周到新手开网店从哪里找货源
  • canvas设计网站网上商城推广方法
  • 网站项目开发收费标准文山知名网站建设报价
  • 商城网站静态模板下载网址大全123上网导航
  • 网站备案类型有哪些php语言做购物网站
  • 如何做网站客户端网站备案 湖北
  • 手机网站与电脑网站兼容做详情页网站
  • wordpress站内信插件百度新闻发布平台
  • 网站官网认证怎么做的wordpress版权加密
  • 哪些网站有二维码电脑怎么装免费wordpress
  • 专业做网站方案怎么建网站 手机版
  • 单页网站设计欣赏wordpress 优秀的博客主题简洁
  • 淮安建设局网站哪有做外单的图片素材网站
  • 北京网站建设公司分享网站改版注意事项部队网站制作