当前位置: 首页 > wzjs >正文

拼多多刷单网站开发平安网站建设公司

拼多多刷单网站开发,平安网站建设公司,外管局网站怎么做报告,彬县网新闻最新消息根据缓慢变化维度(SCD)的三种核心类型(类型1、类型2、类型3),以下是基于AWS Glue的实现设计、步骤及测试用例: 一、AWS Glue实现SCD的设计与步骤 1. SCD类型1(覆盖旧值) 设计目标&…

根据缓慢变化维度(SCD)的三种核心类型(类型1、类型2、类型3),以下是基于AWS Glue的实现设计、步骤及测试用例:


一、AWS Glue实现SCD的设计与步骤

1. SCD类型1(覆盖旧值)

设计目标:直接更新目标表中的记录,不保留历史数据。
技术选型

  • 使用AWS Glue ETL作业(PySpark)
  • 目标存储:S3(Parquet格式)或Amazon Redshift
  • 数据比对方式:基于业务键(如customer_id)匹配新旧记录

实现步骤

  1. 数据源准备

    • 源表(Source):实时更新的客户表(如CSV或数据库表)。
    • 目标表(Target):维度表(如dim_customer)。
  2. Glue作业逻辑

    from pyspark.context import SparkContext
    from awsglue.context import GlueContextsc = SparkContext()
    glueContext = GlueContext(sc)# 加载源数据和目标数据
    source_df = glueContext.create_dynamic_frame.from_catalog(database="source_db", table_name="customer").toDF()
    target_df = glueContext.create_dynamic_frame.from_catalog(database="target_db", table_name="dim_customer").toDF()# 合并逻辑:覆盖旧值
    merged_df = target_df.alias("target").join(source_df.alias("source"),target_df.customer_id == source_df.customer_id,"outer"
    ).selectExpr("coalesce(source.customer_id, target.customer_id) as customer_id","source.name as name",  # 直接覆盖"source.address as address"  # 直接覆盖
    ).distinct()# 写入目标表(覆盖模式)
    glueContext.write_dynamic_frame.from_catalog(frame=DynamicFrame.fromDF(merged_df, glueContext, "merged_df"),database="target_db",table_name="dim_customer",transformation_ctx="write_target"
    )
    
  3. 目标表结构

    CREATE TABLE dim_customer (customer_id INT PRIMARY KEY,name STRING,address STRING
    );
    

2. SCD类型2(创建新记录)

设计目标:插入新记录并标记历史版本。
技术选型

  • 使用Glue的窗口函数(row_number)跟踪最新记录
  • 新增字段:is_current(布尔值)、start_dateend_date
  • 存储格式:S3 + Parquet(支持ACID事务)

实现步骤

  1. 目标表结构

    CREATE TABLE dim_customer_scd2 (customer_sk INT AUTOINCREMENT PRIMARY KEY,  -- 代理键customer_id INT,name STRING,address STRING,is_current BOOLEAN,start_date DATE,end_date DATE
    );
    
  2. Glue作业逻辑

    from pyspark.sql.window import Window
    from pyspark.sql.functions import row_number, lit, current_date, when# 加载源数据和目标数据
    source_df = glueContext.create_dynamic_frame.from_catalog(database="source_db", table_name="customer").toDF()
    target_df = glueContext.create_dynamic_frame.from_catalog(database="target_db", table_name="dim_customer_scd2").toDF()# 标记目标表中的旧记录为失效
    target_updated = target_df.withColumn("end_date",when((target_df.customer_id.isin(source_df.select("customer_id").collect())) &(target_df.is_current == True),current_date()).otherwise(target_df.end_date)
    ).withColumn("is_current",when((target_df.customer_id.isin(source_df.select("customer_id").collect())) &(target_df.is_current == True),False).otherwise(target_df.is_current)
    )# 插入新记录
    new_records = source_df.join(target_updated,["customer_id"],"left_anti"  # 仅选择源中存在但目标中不存在的记录
    ).select("customer_id","name","address",lit(True).alias("is_current"),current_date().alias("start_date"),lit(None).cast("date").alias("end_date")
    )# 合并并写入目标表
    final_df = target_updated.unionByName(new_records)
    glueContext.write_dynamic_frame.from_catalog(frame=DynamicFrame.fromDF(final_df, glueContext, "final_df"),database="target_db",table_name="dim_customer_scd2"
    )
    

3. SCD类型3(添加有效日期)

设计目标:维护当前记录和历史记录的有效时间范围。
技术选型

  • 新增字段:valid_fromvalid_to
  • 使用Glue的coalesce处理时间重叠

实现步骤

  1. 目标表结构

    CREATE TABLE dim_customer_scd3 (customer_sk INT PRIMARY KEY,customer_id INT,name STRING,address STRING,valid_from DATE,valid_to DATE
    );
    
  2. Glue作业逻辑

    # 关闭旧记录的valid_to
    target_updated = target_df.withColumn("valid_to",when((target_df.customer_id.isin(source_df.select("customer_id").collect())) &(target_df.valid_to.isNull()),current_date()).otherwise(target_df.valid_to)
    )# 插入新记录
    new_records = source_df.select("customer_id","name","address",current_date().alias("valid_from"),lit(None).cast("date").alias("valid_to")
    )# 合并并写入
    final_df = target_updated.unionByName(new_records)
    glueContext.write_dynamic_frame.from_catalog(...)
    

二、测试用例

通用测试场景
测试场景预期结果
无变化的记录目标表记录保持不变。
新增记录目标表插入新记录(类型2/3新增代理键,类型1直接插入)。
属性值变化类型1覆盖旧值;类型2插入新记录并标记旧记录失效;类型3关闭旧记录有效期。
多次更新同一记录类型2生成多条历史记录;类型3仅保留当前和上一次状态。
类型2专项测试
  1. 历史版本查询

    SELECT * FROM dim_customer_scd2 
    WHERE customer_id = 100 
    ORDER BY start_date DESC;
    

    预期:返回该客户的所有历史地址记录。

  2. 当前标记验证

    SELECT COUNT(*) FROM dim_customer_scd2 
    WHERE customer_id = 100 AND is_current = True;
    

    预期:仅返回1条记录。

类型3专项测试
  1. 时间范围覆盖
    SELECT * FROM dim_customer_scd3 
    WHERE customer_id = 200 
    AND valid_from <= '2023-10-01' 
    AND valid_to >= '2023-10-01';
    
    预期:返回该时间点有效的记录。

三、性能优化建议

  1. 分区策略:按日期或业务键分区目标表(如valid_from)。
  2. 索引优化:在Redshift中为customer_idis_current列创建排序键。
  3. 增量处理:启用Glue Job Bookmark仅处理新增数据。
http://www.dtcms.com/wzjs/833324.html

相关文章:

  • 关于网站建设维护的创业计划书江门网络干部学院
  • 企业网站推广的方法有珠海今天最新通知
  • 美食教做网站简网app工场官网网址
  • 淘宝网站建设的目标wordpress剑侠情缘主题
  • 网站多服务器建设深圳网站制作价格
  • 个人网站开发可行性报告做网站app需多少钱
  • 上海网站关键排名西安核心关键词排名
  • 自己公司做网站网络推广好做吗多少钱
  • 网站怎么做平台appui设计公司
  • 阜阳专业网站建设python网页编程代码
  • 网站流量下跌华为云免费云服务器
  • 手机网站建设渠道国企招聘网最新招聘2023
  • 织梦源码怎样做单页网站帝国cms地方门户网站模板
  • 网站数据库数据丢失google海外版入口
  • 富利建设集团有限公司网站“设计网站”
  • 一站式网站小红书推广方案
  • 网站收录下降论坛网站建设需要多少钱
  • 自助建网站系统看电影做网站有哪些主题
  • 有哪些网站免费学习建设网站的世界杯网页设计素材
  • 中国河北网站wordpress 纯静态首页
  • 家装用什么软件设计无锡企业网站seo
  • 企业网站建设策划书网站模板安装
  • 仿做购物网站平台网站建设推荐
  • 一家公司做两个网站成品ppt的网站免费观看
  • 网站开发文档总结做网站需要多少钱西安
  • 做p2p网站费用广州网络seo公司
  • 百度上能收到的企业名称网站怎么做商城网站建设流程
  • 上海医疗网站备案一个公司可以有两个网站吗
  • 商丘网站建设有哪些哈尔滨网站公司哪家好
  • 营销型网站建设的步骤流程是什么室内设计效果图怎么画