当前位置: 首页 > news >正文

在Hive中,将数据从一个表查询并插入到另一个表

1. 确认目标表结构

确保目标表已存在且结构与查询结果匹配。若不存在,需先创建:

CREATE TABLE target_table (
    id INT,
    name STRING
)
PARTITIONED BY (dt STRING)
STORED AS ORC;

2. 选择插入方式

  • 覆盖插入(替换现有数据): 

INSERT OVERWRITE TABLE target_table PARTITION (dt)
SELECT id, name, dt FROM source_table;

  • 追加插入(保留现有数据):

 INSERT INTO TABLE target_table PARTITION (dt)
SELECT id, name, dt FROM source_table;

3. 处理动态分区

若目标表有动态分区,需启用配置:

SET hive.exec.dynamic.partition = true;
SET hive.exec.dynamic.partition.mode = nonstrict;

确保SELECT语句中分区字段(如dt)位于最后。

4. 字段映射与转换

若字段名或类型不同,需在查询时转换:

INSERT OVERWRITE TABLE target_table PARTITION (dt)
SELECT old_id AS id, old_name AS name, dt FROM source_table;

5. 执行并验证

运行插入语句后,检查数据量和分区是否正确:

SELECT COUNT(*) FROM target_table;
SHOW PARTITIONS target_table;

  完整
 

-- 启用动态分区(如需)
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;

-- 覆盖插入数据
INSERT OVERWRITE TABLE target_table PARTITION (dt)
SELECT 
    id, 
    name, 
    dt  -- 分区字段必须放在最后
FROM source_table;

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dtcms.com/a/115212.html

相关文章:

  • pulsar中的延迟队列使用详解
  • Golang系列 - 内存对齐
  • Linux中用gdb查看coredump文件
  • eprime相嵌模式实验设计
  • 【Linux内核】如何更加优雅阅读Linux内核源码(vscode)
  • Seata TCC模式是怎么实现的?
  • 国内外AI大模型汇总合集-文本类
  • NLP 梳理01 — 文本预处理和分词
  • 软件测试的本质:方法、流程与未来趋势
  • Cocos Creator 进行 Web 发布后,目录结构解析
  • AIP-215 API特定proto
  • 【MySQL基础】MySQL内连接(INNER JOIN)详解:高效关联查询的基础
  • 数字人:从科幻走向现实的未来(1/10)
  • 11-产品经理-创建产品
  • ProfibusDP(主站)如何转Profinet
  • 【图像处理基石】什么是自动曝光(AE)?
  • AtCoder Beginner Contest 400(ABCDE)
  • 虚拟机安装遇到的问题如:Exception 0xc0000005
  • 通俗地讲述DDD的设计
  • SQL注入-盲注靶场实战(手写盲注payload)--SRC获得库名即可
  • 投资策略分析:十年年化32.2%,夏普比1.31的动量斜率策略(策略源码+数据下载)
  • LearnOpenGL-笔记-其九
  • RocketMQ 01
  • 实际犯错以及复盘1
  • FPGA同步复位、异步复位、异步复位同步释放仿真
  • GPMI:一线通联,创新无界
  • 2025-04-06 NO.2 Quest3 基础配置与打包
  • 【AI论文】重新思考视觉语言模型的强化学习扩展:一个透明的、从头开始的框架和全面的评估方案
  • 内存池整体框架设计
  • 网络安全应急响应-系统排查