当前位置: 首页 > news >正文

Hive SQL常见操作

        Hive SQL 是基于 Hadoop 的数据仓库基础设施,用于提供数据查询和分析。下面介绍常用的 Hive SQL 语句,进行数据处理和分析。

        1. 数据库操作

           创建数据库 :CREATE DATABASE IF NOT EXISTS db_name;

           使用数据库:USE db_name;

           删除数据库:DROP DATABASE IF EXISTS db_name CASCADE;

        2.表操作

           创建表:

CREATE TABLE IF NOT EXISTS table_name (col1 datatype,col2 datatype,col3 datatype
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

        查看表结构:

DESCRIBE table_name;

        删除表:

        DROP TABLE IF EXISTS table_name; 

        3.数据导入

         从本地文件系统导入数据:

        LOAD DATA LOCAL INPATH '/path/to/file' INTO TABLE table_name;

        从 HDFS 导入数据:

        LOAD DATA INPATH '/path/in/hdfs' INTO TABLE table_name;

        4.数据查询

        基本查询:SELECT col1, col2 FROM table_name WHERE condition;

        分组查询:SELECT col1, COUNT(*) FROM table_name GROUP BY col1;

        排序查询:SELECT * FROM table_name ORDER BY col1 DESC;

        5.连接操作

        内连接:SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

        左连接:SELECT * FROM table1 LEFT JOIN table2 ON table1.id = table2.id;

        6.窗口函数

        计算累计和:

SELECT col1, SUM(col2) OVER (ORDER BY col1) AS running_total FROM table_name;

        分组排名:

SELECT col1, col2, RANK() OVER (PARTITION BY col1 ORDER BY col2 DESC) AS rank FROM table_name;

        7.分区表操作

        创建分区表:

CREATE TABLE IF NOT EXISTS table_name ( col1 datatype, col2 datatype ) PARTITIONED BY (dt string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

        添加分区:

ALTER TABLE table_name ADD PARTITION (dt='2023-01-01');

        8.插入数据

INSERT INTO TABLE table_name VALUES (val1, val2, val3);

        9、聚合函数

        计算平均值:

SELECT AVG(col1) FROM table_name;

        计算最大值:

SELECT MAX(col1) FROM table_name;

        10.其他常用操作

        创建视图:

CREATE VIEW view_name AS SELECT col1, col2 FROM table_name;

        设置Hive参数:

SET hive.execution.engine=tez;

        

http://www.dtcms.com/a/233092.html

相关文章:

  • 云服务器宕机或自动重启怎么办
  • TikTok养号指南:从0到1打造防限流账号的实战策略
  • LSTM-XGBoost多变量时序预测(Matlab完整源码和数据)
  • 总结一些setpci的用法
  • JavaScript 流程控制全解析:从基础结构到实战应用
  • VuePress完美整合Toast消息提示
  • 编程笔记---问题小计
  • AI辅助编程30天学习计划
  • GPU显存的作用和如何选择
  • Vue Router的核心实现原理深度解析
  • 算法blog合集
  • C#、VB.net——如何设置窗体应用程序的外边框不可拉伸
  • 亚马逊运营选品与关键词优化实战策略!
  • 基于51单片机的温控电机系统
  • 数据炼金术:电商突围的智能决策革命
  • 2025年06月05日Github流行趋势
  • STM32发送MQTT请求到Onenet
  • stm32_GPIO
  • SDC命令详解:使用set_max_fanout命令进行约束
  • Python文件读取漏洞深度解析与防护指南
  • 强化学习入门:Gym实现CartPole随机智能体
  • 基于正点原子阿波罗F429开发板的LWIP应用(5)——TFTP在线升级功能
  • 算法题(162):火烧赤壁
  • 看板中“进行中”任务过多如何优化
  • 【数据结构】树形结构--二叉树(二)
  • 梯度下降:机器学习优化的核心算法
  • 互联网大厂Java求职面试:AI与大模型技术在企业知识库中的深度应用
  • Oracle-高频业务表的性能检查
  • 【技术笔记】AI Agent 项目 SUNA 部署:MSYS2 环境中 Python 版本从 3.12 降级至 3.11 的实操指南
  • React 第五十三节 Router中 useRouteError 的使用详解和案例分析