当前位置: 首页 > wzjs >正文

河北网络公司网站建设网站建设基础报告

河北网络公司网站建设,网站建设基础报告,建设网站需要什么软件,专科网站开发简历🍋🍋大数据学习🍋🍋 🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言📝支持一…

🍋🍋大数据学习🍋🍋

🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


1、什么是Hive?


        Hive是基于Hadoop的数据仓库工具。可以用于存储在Hadoop集群中的HDFS文件数据集进行数据整理、特殊查询和分析处理。Hive提供了类似于关系型数据库SQL语言的HiveQL工具,通过HiveQL可以快速实现简单的MapReduce统计。

        Hive的本质就是将HiveQL语句转换为MapReduce任务后运行,非常适合做数据仓库的数据分析。

2、Hive的应用场景


        Hive构建在Hadoop文件系统之上,Hive不提供实时的查询和基于行级的数据更新操作,不适合需要低延迟的应用,如联机事务处理(On-line Transaction Processing,OLTP)相关应用。

        Hive适用于联机分析处理(On-Line Analytical Processing,OLAP),应用场景如图所示:

3、Hive的特性


        Hive作为数据仓库软件,使用类SQL的HiveQL语言实现数据查询,所有Hive数据均存储在Hadoop文件系统中,Hive具有以下特性。

        1)使用HiveQL以类SQL查询的方式轻松访问数据,将HiveQL查询转换为MapReduce的任务在Hadoop集群上执行,完成ETL(Extract、Transform、Load,提取、转换、加载)、报表、数据分析等数据仓库任务。HiveQL内置大量UDF(User Defined Function)来操作时间、字符串和其他的数据挖掘工具,支持用户扩展UDF函数来完成内置函数无法实现的操作。

        2)多种文件格式的元数据服务,包括TextFile、SequenceFile、RCFile和ORCFile,其中TextFile为默认格式,创建SequenceFile、RCFile和ORCFile格式的表需要先将文件数据导入到TextFile格式的表中,然后再把TextFile表的数据导入SequenceFile、RCFile和ORCFile表中。

        3)直接访问HDFS文件或其他数据存储系统(如HBase)中的文件。 ·

        4)支持MapReduce、Tez、Spark等多种计算引擎,可根据不同的数据处理场景选择合适的计算引擎。

        5)支持HPL/SQL程序语言,HPL/SQL是一种混合异构的语言,可以理解几乎任何现有的过程性SQL语言(如Oracle PL/SQL、Transact-SQL)的语法和语义,有助于将传统数据仓库的业务逻辑迁移到Hadoop上,是在Hadoop中实现ETL流程的有效方式。

        6)可以通过HiveLLAP(Live Long and Process)、Apache YARN和Apache Slider(动态YARN应用,可按需动态调整分布式应用程序的资源)进行秒级的查询检索。LLAP结合了持久查询服务器和优化的内存缓存,使Hive能够立即启动查询,避免不必要的磁盘开销,提供较佳的查询检索效率。

4、Hive与传统数据仓库的区别


        Hive是用于查询分布式大型数据集的数据仓库,相比于传统数据仓库,在大数据的查询上有其独特的优势,但同时也牺牲了一部分性能,如下图:

5、Hive的数据存储模型


        Hive主要包括三类数据模型:表(Table)、分区(Partition)和桶(Bucket)。

        Hive中的表类似于关系数据库中的表。表可以进行过滤、投影、连接和联合等操作。表的数据一般存储在HDFS的目录中,Hive的表实质上对应Hadoop文件系统上的一个目录。Hive将表的元数据存储在关系型数据库中,实现了元数据与数据的分离存储。

        Hive根据分区列(Partition Column)的值将表以分区的形式进行划分,例如具有“日期”分区列的表可以根据日期划分为多个分区。表中的一个分区对应表所在目录下的一个子目录。

1)Hive的分区和分桶


        Hive将数据组织成数据库表的形式供用户进行较高效的查询分析。Hive处理的数据集一般较大,为了提高查询的效率,Hive会在表的基础上进一步对数据的划分进行细化。

        当表数据量较大时,Hive通过列值(如日期、地区等)对表进行分区处理(Partition),便于局部数据的查询操作。每个分区是一个目录,将相同属性的数据放在同个目录下,可提高查询效率。分区数量不固定,分区下可再有分区或者进一步细化为桶。

        Hive可将表或分区进一步组织成桶,桶是比分区粒度更细的数据划分方式。每个桶是一个文件,用户可指定划分桶的个数。在分桶的过程中,Hive针对某一列进行哈希计算,根据哈希值将这一列中的数据划分到不同的桶中。分桶为表提供了额外的结构,Hive在处理某些查询(如join、表的合并)时利用这个结构可以提高效率,使数据抽样更高效。

2)Hive的托管表和外部表


        Hive中的表分为两种,分别为托管表和外部表,托管表又称为内部表。Hive默认创建托管表,托管表由Hive来管理数据,意味着Hive会将数据移动到数据仓库的目录中。若创建外部表,Hive仅记录数据所在路径,不将其移动到数据仓库目录中。在读取外部表时,Hive会在数据仓库之外读取数据。在做删除表的操作时,托管表的元数据和数据会被一起删除,而外部表仅删除元数据,处于数据仓库外部的数据则被保留。外部表相对于托管表要更为安全,也利于数据的共享。

        选择使用外部表还是托管表组织数据取决于用户对数据的处理方式,如果一个数据集的数据处理操作都由Hive完成,则使用托管表;当需要使用桶时,则必须使用托管表。如果需要用Hive和其他工具一起处理同一个数据集,或者需要将同一个数据集组织成不同的表,则使用外部表。


文章转载自:

http://2EhB1gE4.hbkkc.cn
http://MmqxjA4E.hbkkc.cn
http://AdIPdKl3.hbkkc.cn
http://defhNWi1.hbkkc.cn
http://NyDl52YC.hbkkc.cn
http://igObE3Do.hbkkc.cn
http://aJrTLSRl.hbkkc.cn
http://g70PHgGU.hbkkc.cn
http://qQuhQmOQ.hbkkc.cn
http://G3e0V183.hbkkc.cn
http://Nqutnm53.hbkkc.cn
http://vJi33Zdy.hbkkc.cn
http://ylYr343d.hbkkc.cn
http://ab9bE5zx.hbkkc.cn
http://5YpkGPO1.hbkkc.cn
http://K7cmcMh3.hbkkc.cn
http://u00bzGaK.hbkkc.cn
http://6nlJjOys.hbkkc.cn
http://s9ic0g8D.hbkkc.cn
http://E7AzfMVf.hbkkc.cn
http://tBRA8Doa.hbkkc.cn
http://2jbyPiof.hbkkc.cn
http://3ck9P2QB.hbkkc.cn
http://bPLsckqK.hbkkc.cn
http://w9YW4rE9.hbkkc.cn
http://V4RqtCKT.hbkkc.cn
http://FbKkoUmt.hbkkc.cn
http://zwksoy9u.hbkkc.cn
http://BIj6hV5B.hbkkc.cn
http://m7otursR.hbkkc.cn
http://www.dtcms.com/wzjs/693152.html

相关文章:

  • 网站模板带后台学动漫设计可以做什么工作
  • 域名制作网站吗网站前面的小图标怎么做
  • 如何批量做网站wordpress 登录状态
  • 网站建设主要产品嘉定网站建设公司
  • 深圳网站制作公司怎么样wordpress注册模板
  • 东莞网站建设推广有哪些ui网站开发
  • 免费行情软件网站大全下载做外贸推广
  • 各大行业网站邢台市地图全图高清版
  • 宋庄网站建设做网站需要备案吗
  • 六安网站制作人才招聘百度做网站教程
  • 网站页面配色分析昨晚贵州出大事
  • 手机网站开发 教程二级域名网站怎么投广告
  • 佛山做企业网站公司12306网站如何做解绑
  • 网站开发设计新闻界面wordpress自动发现
  • 兰州网站排名哪家公司好网站建设和维护面试题
  • 怎么注册网站域名自助搜优惠券网站怎么做的
  • 做旅游网站需要什么网站流量报告
  • 网站如何做sem优化wordpress移动底部菜单插件
  • 统计站老站长推荐app视频wordpress php 链接
  • 公司网站改版方案盛世四川网站建设 旋风
  • wordpress个人网站备案管理景德镇网站建设哪家口碑好
  • 网站更改目录做301百度网站下拉怎么做
  • 中国制造网内贸站网站的推广平台
  • 天津注册公司网站自己做网站统计
  • seo整站优化外包服务广告设计公司营业执照
  • 深圳网站建设网牛天下网站数字化建设方案
  • 深圳宝安做网站公司备案要关闭网站吗
  • 做外贸网站怎么设计西安百姓网免费发布信息网
  • 有个做h手游的网站潍坊市城市建设官网站
  • 餐饮营销型网站案例东营市建设信息网官网