当前位置: 首页 > wzjs >正文

微山网站建设公司最大免费发布平台

微山网站建设公司,最大免费发布平台,制作企业网站教程,普通的订阅号怎么做微网站功能 1、SQL on Hadoop,是Hadoop生态官方提供的用于实现关系型数据库(Oracle,MySQL等)和Hadoop之间的离线数据传输工具。客户端命令行工具,最终会转化为MR任务来执行从关系型数据库到Hadoop的数据存储,如H…

功能

1、SQL on Hadoop,是Hadoop生态官方提供的用于实现关系型数据库(Oracle,MySQL等)和Hadoop之间的离线数据传输工具。客户端命令行工具,最终会转化为MR任务来执行从关系型数据库到Hadoop的数据存储,如HDFS,HIVE,HBASE(导入),或者Hadoop到关系型数据库(导出)。

2、运行原理:通过SQL查询源数据库获取数据后,将数据按照指定的 hdfs 文件格式写入到 hdfs 文件。

核心配置参数

目标目录参数
--target-dir:指定 HDFS 上存储导入数据的目标目录。示例:--target-dir /user/hadoop/employees_data
--append:若目标目录已存在,用此参数可将新数据追加到现有数据中。
--overwrite:若目标目录已存在,使用该参数会覆盖目录中的现有数据。
目标目录下的文件
1、目录下的文件数量由并行 mapper 的数量决定,即 --num-mappers 参数。2、文件命名方式
part-m-4位序列号,如2个mapper,则包含2个文件,part-m-0001,part-m-0002。3、增量导入
如果没有使用 --append 参数,则每执行一次增量导入,则产生mapper数量个新文件,序号递增。
示例
全量为part-m-0001,part-m-0002,后面第一次执行增量,产生新文件part-m-0003,part-m-0004;第二次执行一次增量,产生新文件part-m-0005,part-m-006,依次类推。
如果使用了--append 参数(一般只有增量模式--incremental为 append 时,使用这个参数),则后续执行多次增量还是在 part-m-0001 和 part-m-0002 文件追加。4、文件太大是否产生新文件
当全量数据过多或者当多次增量追加到同一个文件,导致一个文件超过了HDFS的文件块大小(默认128MB),则 HDFS 内部会将一个文件拆分为多个块,但是对外还是同一个文件名,如part-m-0001。
数据格式参数
1、文本格式,默认为文本格式
--fields-terminated-by:指定字段分隔符,默认是制表符(\t)。示例:--fields-terminated-by ','
--lines-terminated-by:指定行分隔符,默认是换行符(\n)。示例:--lines-terminated-by '\r\n'
--null-string:指定在文本文件中表示 NULL 值的字符串。示例:--null-string 'nan'
--null-non-string:指定非字符串列中表示 NULL 值的字符串。示例:--null-non-string 'nan'
字段类型
(1)内部默认转换:全部数据库类型均转为string2、SequenceFile二进制键值格式
--as-sequencefile
字段类型
(1)内部默认转换:数据库类型转换为java数据类型
(2)--map-column-java:指定字段的java数据类型映射,sqoop内部会将java数据类型转为Parquet数据类型,示例:--map-column-java id=Integer,name=String,age=Integer3、Parquet列式存储格式
--as-sequencefile
字段类型
(1)内部默认转换:数据库类型转换为Parquet数据类型
(2)创建hive外表指定字段类型,导入到hive来间接指定hdfs的Parquet数据类型。
(3)--map-column-java:指定字段的java数据类型映射,sqoop内部会将java数据类型转为Parquet数据类型,示例:--map-column-java id=Integer,name=String,age=Integer4、Arvo序列化格式
--as-avrodatafile
字段类型
(1)内部默认转换:数据库类型转换为Avro数据类型
(2)--avro-schema-file:用于指定字段的arvo数据类型映射,创建一个your_schema.avsc文件,指定字段名和avro数据类型。示例,--avro-schema-file /path/to/your_schema.avsc
增量导入参数
--check-column:指定用于增量导入的列,通常是自增主键或时间戳列。示例:--check-column id
--incremental:指定增量导入模式,有 append(追加模式,即只有新增的数据)和 lastmodified(最后修改模式,有新增和修改的数据)。示例:--incremental append
--last-value:指定上次导入的最后一个值,Sqoop 仅导入该值之后的数据。示例:--last-value 100--append:将新增数据追加到目标目录下的已有文件中说明
1、基于check-column指定的字段,如果incremental是append模式,则找大于last-value指定的id的数据,即新增的数据。
如果是 lastmodified 模式,这基于last-value指定的时间戳,只查找大于这个时间戳的数据,即新增或者更新的数据。2、注意以上2种模式只是定义了如何从源数据库查找数据,而不是如何存储数据到HDFS中。如何存储到hdfs中,默认为每次执行增量都产生新文件,如果使用了–append 参数,则追加到原来的文件。
http://www.dtcms.com/wzjs/3851.html

相关文章:

  • 石家庄网站建设石家庄六种常见的网络广告类型
  • 西安网站建设报价优化游戏性能的软件
  • 网站开发后端框架网站seo检测
  • 兼职做问卷调查的网站百度的seo关键词优化怎么弄
  • 国外有建站公司吗网站seo关键词优化技巧
  • ps怎么做网站页面免费建网站的平台
  • 那个网站做二手设备比较好太原百度关键词优化
  • 深圳企业社保网站官网百度app交易平台
  • 万户网络官网北京网络seo
  • wordpress文章编辑页面佛山做seo推广公司
  • 网广州建网站站制作互联网营销方案策划
  • 网站开发 python 工具百度网站客服
  • 石材网站建设老铁外链
  • 深圳做网站比较好的公司营销策划方案ppt
  • 响应式网站建设信息昆明排名优化
  • 建设网站有哪些培训网站有哪些
  • 课程网站建设ppt模板下载百度网页游戏
  • 网站主题的分类代做百度首页排名价格
  • 淘宝上做网站的生意怎么样全网营销骗局揭秘
  • 深圳做网站公司网络营销包括
  • 云南高端网站建设百度网页版网址
  • 无锡网站备案湖南百度推广开户
  • 重庆招工招聘信息查询seo系统源码
  • 怎样解析网站域名企业网络营销策划书范文
  • 三亚网址之家朝阳seo排名
  • 网站优化外链怎么做360推广平台登录入口
  • 网上商城网站模板网络平台怎么创建
  • 卖文具做网站好还是做电商好seo网站优化培训怎么样
  • 网站建设管理办法seo推广软件
  • 免费wordpress 主题下载地址seo薪酬水平