当前位置: 首页 > wzjs >正文

php网站开发集合教程留电话的广告网站

php网站开发集合教程,留电话的广告网站,中铁三局招聘信息2023,选择网站建设公司好功能 1、SQL on Hadoop,是Hadoop生态官方提供的用于实现关系型数据库(Oracle,MySQL等)和Hadoop之间的离线数据传输工具。客户端命令行工具,最终会转化为MR任务来执行从关系型数据库到Hadoop的数据存储,如H…

功能

1、SQL on Hadoop,是Hadoop生态官方提供的用于实现关系型数据库(Oracle,MySQL等)和Hadoop之间的离线数据传输工具。客户端命令行工具,最终会转化为MR任务来执行从关系型数据库到Hadoop的数据存储,如HDFS,HIVE,HBASE(导入),或者Hadoop到关系型数据库(导出)。

2、运行原理:通过SQL查询源数据库获取数据后,将数据按照指定的 hdfs 文件格式写入到 hdfs 文件。

核心配置参数

目标目录参数
--target-dir:指定 HDFS 上存储导入数据的目标目录。示例:--target-dir /user/hadoop/employees_data
--append:若目标目录已存在,用此参数可将新数据追加到现有数据中。
--overwrite:若目标目录已存在,使用该参数会覆盖目录中的现有数据。
目标目录下的文件
1、目录下的文件数量由并行 mapper 的数量决定,即 --num-mappers 参数。2、文件命名方式
part-m-4位序列号,如2个mapper,则包含2个文件,part-m-0001,part-m-0002。3、增量导入
如果没有使用 --append 参数,则每执行一次增量导入,则产生mapper数量个新文件,序号递增。
示例
全量为part-m-0001,part-m-0002,后面第一次执行增量,产生新文件part-m-0003,part-m-0004;第二次执行一次增量,产生新文件part-m-0005,part-m-006,依次类推。
如果使用了--append 参数(一般只有增量模式--incremental为 append 时,使用这个参数),则后续执行多次增量还是在 part-m-0001 和 part-m-0002 文件追加。4、文件太大是否产生新文件
当全量数据过多或者当多次增量追加到同一个文件,导致一个文件超过了HDFS的文件块大小(默认128MB),则 HDFS 内部会将一个文件拆分为多个块,但是对外还是同一个文件名,如part-m-0001。
数据格式参数
1、文本格式,默认为文本格式
--fields-terminated-by:指定字段分隔符,默认是制表符(\t)。示例:--fields-terminated-by ','
--lines-terminated-by:指定行分隔符,默认是换行符(\n)。示例:--lines-terminated-by '\r\n'
--null-string:指定在文本文件中表示 NULL 值的字符串。示例:--null-string 'nan'
--null-non-string:指定非字符串列中表示 NULL 值的字符串。示例:--null-non-string 'nan'
字段类型
(1)内部默认转换:全部数据库类型均转为string2、SequenceFile二进制键值格式
--as-sequencefile
字段类型
(1)内部默认转换:数据库类型转换为java数据类型
(2)--map-column-java:指定字段的java数据类型映射,sqoop内部会将java数据类型转为Parquet数据类型,示例:--map-column-java id=Integer,name=String,age=Integer3、Parquet列式存储格式
--as-sequencefile
字段类型
(1)内部默认转换:数据库类型转换为Parquet数据类型
(2)创建hive外表指定字段类型,导入到hive来间接指定hdfs的Parquet数据类型。
(3)--map-column-java:指定字段的java数据类型映射,sqoop内部会将java数据类型转为Parquet数据类型,示例:--map-column-java id=Integer,name=String,age=Integer4、Arvo序列化格式
--as-avrodatafile
字段类型
(1)内部默认转换:数据库类型转换为Avro数据类型
(2)--avro-schema-file:用于指定字段的arvo数据类型映射,创建一个your_schema.avsc文件,指定字段名和avro数据类型。示例,--avro-schema-file /path/to/your_schema.avsc
增量导入参数
--check-column:指定用于增量导入的列,通常是自增主键或时间戳列。示例:--check-column id
--incremental:指定增量导入模式,有 append(追加模式,即只有新增的数据)和 lastmodified(最后修改模式,有新增和修改的数据)。示例:--incremental append
--last-value:指定上次导入的最后一个值,Sqoop 仅导入该值之后的数据。示例:--last-value 100--append:将新增数据追加到目标目录下的已有文件中说明
1、基于check-column指定的字段,如果incremental是append模式,则找大于last-value指定的id的数据,即新增的数据。
如果是 lastmodified 模式,这基于last-value指定的时间戳,只查找大于这个时间戳的数据,即新增或者更新的数据。2、注意以上2种模式只是定义了如何从源数据库查找数据,而不是如何存储数据到HDFS中。如何存储到hdfs中,默认为每次执行增量都产生新文件,如果使用了–append 参数,则追加到原来的文件。
http://www.dtcms.com/wzjs/391526.html

相关文章:

  • 网络营销战略内容如何优化网站
  • 香奈儿网站建设的目标网站快速优化排名
  • 企业h5网站建设开发网站多少钱
  • 网站用户体现好坏企业网络营销推广方案策划
  • 做直播网站用什么程序重庆排名优化整站优化
  • 网站图片分辨率今日新闻50字
  • 时时彩网站平台怎么做最简短的培训心得
  • 个人域名备案 网站名称发稿服务
  • 阿里巴巴网页福州seo公司
  • 温州网站排名团队优化服务是什么意思
  • 最好的网站建设价格百度app下载安装官方免费下载
  • 万链网站做的怎么样?360站长
  • 学做衣服上什么网站好厦门seo外包公司
  • 球场 技术支持 东莞网站建设海外短视频跨境电商平台是真的吗
  • 苏州营销型网站制作公司百度企业官网
  • 四川宜宾网站建设百度舆情
  • 做软件的中介网站新闻发布的网站
  • 网站怎么优化自己免费西安网络科技有限公司
  • 建湖做网站价格广告制作
  • 做行程的网站推荐广告联盟接单平台
  • 湛江网站建设策划方案百度网盘官方
  • 网站建设文字教程视频俄罗斯引擎搜索
  • 新网站怎么做论坛推广网络营销品牌案例
  • 中国免费网站建设网站快速建站
  • 辽宁建筑工程网seo的优缺点
  • 最新备案域名查询专业排名优化工具
  • 网站制作经费预算表网上售卖平台有哪些
  • 做网站老板不发工资我拿尾款百度搜索引擎api
  • 做网站全屏尺寸是多少钱开封网络推广哪家好
  • 自己做网站可以揽业务吗淘宝推广费用一般多少