当前位置: 首页 > news >正文

hivePB级迁移方案

1、评估磁盘空间大小、调整副本数、设置heapsize大小

2、distcp -i -skipcrccheck 源端到目标端,迁移

3、元数据迁移,建表,替换location地址,或者导出db

4、表分区修复

5、配置增量T-1迁移或者T-2

6、校验历史分区脚本,表结构,大小,文件数

7、根据ditcp不对的,进行补数脚本,删分区,重拉

8、任务校验,客户跑完任务后,校验指定分区的count数和内容的md5

9、任务改造,如果md5不一样,说明此表需要做任务改造

10、任务改造,找到md5不同的那一条,对比原表和目标表的值,看哪个字段值不一样

11、二次校验任务

12、校验成功后,切任务,跑当天的数据。

注意如果删除了数据,需要删除分区,可以最后,去Hive源数据库关联每个表的分区和内容与源端比对,然后删除对应的分区,在整体Msck修复一下。

http://www.dtcms.com/a/41734.html

相关文章:

  • Python的那些事第三十四篇:基于 Plotly 的交互式图表与仪表板设计与应用
  • AI数字人开发,引领科技新潮流
  • MySQL—授权与权限回收
  • Vue3 Hooks:从原理到实战封装指南
  • Vue-Flow绘制流程图(Vue3+ElementPlus+TS)简单案例
  • Spring Retry 实现乐观锁重试
  • 【数据结构】二叉树(门槛极低的系统性理解)
  • React进阶之前端业务Hooks库(四)
  • 2.27-1笔记1
  • 【Vue3 Teleport 技术解析:破解弹窗吸附与滚动列表的布局困局】
  • 初阶数据结构(C语言实现)——3顺序表和链表(2)
  • linux--多进程开发(6)IPC之内存映射
  • thinkphp下的Job队列处理
  • 网络运维学习笔记(DeepSeek优化版)006网工初级(HCIA-Datacom与CCNA-EI)VLAN间路由
  • Android手机部署DeepSeek
  • C# Json序列化的常用几种方式
  • 教你通过腾讯云AI代码助手,免费使用满血版deepseek r1,还可以自定义知识库!
  • AF3 pair_sequences函数解读
  • 2月27(信息差)
  • Spock框架:让单元测试更优雅的高效武器
  • 【nextjs官方demo】Chapter 6连接数据库报错
  • docker 运行claude 的computer use
  • Linux驱动学习(四)--字符设备注册
  • MySQL练习
  • AI人工智能机器学习之降维和数据压缩
  • 基于W2605C语音识别合成芯片的智能语音交互闹钟方案-AI对话享受智能生活
  • lvgl运行机制分析
  • 车载以太网-基于linux的ICMP协议
  • 决策树(Decision Tree)详细解释(带示例)
  • 精神分裂症患者GAF评分的可视化分析|使用集成学习模型 LightGBM