当前位置: 首页 > news >正文

kettle从入门到精通 第九十七课 ETL之kettle kettle资源仓库的5种方式

场景:接触kettle有一段时间了,kettle资源仓库的各种方式也都体验了一下,各自有自己的优缺点吧,今天有时间一起梳理下,互相探讨下。

 1、文件仓库

文件仓库的意思kettle中设计的trans和job脚本文件放到本地文件,这种方式读取和保存速度相当快,适合单人作战模式。

1) 打开spoon客户端,点击右上角的Connect->Repository Manager 进行设置仓库,如下图所示:

 2)点击Add按钮,选择File Repository选项设置文件仓库,如下图哦所示:

 3)设置仓库名称和仓库文件路径,点击保存即可完成文件仓库的设置。

 2、数据库仓库

数据库仓库的意思kettle中设计的trans和job脚本文件放数据库中,这种方式读取和保存速度比较慢(另外若由文件仓库转换为数据库仓库文件路径引用也会有问题),适合团队协作,不过Spoon中已经不推荐数据库仓库方式了,如下图所示。

 1)新建数据库仓库schema,我们这里设置为etl。

2)填写数据库仓库名称,点击create按钮设置数据库连接,如下图所示:

 填写数据库仓库连接信息,如下图所示:

 选择我们刚才设置的连接,点击保存按钮,如下图所示:

 3)点击Connect按钮,然后输入用户名和密码点击登录完成。这里的用户名和密码默认为admin/admin。

 4)数据库仓库方式社群小伙伴在使用过程中也反馈体验不好,大家谨慎使用。

 3、Pentaho Repository

Pentaho Repository 方式也是官方推荐的一个数据库仓库,不过该方法需要单独部署一个Pentaho server服务,适合团队协作,不过该方法也增加了部署的复杂性。

1)部署Pentaho server,我这里使用的pentaho-server-ce-10.2.0.3-335版本,然后通过start-pentaho.sh/start-pentaho.bat 脚本文件启动服务即可。

 2)启动服务之后,访问http://localhost:8080/pentaho/Home,输入用户名和密码登录pentaho server服务,用户名和密码默认为admin/password,如下图所示:

 3)在spoon中选择Pentaho Repository,然后填写pentaho server地址,点击保存。

 4)点击Connect按钮,填写pentaho server的用户名和密码完成登录即可。

 4、git+文件仓库

git+文件的意思是我们将我们本地文件仓库中的脚本文件推送的git仓库,可以是公司内部部署的gitlab,也可以是gitee或者github。一般情况下是放到公司内部部署的gitlab比较合适。

该方式适合团队协作且有版本管理功能,不过该方式需要开发者本地电脑安装git版本客户端,手动提交本地文件仓库到gitlab,使用时手动从gitlab拉取文件。

5、git插件+文件仓库

这里的git插件是我们团队研发的kettle的git插件,可以直接在spoon客户端中提交或者拉取trans或者job脚本,适合团队协作且有版本管理功能。

http://www.dtcms.com/a/277665.html

相关文章:

  • Linux修炼:开发工具
  • linux-shell脚本
  • 学习环形数组ringbuffer和缓存管理buffer_manager_struct的一些思考
  • k8s:0/1 nodes are available: pod has unbound immediate PersistentVolumeClaims.
  • CSS个人笔记分享【仅供学习交流】
  • 深度学习图像分类数据集—角膜溃疡识别分类
  • INA226 数据手册解读
  • CCS-MSPM0G3507-6-模块篇-OLED的移植
  • Leetcode 3614. Process String with Special Operations II
  • 【Vue】浏览器缓存 sessionStorage、localStorage、Cookie
  • XXL-TOOL v1.5.0 发布 | Java工具类库
  • https交互原理
  • 010_学习资源与社区支持
  • cs285学习笔记(一):课程总览
  • 融合开源AI大模型与MarTech:AI智能名片与S2B2C商城小程序源码赋能数字化营销新生态
  • Boost.Asio 中 io_context 类 post 和 dispatch的区别
  • 启动Tomcat报错:A child container failed during start
  • MCP 服务开发到发布
  • 更换docker工作目录
  • MongoDB对接SpringBoot【大数据存储】
  • Hashtable 与 HashMap 的区别笔记
  • 利用DeepSeek证明立体几何题目
  • Flink学习笔记:整体架构
  • Vue 3 动态ref问题
  • 第十五篇:Python操作Excel速成:读写单元格、样式与公式,你的第一个数据自动化脚本!告别手动录入!
  • 002大模型基础知识
  • 多项式运算→复数域FFT→有限域NTT
  • 在上海开发小程序,怎么做出“高级感”?
  • RTDETR融合[CVPR2024]SHViT中的SHSA模块
  • 业务访问控制-ACL与包过滤