当前位置: 首页 > news >正文

Flink流水线集成Gravitino

1.Gravitino简介

Apache Gravitino is a high-performance, geo-distributed, and federated metadata lake. It manages the metadata directly in different sources, types, and regions. It also provides users with unified metadata access for data and AI assets.(Apache Gravitino 是一个高性能、跨地域、联合的元数据湖系统。它直接管理不同来源、类型和区域的元数据,为用户提供统一的数据和 AI 资产元数据访问接口。)

Gravitino Architecture

Gravitino 主要提供以下几个关键特性:

  • 为多区域数据提供单一真实来源,支持跨地域分布式架构
  • 统一管理数据和 AI 资产,服务用户和引擎
  • 集中化安全管理,为不同数据源提供统一的安全控制
  • 内置数据管理和数据访问管理功能

2.Gravitino系统演示

metalake:

catalog:

database:

Gravitino 中的变化会直接反映在底层系统中

注:如需使用flink-connector,需要添加flink.bypass.default-database属性来指定默认数据库,不然会抛出异常

Caused by: java.lang.NullPointerException: default-database should not be null. at org.apache.gravitino.flink.connector.jdbc.GravitinoJdbcCatalogFactory.createCatalog(GravitinoJdbcCatalogFactory.java:48)

Apache Gravitino核心能力

统一元数据管理

Gravitino 为不同类型的元数据源提取统一的元数据模型和 API。例如,针对表格数据的关系型元数据模型,如 Hive、MySQL、PostgreSQL 等,也包括 Apache Doris。也针对所有非结构化数据的文件元数据模型,如 HDFS、S3 和其他格式。

端到端数据治理

Gravitino 的目标是提供一个统一的元数据治理层,以统一的方式管理端到端的元数据,其中包括访问控制、审计、发现等功能。端到端数据治理意味着对数据从产生到使用的整个过程进行全面的管理和控制,确保数据的准确性、完整性、安全性和可用性。例如,通过访问控制功能,可以限制不同用户对数据的访问权限;审计功能可以记录数据的使用情况和变化历史;发现功能可以帮助用户快速找到所需的数据。

直接元数据管理

与传统元数据管理系统需要从底层系统主动或被动地收集元数据不同,Gravitino 直接管理这些系统。它提供了一组连接器来连接不同的元数据源。Gravitino 中的变化会直接反映在底层系统中,反之亦然。这意味着 Gravitino 能够更直接地与元数据源进行交互,实现更高效的元数据管理。

多引擎支持

Gravitino 支持不同的查询引擎来访问元数据。目前,它已经支持了 Trino,Apache Spark 和 Apache Flink,用户可以使用这些引擎来查询元数据和数据,而无需更改现有的 SQL 方言。

Gravitino 也在进行与 AI 资产管理相关的工作。如将普通数据以及 AI 资产(如模型、特征等)的管理进行统一,实现一种统一的数据管理方式。

3. 集成演示

3.1 访问系统登录页面,输入账号密码完成身份验证。

3.2 创建任务

  • 入口:通过顶部菜单栏选择 任务开发,或通过快捷入口 快速创建任务

  • 任务类型:选择 FlinkPipeline

3.3 配置任务

点击任务名称,进入任务详情页。任务节点如下

  • Gravatino节点:配置Gravatino连接信息

  • SQLQuery节点:执行sql查询语句,这里可以直接使用Gravatino中的元数据,如当前任务执行语句为SELECT * FROM local_data_service.scaleph.sec_user,该语句会查询cataloglocal_data_service,数据库为scaleph,表名为sec_user的数据。

  • ShowData节点:输出SQLQuery的执行结果。

3.4 运行任务

  • 点击 运行 按钮启动任务。

🔗 平台体验地址:DataStudio (http://1.94.182.15:8090)

flink流水线集成Gravatino

参考链接:

[1] https://github.com/datastrato/gravitino/

[2] https://datastrato.ai/blog/gravitino-unified-metadata-lake/

[3] Flink connector jdbc catalog | Apache Gravitino

相关文章:

  • Java反射详解
  • JVM 的内存模型
  • MySQL#秘籍#一条SQL语句执行时间以及资源分析
  • 超简单Translation翻译模型部署
  • 信奥赛CSP小学五年级动态规划入门
  • 【docker】--compose介绍
  • 高级特性实战:死信队列、延迟队列与优先级队列(二)
  • Go 语言基础 2 Func,流程控制
  • 【linux篇】系统世界跳跃的音符:指令
  • 嵌入式STM32学习—— 定时器中断(应用-利用定时器中断实现LED亮一秒灭一秒)
  • 并发编程知识点
  • MyBatis实战指南(二)如何实现小鸟图标与导入Teacher数据库表实战
  • 位图与布隆过滤器
  • RabbitMQ核心机制——延迟队列
  • win11 禁用/恢复 内置笔记本键盘(保证管用)
  • 【公式】MathType公式右编号对齐
  • MySQL连接错误解决方案:Can‘t connect to MySQL server on ‘localhost‘ (10038)
  • leetcode2081. k 镜像数字的和-hard
  • 华为OD机试真题——仿LISP运算(2025B卷:200分)Java/python/JavaScript/C/C++/GO最佳实现
  • 【短距离通信】【WiFi】WiFi7起源和应用场景介绍
  • 重庆电商网站建设/关键词在线听免费
  • 新加坡网站建设/最好的网站设计公司
  • 网站建设佰首选金手指四/关键字优化用什么系统
  • 电脑做网站服务器WIN7 买个域名/适合发朋友圈的营销广告
  • 手机网站底部广告代码/引流平台有哪些
  • 最便宜网站/免费观看行情软件网站下载