当前位置：首页 > news >正文

Data engineering at Meta

news 2025/11/8 11:19:06

作为全球数据驱动型企业的典范，Meta 的大规模数据工程实践为行业树立了标杆。本文深度解析其数据基础设施，涵盖从 Exabyte 级数据仓库（Hive/ORC 存储、名称空间分区）到混合计算引擎（Presto/Spark 离线分析 + Scuba 实时查询），再到 Daiquery/Bento 开发工具与 Unidash 可视化平台。揭秘 Meta 如何通过 UPM 流水线管理、分析库集成及自动化监控，构建支撑千亿级日活的高效数据链路，展现湖仓架构、流批融合及云原生设计的工程化落地经验，为企业数据智能建设提供可复用的技术蓝图。

文章来源：

https://medium.com/@AnalyticsAtMeta/data-engineering-at-meta-high-level-overview-of-the-internal-tech-stack-a200460a44fe

从一个宽泛的视角，介绍了 facebook 的 data engineers 使用的一些技术工具和框架

The data warehouse

内部使用了 ORC的一个fork，对读做了优化，链接
facebook 的数仓规模是 EB 级别的，所以一个数据中心放不下，需要跨几个机房存储
他们使用了 namespace 这个概念，混合了逻辑和物理位置
而一个表就确定属于某个 namespace 的，这样一个 namespace 下的查询就不会跨机房了
但如果要跨 namespace 查询，就需要将 A 表拷贝，或者 B 表拷贝到对应的机房

每个表都按照 ds 分区，也就是 YYYY-MM-DD 分区的，一般是数据产生的时间，也有其他方式分区的
数据一般保留 90天，超过了就归档，或者删除

数据如何写入数仓的

通过 data workflows 和管道写入的，data workflows
服务端和客户端拿到日志
生产环境图数据日的每日快照

Data discovery, data catalog

facebook 内部有一个叫 iData 的检查平台，是基于 web 的
开发人员可以根据 table 等关键字做搜索，检查平台为基于多个指标，如

数据新鲜度
文档
下游使用数量，ad hoc queries, other pipelines or dashboards

可以查找表的列类型，表的所有者
其他一些数据资产维度，比如上游、下游的依赖等等

Presto and Spark: Querying the warehouse

主要是用 presto、spark 做查询
内部维护了一个分支，做了一些定制化修改，也会定期合并开源分支，同时也会提交修改到开源

所以内部使用主要就是基于spark、presto 方言写的 sql
一些复杂的逻辑会用 java、scala、python 来实现
data engineer, data scientist, software engineer

presto 主要是做 adhoc 查询，spark主要是复杂的 join 查询
一般 presto 会查询几十亿行的数据，大概几秒，如果有聚会、join 需要几分钟

Scuba: Real-time analytics

facebook 内部的一个实时分析框架，用来分析日志的趋势
facebook 每天会产生几百P 的数据，用户行为，代码变更，这个框架就用来实时分析这种变化，并提供开发人员展示

Scuba 的数据来自于客户端、或者服务端的 log
Scuba 可以通过 web UI 查询，类似于 Kibana，这样就不用写程序了，一般是生成过去 5分钟的趋势报告
或者通过一种 SQL 方言查询
最后数据会写入到 hive

Daiquery & Bento: Query and analysis notebooks

data engineers 每天都会使用的工具之一
基于 web 的方式，可以查询任何数据源

warehouse (either through Presto or Spark)
Scuba
其他任何源

查询结果会以表格的方式展示，当然也可以用其他形式展示
Daiquery 不支持其他复杂的查询
对此可以使用 Bento，这是 Jupyter 的内部实现，可以用 python 或者 R 做查询
很多 data scientists 用这个做机器学习、或者数据分析

Unidash: Dashboarding

类似于 Apache Superset、Tableau
比如工程师可以在 Daiquery 写查询，创建图表，然后导入 dashboard 中
而每次查询，再加载这个效率太低了

这里可以用预聚会来加速，facebook 内部维护了一个 presto 改进的实现 RaptorX，有 10倍加速
这是通过缓存了通用的数据来加速的

RaptorX: Building a 10X Faster Presto
dashboard 可以通过 web 接口创建，也可以通过 python 来创建

Software development

内部使用了高度定制化的 Visual Studio Code 作为 IDE，包括了一堆内置的插件，由专门的 team 维护
内部使用 Mercurial 的 fork版本作为源码控制，现在已经将其开源了 Sapling: Source control that’s user-friendly and scalable
采用的是 monorepo 代码管理方式