1.拿到业务之后如何去设计数仓和表结构,设计过程中基于怎样的逻辑和考量
2.假设有一个事实表来自ods层,事实表并没有对ods层数据表做出修改,那么还需不需要这张事实表
3.设计dws层的时候做一些聚合,产生指标,可能会涉及一些纬度,是基于怎么样的考量去选择纬度,去产生对应的指标
设计DWS层时如何选择纬度,产生对应的指标?
4.spark的stage个数,task个数由什么决定
5.遇到一个场景task数较多,哪些情况会导致task数比较多
6.如果小文件过多,怎么通过调节spark参数去解决,更加通用的方法
7.在spark配置参数的时候一个任务申请到的内存是怎么计算出来的
往期精彩
工作日用车高峰时段数据分析 | 滴滴
数仓是如何进行整合的?
设计DWS层时如何选择纬度,产生对应的指标?
如何利用滚存表优化数仓中的累计指标?
如何利用滚存表优化数仓中的累计指标?
技术债务缠身的老数仓,是先重构还是先业务?
数仓开发中SQL Code Review到底在Review什么?
如何评估数仓分层设计的合理性?| 腾讯数据架构
面试提问:如果业务方临时要一个新指标,你会如何处理?| 临时取数问题
SQL面试题:供应链库存周转率计算与缺货预测
面试官问:数仓DWM层与DWS层有什么区别?什么时候需要建设DWM层?