数仓实习生面试(一面)
1.自我介绍
2.项目来源,自己做的还是网上找来做的
3.离线数仓介绍
4.项目遇到的问题(提到kafka的重复数据)
5.为什么kafka会出现重复数据
6.你项目中怎么处理的
7.数仓分层的好处经典问题争议:数仓分层建设中,DWD、DWS、ADS哪一层最难?
经典问题争议:数仓分层建设中,DWD、DWS、ADS哪一层最难?
8.数仓分了哪几个数据域
猪小明vs飞猪数据团队:数仓中既然有了主题域,为什么还要划分数据域?
9.讲一些维度建模
10.常见的维度模型(雪花、星型)
11.使用场景
12.除了维度建模,还有哪些建模理论(E-R)
面试提问:数仓中除了维度建模还有哪些建模方式?
13.E-R模型讲一下(提到数据库范式)
14.讲一下三范式
15.事实表的分类
读者提问:如果维度退化或下沉的维度属性发生了变化,事实表该如何处理?
李荣浩vs某游戏公司:数仓建设中,如果用户表频繁更新,像事实表一样细长,怎么解决?
16.如何划分业务过程?怎么知道划分的好不好?
数仓面试提问:如何判断业务过程划分的好坏?| 途虎养车
17. 指标计算的正确性平时如何验证的?
面试提问:数仓里面指标计算的正确性如何验证,有好的方法吗?
18.spark相比mr的优点(因为项目是hive on spark)
19.hadoop的读写原理
20.读写过程中,datenode挂掉了,怎么处理
21.你两个项目更倾向于做哪方面(一个实时,一个离线)
22.==和equals的区别
23.StringBuilder和StringBuffer区别
24.简历提到的做过python开发,是做了什么
25.平时是用python语言写脚本还是shell语言
26.hive的优化方式
27.自定义udf的过程
Hive如何创建自定义函数(UDF)?
28.窗口函数使用过哪些,介绍一下
Hive 窗口函数详解及使用场景总结【基于面试提问】
29.row_numer和rank以及dense_rank的区别
30.学习途径
31.校园经历
32.对工作上出现的一些场景的看法
33.反问
往期精彩
快手大数据开发一面面试题(社招)
企业级指标体系设计与应用 | 一文讲完
面试提问: 数仓底座健康度衡量标准是什么?都有哪些指标?
字节数据开发一面(校招)
SQL面试题:供应链库存周转率计算与缺货预测
携程数仓实习(一二面面试题)
数仓建模中,如果遇到跨业务过程的分析,这时候dwd层表模型如何设计?整体的设计思路是什么?|支付宝
数据开发面试题(社招)
面试官问:数仓DWM层与DWS层有什么区别?什么时候需要建设DWM层?
美团数据开发面试题(一面、二面、三面)
数仓建模:如何提升模型的复用性?| 理论篇
数仓排期困境破局:如何构建让业务方信服的排期体系?
数仓分区时间设计:系统时间与业务时间如何选?| 虾皮数开
SQL面试题:用户登录行为分析
京东金融面试提问:数仓中共性指标如何做下沉?请谈谈你的理解