当前位置: 首页 > news >正文

常见面试提问

在数据开发过程中,遇到数据量特别大的情况下,你一般会做那些优化?

数据分区分片:分批处理,避免一次性加载太多数据导致内存溢出
SQL优化:优化sql,join优化,大小表join,小表采用广播join,避免shuffle;将复杂子查询拆分为临时表,提升可读性和性能;
数据预处理:提前计算常用聚合数据,减少实时计算压力;将数据分为原始层、清洗层和聚合层,逐层处理。

你在开发过程中 遇到最棘手的问题是什么? 怎么解决的?

数据倾斜:定位数据倾斜的key,随机值+撒盐
数据量大:分片,算法优化

如何解决数据质量问题?

可以设置一些数据质量规则,比如数据的完整性、准确性、一致性等方面的规则,然后通过工具或者代码来检查数据是否符合这些规则。还可以对数据进行抽样检查,或者对比不同数据源的数据是否一致。

什么是维度建模?

维度建模‌是一种用于数据仓库和商业智能系统的数据建模方法,旨在优化查询性能和分析效率。其核心思想是将数据组织为易于理解和分析的结构,通常包括事实表和维度表两部分。‌

数据库和数据仓库的区别?

数据库通常是面向事务处理的,主要用于存储和管理日常业务数据。
而数据仓库则是面向分析的,它整合了来自不同数据源的数据,经过清洗、转换等处理后,为数据分析和决策支持提供数据基础。

Java中的多态、继承、封装?

相关文章:

  • 【Java八股文】06-MySQL面试篇
  • MySQL 支持的事务隔离级别
  • C++之2048小游戏 第二期
  • PHP 基础介绍
  • 使用Nuitka工具打包Python程序成exe
  • 【Java八股文】01-Java基础面试篇
  • 猜数字小游戏
  • 使用Hexo部署NexT主体网站
  • SQL SERVER的PARTITION BY应用场景
  • C# CountdownEvent 类 使用详解
  • 认识网络安全
  • 【css】width:100%;padding:20px;造成超出100%宽度的解决办法 - box-sizing的使用方法 - CSS布局
  • Android Studio:RxBus结合ICompositeSubscription使用
  • YOLO数据标注——LabelImg
  • PMP--冲刺--流程图
  • vue3+element-plus中的el-table表头和el-table-column内容全部一行显示完整(hook函数)
  • 【第3章:卷积神经网络(CNN)——3.8 迁移学习与微调策略】
  • 恩智浦:将开发文档迁移到DITA/XML
  • ASP.NET Core 使用 FileStream 将 FileResult 文件发送到浏览器后删除该文件
  • 趣味魔法项目 LinuxPDF —— 在 PDF 中启动一个 Linux 操作系统
  • 第四轮伊美核问题谈判预计5月11日举行
  • 机关食堂向游客开放的重庆荣昌区,“消费市场迎来历史性突破”
  • 公安部:“五一”假期全国社会大局稳定,治安秩序良好
  • 山大齐鲁医院回应论文现“男性确诊子宫肌瘤”:给予该护士记过处分、降级处理
  • 蓝佛安主持东盟与中日韩财长和央行行长系列会议并举行多场双边会见
  • 环球马术冠军赛圆满落幕,是马术盛宴更是中国马产业强大引擎