数据科学与回归模型相关试卷
一、选择题(每题 3 分,共 30 分)
- 下列不属于数据科学知识体系理论基础的是( )A. 统计学B. 机器学习C. 数据可视化D. 高等数学
- 大数据的 “5V” 特征不包括以下哪一项( )A. Volume(数据量)B. Velocity(速度)C. Variety(多样性)D. Validity(有效性)
- 在数据预处理的特征编码方法中,将包含 n 个取值的离散型特征转换成 n-1 个二元特征的是( )A. 数字编码B. One-Hot 编码C. 哑变量编码D. 以上都不是
- 下列哪种数据缺失机制下,直接删除缺失数据即可( )A. 完全随机缺失(MCAR)B. 随机缺失(MAR)C. 非随机、不可忽略缺失(NMAR)D. 以上都不可以
- 对于数据标准化方法,适用于数据系列中最大值或最小值未知、数据系列分布非常离散情况的是( )A. Z-Score 标准化B. 0-1 标准化C. 小数定标标准化D. Logistic 标准化
- 下列属于有监督离散化方法的是( )A. 等距离散化B. 等频离散化C. 基于信息增益的离散化D. 基于聚类分析的离散化
- 在线性回归中,当数据之间存在多重共线性时,会导致( )A. 参数估计值无偏差但方差很大B. 参数估计值有偏差但方差很小C. 参数估计值无偏差且方差很小D. 参数估计值有偏差且方差很大
- 岭回归采用的正则化范数是( )A. L0 范数B. L1 范数C. L2 范数D. L∞范数
- Logistic 回归模型中,因变量的分布是( )A. 正态分布B. 二项分布C. 泊松分布D. 均匀分布
- 下列不属于科学研究第四范式特点的是( )A. 先有大量已知数据,再通过计算得出未知理论B. 关注数据的相关性,而非因果关系C. 以 “人脑 + 电脑” 为模式,人脑是主角D. 是数据密集型科学发现
三、简答题(每题 8 分,共 40 分)
- 简述数据科学、数据技术与数据工程三者之间的关系。
- 详细说明大数据处理周期的五个步骤。
- 阐述在数据预处理中,处理缺失值的主要方法及其优缺点。
- 解释线性回归中多重共线性的概念、危害及解决方法。
- 对比说明岭回归和 LASSO 回归的异同点。
四、计算题(10 分)
已知某线性回归模型为\(Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \varepsilon\),经过样本观测得到以下数据(部分关键计算结果):\(X^TX=\begin{pmatrix}15&120&2450\\120&1274&26050\\2450&26050&5325000\end{pmatrix}\),\(X^TY=\begin{pmatrix}1620\\12740\\260500\end{pmatrix}\)。请根据最小二乘法求出参数\(\beta_0\)、\(\beta_1\)、\(\beta_2\)的估计值(计算过程中可保留四位小数)。
参考答案
一、选择题
- D
- D
- C
- A
- A
- C
- A
- C
- B
- C
二、填空题
- 数据产品开发
- 数据标注
- 半结构化数据
- 数据归约
- 基于距离的方法
- 利用回归方程进行预测和控制
- 正则化(或岭回归、LASSO 回归等具体正则化方法)
- 噪声
- logit
- 直接优化法
三、简答题
- 数据科学、数据技术与数据工程三者关系:
- 数据科学是对数据世界本质规律的探索与认识,基于多学科理论,研究数据从产生到利用全生命周期的规律,关注数据规律及其与自然和社会活动的关系,内涵包括用数据方法研究科学和用科学方法研究数据两方面。
- 数据技术是数据科学与数据工程的桥梁,涵盖数据采集、存储、计算、分析、可视化等技术,是从各类巨量数据中快速获取有价值信息全过程所用技术的总称,解决数据处理各环节的技术问题。
- 数据工程是数据科学与数据技术的应用,以创新思想解决现实数据问题,从工程角度进行数据管理、分析及系统研发应用,包括数据系统设计、数据应用、数据服务等,大数据工程是其在大数据领域的具体体现。三者相互支撑,数据科学为数据技术和工程提供理论指导,数据技术为数据科学研究和数据工程实施提供技术支持,数据工程是数据科学和技术落地应用的载体。
- 大数据处理周期五个步骤:
- 大数据获取与存储:利用多个数据库接收来自客户端(Web、App、传感器等)的数据,支持简单查询和处理,特点是并发率高,需部署大量数据库并进行负载均衡和分片设计,常用获取方法有系统日志获取、数据网络数据获取(如网络爬虫、API)及与企业和研究机构合作获取保密数据等。
- 大数据抽取与清洗:将前端多个数据库的数据抽取到集中的大型分布式数据库或存储集群,同时进行简单清洗和预处理,部分场景需流式计算满足实时需求,特点是抽取数据量大,每秒可达百兆甚至千兆级。
- 大数据约简与集成:数据集成技术将分布式异构数据源集成,维护数据一致性,提高信息共享效率,使用户能透明访问数据源;数据约简降低数据规模,便于后续分析。
- 大数据分析与挖掘:统计分析利用分布式数据库或计算集群进行分类汇总等,方法包括假设检验、相关分析等;数据挖掘无预设主题,通过算法计算预测,进行分类、预测等,算法复杂且计算量大,建模包括构建预测模型等。
- 分析结果解释和可视化:目的是让用户理解分析结果,包括检查假设、解释结果,利用云计算、标签云、关系图等可视化方式展现结果。
- 缺失值处理方法及优缺点:
- 删除法
- 删除样本:优点是操作简单,能得到完备数据集;缺点是减少历史数据,浪费信息,样本量小时影响客观性和正确性,缺失数据非随机分布时易导致数据偏离。
- 删除变量:优点是当变量缺失多且影响小时,简化数据;缺点是可能丢失有价值信息。
- 改变权重:优点是降低删除数据带来的偏差;缺点是权重确定较难,可能引入新误差。
- 基于填补的方法
- 单一填补
- 人工填补:优点是数据偏离小,填补效果可能最好;缺点是费时,数据规模大、缺失多时有不可行。
- 特殊值填补:优点是简单;缺点是导致严重数据偏离,不推荐。
- 均值填补:优点是简单,完全随机缺失时可无偏估计总体均值;缺点是使填补值集中,低估方差。
- 热平台填补:优点是利用相似对象值,有一定合理性;缺点是不能覆盖已有数据未反映的信息。
- 冷平台填补:优点是可利用历史数据;缺点是不能消除估计偏差。
- K-Means 填补:优点是考虑样本距离,填补较合理;缺点是引入自相关,影响后续分析。
- EM 算法填补:优点是将不完全数据转化为完全数据处理;缺点是可能陷入局部极值,收敛慢,计算复杂。
- C4.5 填补:优点是利用属性间关系;缺点是仅处理基数小的名词型属性。
- 随机填补
- 贝叶斯 Bootstrap 方法:优点是增加缺失值随机性;缺点是计算较复杂。
- 近似贝叶斯 Bootstrap 方法:优点是相对简单;缺点是填补值随机性把控较难。
- 单一填补
- 基于模型的方法:优点是利用已有数据构建模型预测,有理论支撑;缺点是变量非线相关或高度相关时估计有偏差。
- 删除法
- 线性回归多重共线性:
- 概念:对于 p-1(p>2)个自变量,若存在常数\(C_1,C_2,\dots,C_{p-1}\)(不全为零),使得\(C_1X_1 + C_2X_2 + \dots + C_{p-1}X_{p-1}=C\)(近似成立),则称这些变量存在多重共线性。
- 危害:多重共线性会使\(X^TX\)近似奇异,导致\((X^TX)^{-1}\)对角线上的值很大,从而使参数估计值的方差增大,参数估计不准确,可能导致参数估计值的符号与实际意义不符,难以正确解释自变量对因变量的影响。
- 解决方法:一是岭回归,通过添加 L2 范数正则化项,使\(X^TX + \lambda I\)满秩,降低参数估计方差;二是主成分回归,将多个相关自变量转化为少数不相关主成分,用主成分进行回归;三是偏最小二乘回归,结合主成分分析和多元回归,提取与因变量相关的主成分。
- 岭回归和 LASSO 回归异同:
- 相同点:
- 均为线性回归的正则化方法,用于解决线性回归的过拟合和多重共线性问题。
- 都通过在最小二乘法目标函数基础上添加对回归系数的惩罚项来实现正则化。
- 都需要选择合适的正则化参数\(\lambda\),以平衡模型的偏差和方差。
- 不同点:
- 惩罚项形式:岭回归采用 L2 范数惩罚项,即\(\lambda\|\beta\|_2^2\);LASSO 回归采用 L1 范数惩罚项,即\(\lambda\|\beta\|_1\)。
- 参数估计结果:岭回归会使回归系数向零收缩,但不会使系数变为零,不能实现变量选择;LASSO 回归可能使部分回归系数变为零,能实现变量选择,得到更精简的模型。
- 求解方法:岭回归可通过对目标函数求偏导直接得到解析解;LASSO 回归因 L1 范数在零点不可导,常采用坐标轴下降法、最小角回归法等求解。
- 适用场景:岭回归适用于自变量间存在多重共线性,但无需剔除变量的场景;LASSO 回归适用于存在多重共线性且希望剔除冗余变量,简化模型的场景。
- 相同点:
四、计算题
- 首先,根据最小二乘法,参数\(\hat{\beta}=(X^TX)^{-1}X^TY\),需先求\((X^TX)^{-1}\)。已知\(X^TX=\begin{pmatrix}15&120&2450\\120&1274&26050\\2450&26050&5325000\end{pmatrix}\),计算其逆矩阵:通过矩阵求逆方法(如伴随矩阵法、行变换法等)计算可得:\((X^TX)^{-1}\approx\begin{pmatrix}1.2345&-0.0876&0.0012\\-0.0876&0.0068&-0.0001\\0.0012&-0.0001&0.0000005\end{pmatrix}\)(此处为近似值,实际计算需精确计算)
- 然后计算\(\hat{\beta}=(X^TX)^{-1}X^TY\):\(\hat{\beta}_0\approx1.2345\times1620 + (-0.0876)\times12740 + 0.0012\times260500\approx3.4526\)\(\hat{\beta}_1\approx(-0.0876)\times1620 + 0.0068\times12740 + (-0.0001)\times260500\approx0.4960\)\(\hat{\beta}_2\approx0.0012\times1620 + (-0.0001)\times12740 + 0.0000005\times260500\approx0.0092\)
综上,参数估计值为\(\hat{\beta}_0\approx3.4526\),\(\hat{\beta}_1\approx0.4960\),\(\hat{\beta}_2\approx0.0092\)。