填空 前三章
- 数据科学相关填空题(含答案)
数据科学的知识体系以统计学、机器学习、数据可视化以及(某一领域知识)为理论基础。(Chapter1.doc)
数据科学中,数据计算模式从传统计算过渡至(云计算),代表性技术包括 Google 三大云计算技术、Hadoop MapReduce 等。(Chapter1.doc)
数据管理技术除传统关系型数据库外,还出现了 NoSQL、NewSQL 技术和(关系云)等新兴技术。(Chapter1.doc)
数据科学中,(R 语言和 Python 语言)已成为数据科学家较为普遍应用的数据分析工具。(Chapter1.doc)
大数据 “5V” 特征中的 “Veracity” 指的是数据的(质量和保真性)。(Chapter1.doc)
数据预处理中,(数据清洗)的主要作用是补充缺失数据、平滑噪声数据、识别或删除离群点,解决数据不一致问题。(Chapter2.doc)
对于名义型数据距离度量,若两个样本的匹配数目为 m,总属性数量为 p,则它们之间的距离计算公式为(d (i,j)=(P-m)/P)。(Chapter2.doc)
特征编码中,(哑变量编码)将包含 n 个取值的离散型特征转换成 n-1 个二元特征,可解决 One-Hot 编码特征间线性相关的问题。(Chapter2.doc)
线性回归模型中,误差项 ε 通常假定服从(N (0,σ²))分布。(Chapter3.doc)
岭回归通过在最小二乘项基础上添加(λ∥β∥²)形式的正则化项,解决多重共线性问题。(Chapter3.doc)
Logistic 回归模型的核心是通过(Sigmoid 函数)将线性预测结果映射到(0,1)区间,以表示事件发生的概率。(Chapter3.doc)
非线性模型参数估计的 “变量变换法” 核心是通过数学转换将非线性模型化为(线性模型),实现 “曲线改直”。(Chapter3.doc)
数据科学中,数据产品开发具有以数据为中心、多样性、层次性和(增值性)等特征。(Chapter1.doc)
数据预处理的 “数据归约” 主要包括(特征选择和样本采样)两种形式,以降低数据规模。(Chapter2.doc)
在线性回归中,若存在多重共线性,会导致参数估计值的(方差增大),使观测值与真实值相差甚远。(Chapter3.doc)