数据科学复习题2025
数据科学复习题
考题构成:7 题单选共 28 分;6 题判断共 12 分;2 题问答共 10 分;1 题论述
共 50 分。
1、单选题[共 28 题]
1)、根据数据结构化程度的不同,将数据分为三大类:结构化数据、非结构化数据、半结构
化数据,以下属于非结构化数据的是(D)。
A、财务报表
B、学生期末考试成绩表
C、个人银行流水
D、行车记录仪的视频信息和图片信息
2)、行车记录仪的视频信息和图片信息属于( C )
A、结构化数据
B、半结构化数据
C、非结构化数据
D、行数据
3)、由行和列构成的财务报表数据属于( A )
A、结构化数据
B、半结构化数据
C、非结构化数据
D、无结构数据
4)、音频数据属于( C )
A、结构化数据
B、半结构化数据
C、非结构化数据
D、行数据
5)、XML 数据属于( B )
A、结构化数据
B、半结构化数据
C、非结构化数据
D、行数据6)、目前来看,随着人类社会生活的丰富,( C )占比最大,这也是数据科学的重要研究对象
之一。
A、结构化数据
B、半结构化数据
C、非结构化数据
D、行数据
7)、关系数据库遵循 ACID 原则,其中( A )表示“全有或全无”,即完全执行或完全不执行
某项事务。
A、原子性
B、一致性
C、独立性
D、持久性
8)、关系数据库遵循 ACID 原则,其中(B )表示事务提交之后,数据必须符合数据库架
构。
A、原子性
B、一致性
C、独立性
D、持久性
9)、关系数据库遵循 ACID 原则,其中( C )要求并发事务应分别执行,互不干扰。
A、原子性
B、一致性
C、独立性
D、持久性
10)、关系数据库遵循 ACID 原则,其中( D )指一旦事务提交后,它所做的修改将会永久保
存在数据库上,即使出现意外系统故障或断电情况也不会丢失。
A、原子性
B、一致性
C、独立性
D、持久性
11)、关于数据可视化描述错误的是(D )
A、数据可视化旨在借助于图形化手段,清晰有效地传达信息并实现信息的互通
B、可视化是我们处理数据、发现规律的有效工具
C、数据可视化主要指利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及
对立体、表面、属性以及动画的显示,对数据加以可视化解释
D、数据可视化是关于数据视觉表现工具的科学技术研究
12)、关于图数据库,下列说法错误的是(A )A、是用于存储图片的数据库
B、是 NoSQL 数据库的一种
C、利用“图”这种数据结构存储和查询数据
D、适合用于存储社交网络数据
13)、最适合用于存储社交网络数据的 NoSQL 数据库是(A )
A、图数据库
B、列式存储数据库
C、内存键值数据库
D、文档数据库
14)、在金融行业的风控领域,需要记录大量人员之间的资金流转关系,最适合用于存储该类
数据的 NoSQL 数据库是( A )
A、图数据库
B、列式存储数据库
C、内存键值数据库
D、文档数据库
15)、在 NoSQL 数据库中,( C )常常应用 Hash table 技术实现。
A、图数据库
B、列式存储数据库
C、内存键值数据库
D、文档数据库
16)、以下不属于 NoSQL 数据库的是( A )
A、SQL Server
B、图数据库
C、内存键值数据库
D、文档数据库
17)、人类社会产生的数据一直都在以每年 50%的速度增长,也就是说,每两年就增加一
倍,这被称为(D )
A、大数据倍增定律
B、大数据思维定律
C、大数据增长定律
D、大数据摩尔定律
18)、关于大数据的理解,正确的是( A )
A、通过大数据分析真实地还原事物的本来面目、预测事物的发展规律,是大数据应用未来发
展的趋势之一
B、大数据价值密度高,且大数据背后潜藏的价值巨大
C、在无法确定因果关系时,大数据也无法为我们提供解决问题的方法D、在大数据时代我们不需要借助于数学思维的力量来解决大数据面临的问题
19)、关于大数据的描述,错误的是(C )
A、大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合
B、大数据是人们只能在大规模数据基础上可以做到的事情,是人们获得新的认知、创造新价
值的源泉
C、大数据价值密度高,且大数据背后潜藏的价值巨大
D、大数据的真实性是大数据有价值的前提
20)、随着数据量的积累、数据处理技术的成熟,大数据价值挖掘给传统思想带来了巨大冲
击,促成分析数据时的思维转变。关于大数据思维,以下说法错误的是(D )
A、不再依赖于随机采样
B、不再热衷于追求精确度
C、不再热衷于寻找因果关系
D、不再依赖于数据的相关性
21)、在数据存储与管理方面,大数据对数据库技术提出了新的要求,包括(D )
A、极高的并发读写速度
B、海量数据的高效率存储和访问
C、高可扩展性和高可用性
D、其余选项均正确
22)、物联网的特征包括全面感知、可靠传递和( A )
A、智能处理
B、数据分析
C、信息转换
D、网络连接
23)、商务智能指用现代数据仓库技术、线上分析处理技术、( A )和数据展现技术进行数据
分析以实现商业价值。
A、数据挖掘
B、多媒体
C、人工智能
D、虚拟现实
24)、BI 指的是(C )
A、企业技术
B、企业智能
C、商务智能
D、人工智能
25)、下面不属于物联网感知技术的是(D )A、GPS
B、RFID
C、条码
D、摄像机
26)、( D )是一种新型数据组织与处理技术,通过感知、关联、存续等手段,实现海量多源多
模数据的自我认知、自主学习和主动成长。
A、数据可视化
B、数据感知
C、数据挖掘
D、数据活化
27)、关系数据库分为桌面数据库和客户/服务器数据库,以下不属于客户/服务器数据库的是
( D )
A、SQL Server
B、Oracle
C、Sybase
D、Access
28)、OLAP 指的是( A )
A、联机分析处理
B、联机事务处理
C、数据挖掘
D、知识发现
2、判断题[共 24 题]
29)、随着数据库技术的发展,NoSQL 数据库必将取代关系型数据库。
T、√
F、×
正确答案:F
30)、NoSQL 数据库与关系数据库是互补关系,而非替代关系。
T、√
F、×
正确答案:T
31)、NoSQL 数据库与关系型数据库一样,也必须保证遵循 ACID 性质。
T、√
F、×
正确答案:F32)、NoSQL 的含义是 Not only SQL。
T、√
F、×
正确答案:T
33)、常见的 NoSQL 数据库有四种不同的类型,分别是:列式、文档、图形和内存键值。
T、√
F、×
正确答案:T
34)、机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度
理论等多门学科。
T、√
F、×
正确答案:T
35)、机器学习在现实生活中的应用非常普遍,如垃圾邮件检测、人脸识别等,都需要用到机
器学习技术
T、√
F、×
正确答案:T
36)、机器学习的研究方向主要包括决策树、随机森林、人工神经网络、贝叶斯学习等方面的
研究。
T、√
F、×
正确答案:T
37)、机器学习与人工智能是相同的概念。
T、√
F、×
正确答案:F
38)、数据挖掘的最高境界就是从信息中获取数据,辅助科学决策
T、√
F、×
正确答案:F
39)、数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中发现知识的过
程。
T、√F、×
正确答案:T
40)、数据挖掘是分析(往往是大量的)数据集以找到未曾预料的关系,并以可理解又有用的
新颖方式呈现给数据用户的过程。
T、√
F、×
正确答案:T
41)、数据挖掘等同于大数据分析。
T、√
F、×
正确答案:F
42)、数据挖掘与机器学习是两个完全没有交叉的研究分支。
T、√
F、×
正确答案:F
43)、云计算的核心概念就是以互联网为中心,提供快速且安全的云计算服务与数据存储。
T、√
F、×
正确答案:T
44)、云计算不仅仅是技术层面,它是一种全新的网络应用概念。
T、√
F、×
正确答案:T
45)、云计算是分布式计算的一种。
T、√
F、×
正确答案:T
46)、云计算中的“云”可以理解为客户端工具。
T、√
F、×
正确答案:F
47)、云计算与效用计算、虚拟化等技术都存在相关性。
T、√
F、×正确答案:T
48)、数字就是数据,二者是相同的概念。
T、√
F、×
正确答案:F
49)、大数据分析是通过样本推断总体的统计方法。
T、√
F、×
正确答案:F
50)、RFID 指的是射频识别技术。
T、√
F、×
正确答案:T
51)、HTML 指的是可扩展标记语言。
T、√
F、×
正确答案:F
52)、XML 指的是可扩展标记语言。
T、√
F、×
正确答案:T
3、论述题[共 5 题,无标准答案]
53)、在当前信息爆炸的时代,大数据分析渗透到多个领域,产生了巨大的价值。以商务智能
为例,大数据与商务智能的结合,带来了新的特点与挑战。请结合当前商务智能的发展,阐述
你对大数据分析技术及应用的认识。
【答题要点:大数据的概念,大数据的特征,大数据思维,商务智能的范畴,大数据在
商务智能中的应用案例分析】
54)、随着医疗卫生信息化进程的不断深入,医疗数据的类型与规模均增长迅速。大数据技术
应用于医疗以及卫生健康产业,带来了新的特点与挑战。请结合当前医疗卫生健康产业的发
展,阐述你对大数据分析技术及应用的认识。
【答题要点:大数据的概念,大数据的特征,大数据思维,医疗大数据的来源,医疗大
数据应用案例分析】55)、在城市信息化浪潮与数据科学崛起的共同推动下,智慧城市在全球范围内成为下一代城
市化发展的新理念和新实践。大数据正成为智慧城市的新动力。请结合自己对智慧城市的理
解,对大数据分析技术及应用进行阐述。
【答题要点:大数据的概念,大数据的特征,大数据思维,智慧城市的内涵,大数据在
智慧城市中的应用案例分析】
56)、物联网应用是大数据的主要来源之一,物联网数据占到了整个大数据来源的百分之九十
以上。请结合当前物联网产业的发展,对大数据分析技术及应用进行阐述。
【答题要点:大数据的概念,大数据的特征,大数据思维,物联网的概念,大数据在物联网
中的应用案例分析】
57)、你是否曾经感受到大数据为我们的生活、学习、工作等带来的影响,请结合个人经验,
阐述你对大数据分析技术及应用的认识。
【答题要点:大数据的概念,大数据的特征,大数据思维,大数据应用案例分析】
4、问答题[共 10 题]
58)、列举大数据的特征
答:数量大:数据的采集,计算,存储量都非常的庞大;多样性:大数据的形态多样,且有
多个维度。时效性:强调大数据的高速流转和其动态的数据体系;价值:大数据价值密度低,
而背后潜藏的价值巨大;真实性:大数据的真实性是大数据有价值的前提。
59)、举例说明什么是结构化数据。
答:结构化数据是以“先有结构,后有数据”的方式生成的数据。通常,人们所说的
结构化数据主要指的是在传统关系数据库中捕获、存储、计算和管理的数据。例
如,财务报表,学生成绩单,银行流水等都是结构化数据。
60)、举例说明什么是非结构化数据
答:非结构化数据是指不存在或者难以发现统一结构的数据。包括所有格式的办公文档、文
本、图片、图像、音频或视频信息等都是非结构化数据。
61)、举例说明什么是半结构化数据。
答:介于完全结构化数据和完全非结构化数据之间,经过一定的转换处理后可以用传统关系
数据库存储和管理的数据。例如 HTML 数据,XML 数据。
62)、什么是关系云。
答:关系云是在云计算环境中部署和虚拟化的关系数据库。它使得传统的关系数据
库具备云计算的虚拟化、弹性计算、按需服务和高经济性等特征。63)、什么是数据可视化,请列举不少于 3 个数据可视化工具。
答:利用图形、图像处理、计算机视觉以及用户界面,对数据加以可视化解释。旨在借助于
图形化手段,清晰有效地传达信息并实现信息的互通。常用工具包括:tableau,echart,
jreport,plotly 等。
64)、什么是 DIKW 模型。
答:在 DIKW 金字塔中,D 表示数据,在最底层,展现的是最基本的数据本身。I 在第二层,
表示信息,利用数据处理和数据分析方法,可以提供有意义的信息。K 在第三层,表示知识,
对信息进行过滤、提炼和加工,可以得到知识。W 在金字塔最高层,表示智慧,智慧是对知识
的最佳使用。(可画图表示)
65)、请简要描述数据分析的一般流程。
答:首先从现实世界收集数据,对数据进行处理和清洗。对于清洗过的干净数据,可以先做
一些探索性的数据分析,再基于一些算法对数据建模,最后形成可以解释的数据分析结果。
66)、请从产品和应用的角度解释物联网的概念。
答:从产业及应用的角度上来说,物联网是将任何物品与互联网、无线网络等连接起来,进
行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。
67)、大数据计算框架可以划分为哪些类别?请列举不少于三种当前流行的大数据计算框架。
答:大数据计算框架可以划分为批处理、流式计算、交互式分析、增量计算等类别。当前流
行的大数据计算框架包括 Hadoop, Spark, Storm 等。
