2025数据库系统工程师上午考试知识点汇总
2025数据库系统工程师上午考试知识点汇总
1、海明码
海明码利用奇偶性检错和纠错,通过在n个数据位之间插入k个检验位,扩大数据编码的码距。若n=48,则k应为(6)。
解:海明码是一种线性错误纠正码,它通过在数据位之间插入校验位来检测和纠正错误。对于一个给定的数据位长度 n,海明码需要插入的校验位数量 k 可以通过以下公式计算:
2k≥n+k+1
这个公式确保有足够的校验位来覆盖 n 个数据位以及 k 个校验位本身,并且还能处理一个错误。
2、根据内存地址求芯片
若用256Kx8bit的存储器芯片,构成地址40000000H到400FFFFFH且按字节编址的内存区域,则需(4)片芯片。
解:400FFFFFH-40000000H+1=220=210*210B=210KB
210KB/256=210/28=22=4
3、根据机器字长求数值大小
对于一个机器字长为 n 位,最高位是符号位的定点整数,其最大值的计算方式如下:
由于最高位是符号位,剩下的n-1位用于表示数值大小。对于无符号整数,其最大值是 2n-1-1
4、IO系统层次结构
5、指令寻址分类
指令中的寻址方式就是如何对指令中的地址字段进行解释,以获得操作数的方法或获得程序转移地址的方法。常用的寻址方式有:
1、立即寻址:操作数就包含在指令中。
2、直接寻址:操作数存放在内存单元中,指令中直接给出操作数所在存储单元的地址。
3、寄存器寻址:操作数存放在某一寄存器中,指令中给出存放操作数的寄存器名。
4、寄存器间接寻址:操作数存放在内存单元中,操作数所在存储单元的地址在某个寄存器中。
5、间接寻址:指令中给出操作数地址的地址。
6、相对寻址:指令地址码给出的是一个偏移量(可正可负),操作数地址等于本条指令的地址加上该偏移量。
7、变址寻址:操作数地址等于变址寄存器的内容加偏移量。题目给出的指令中,R1是寄存器,属于寄存器寻址方式,45是立即数,属于立即寻址方式。
6、编译过程
编译程序的作用是把某种高级语言书写的源程序翻译成与之等价的目标程序,其工作过程一般可以分为6个阶段:
1、词法分析(识别单词):
- 任务:对源程序从前到后(从左到右)逐个字符地扫描,从中识别出一个个“单词”符号。“单词”符号是程序设计语言的基本语法单位,如关键字(保留字)、标识符、常数、运算符和标点符号、左右括号等。
2、语法分析(判断是否构成语句,合法表达式):
- 任务:根据语言的语法规则,在词法分析的基础上,分析单词串是否构成短语和句子,即是否为合法的表达式、语句和程序等基本语言结构,同时检查和处理程序中的语法错误。
- 如果源程序没有语法错误,语法分析后就能正确地构造出其语法树
3、语义分析(是否有语义错误)
- 任务:分析各语法结构的含义,检查源程序是否包含静态语义错误,并收集类型信息供后面的代码生成阶段使用。
- 语义分析的一个主要工作是进行类型分析和检查。一个数据类型一般包含两个方面的内容:类型的载体及其上的运算。例如:整除取余运算符只能对整型数据进行运算,如果运算对象为浮点数,则认为是种类型不匹配的错误。
4、中间代码生成
- 任务:根据语义分析的输出生成中间代码,
- 常用的中间代码有:后缀式(逆波兰式)、四元式(三地址码)、树形表示。
5、代码优化:
- 由于编译器将源程序翻译成中间代码的工作是机械的、按固定模式进行的,因此,生成的中间代码往往在时间和空间方面的效率较差。当需要生成高效的目标代码时,就必须进行优化。
- 优化过程可以在中间代码生成阶段进行,也可以在目标代码生成阶段进行。
6、目标代码生成
- 目标代码生成是编译器工作的最后一个阶段。任务:把中间代码变换成特定机器上的绝对指令代码、可重定位的指令代码和汇编指令代码
- 这个阶段的工作与具体的机器密切相关。
7、符号表管理
- 符号表的作用是记录源程序中各种符号的必要信息,以辅助语义的正确性检查和代码生成,在编译过程中需要对符号表进行快速有效地查找、插入、修改和删除等操作。
8、出错处理
源程序中不可避免地会有一些错误,大致分为静态错误和动态错误。
(1)动态错误发生在程序运行时,如:变量取零时作除数、引用数组下标错误等
(2)静态错误是指编译阶段发现的程序错误,可分为语法错误和静态语义错误。
① 语法错误:单词拼写错误、标点符号错、表达式中缺少操作数、括号不匹配等有关语言结构上的错误。
②) 静态语义错误:语义分析时发现的运算符和运算对象类型不合法等错误。
8、调度分类
长期调度,又称为作业调度或高级调度,这种调度将已进入系统并处于后备状态的作业按某种算法选择一个或一批,为其建立进程,并进入主机,当该作业执行完毕时,还负责回收系统资源,在批处理系统中,需要有作业调度的过程,以便将它们分批地装入内存,在分时系统和实时系统中,通常不需要长期调度。它的频率比较低,主要用来控制内存中进程的数量。
中期调度,又称为交换调度。它的核心思想是能将进程从内存或从CPU竞争中移出,从而降低多道程序设计的程度,之后进程能被重新调入内存,并从中断处继续执行,这种交换的操作可以调整进程在内存中的存在数量和时机。其主要任务是按照给定的原则和策略,将处于外存交换区中的就绪状态或等待状态的进程调入内存,或把处于内存就绪状态或内存等待状态的进程交换到外存交换区。
短期调度,又称为进程调度、低级调度或微观调度。这也是通常所说的调度,一般情况下使用最多的就是短期调度。它的主要任务是按照某种策略和算法将处理机分配给一个处于就绪状态的进程,分为抢占式和非抢占式。
9、ARP分类
ARP欺骗是一种基于链路层协议(ARP)的攻击方式,通过伪造地址解析协议数据包,劫持或篡改网络流量。因此,选项 B:链路层 是正确答案。
POP3服务器默认端口为110。
在IE浏览器中,安全等级从可信站点、本地Intranet、Internet、受限站点默认情况下依次为低、中低、中、高,逐步提升
10、数据挖掘和算法
数据挖掘是从海量数据中提取或挖掘知识的过程,数据挖掘的基本功能或知识发现类型包含特征描述、分类、关联规则、聚类、离群点分析等。
特征描述是对目标类数据的一般特性或特征的汇总,
分类根据历史数据或已知数据(训练数据集)构建分类模型,利用测试数据来评价分类模型或者对未知数据进行预测。
关联规则发现在数据中频繁出现的模式。
聚类是将物理或者抽象的集合分成相似的对象类的过程根据上述说明
- 分类分析找出描述和区分数据类的模型,以便能够使用模型来预测类标号末知的对象,典型的方法有决策树(ID3、C4.5)、最近邻(KNN)、贝叶斯、人工神经网络、支持向量机(SVM)等。
- 关联规则分析用于发现描述数据中强管理特征的模式。典型的算法:Apriori
- 聚类旨在发现紧密相关的观测值组群,使得与不同族群的观察值相比,属于同一族群内的观测值尽量相似,典型的算法:K-means和EM都是聚类算法。
- 离群点分析也称为异常检测,其目标是发现与大部分其他对象不同的对象。
10、数据库三级模式
在数据库系统中,三级结构:
外模式也称为用户模式或子模式,是用户与数据库系统的接口,是用户用到的那部分数据的描述,即外模式用于描述用户视图层次上的数据特性。
模式用于对数据库中全部数据的逻辑结构和特征进行描述,即模式用于描述概念视图层次上的数据特性。
内模式也称为存储模式,是数据物理结构和存储方式的描述,即内模式用于描述内部视图层次上的数据特性,是数据在数据库内部的表示方式。
11、ER图合并冲突分类
分E-R图合并时,它们之间存在的冲突主要有以下三类:
(1)属性冲突:同一属性可能会存在于不同的分E-R图中,由于设计人员不同或是出发点不同,对属性的类型、取值范围、数据单位等可能会不一致。
(2)命名冲突:相同意义的属性,在不同的分E-R图上有着不同的命名,或是名称相同的属性在不同的分E-R图中代表着不同的意义,这些也需要进行统一。
(3)结构冲突:同一实体在不同的分E-R图中有不同的属性,同一对象在某一分E-R图中被抽象为实体而在另一分E-R图中又被抽象为属性。(例如:在课程实体中,任课老师是一属性,但是在老师实体中,老师是单一实体,出现这种情况时,应将作为属性的对象改为实体,并与原所在属性间建立联系。)
12、数据模型
数据模型(Data Model)是现实世界数据特征的抽象,或者说是现实世界的数据模拟。数据库中,用数据模型来抽象地表示现实世界的数据和信息。
数据模型的三要素是:数据结构、数据操作及完整性约束条件。
13、关系运算
1、广义笛卡儿积
两个元数分别为n目(几列,几元),3列,3元)和m目的关系R和S的广义笛卡儿积是一个(n+m)列的元组的集合。元组的前n列是关系R的一个元组,后m列是关系S的一个元组,记作RXS。
2、投影及广义投影
- 投影是从关系的垂直方向进行运算,在关系R中选择出若干属性列A组成新的关系,记作πA(R),其形式定义如下:πA(R)={t [A]lt∈R }
- 广义投影运算允许在投影列表中使用算术运算,实现了对投影运算的扩充。若有关系R,条件F1,F2.…, Fn中的每一个都是涉及R中常量和属性的算术表达式,那么广义投影运算的形式定义为:πF1,F2...Fn(R)
跟select中的查询很像
3、选择
- 选择运算是从关系的水平方向进行运算,是从关系R中选择满足给定条件的诸元组。。。。
相当于加了where条件,限制查询
扩展的关系运算-1-交
• 关系R与S具有相同的关系模式,关系R与S的交由属于R同时又属于S的元组构成,关系R与S的交记作R⋂S,其形式定义如下:
扩展的关系运算-2-连接
• 分为θ连接、等值连接与自然连接
(1)θ连接
可以由基本的关系运算笛卡儿积和选取运算导出。
还有一种解法,每次先求笛卡尔积比较麻烦,就可以先算R.A< S.B,求完之后,再直接补全,例如下图所示:
例如:2>1,不满足条件,往下,2<8,满足条件,则把这一行写出来
依次往下
(2)等值连接
(3)自然链接
- 是一种特殊的等值连接,它要求两个关系中进行比较的分量必须是相同的属性组,并且在结果集中将重复属性列去掉。如果没有重复属性,那么自然连接就转化为笛卡儿积。
14、规范化
1. 第一范式(1NF)
**定义**:第一范式要求数据库表的每一列都是不可再分的原子数据项,即表中的每个字段值都是不可分解的,不能包含多个值。
**目的**:确保数据的原子性,避免字段中存储复杂结构的数据。
2. 第二范式(2NF)
**定义**:在满足第一范式的基础上,要求非主属性完全依赖于主键。如果存在部分依赖(非主属性部分依赖于主键),则不符合2NF。
**目的**:消除部分依赖,减少数据冗余。
3. 第三范式(3NF)
定义:在满足第二范式的基础上,要求非主属性之间不存在传递依赖。如果存在传递依赖(非主属性之间存在依赖关系),则不符合3NF。
**目的**:消除传递依赖,进一步减少数据冗余。
4. 第四范式(4NF)
**定义**:在满足第三范式的基础上,要求表中不存在多值依赖。如果存在多值依赖(一个字段的值对应多个其他字段的值),则不符合4NF。
**目的**:消除多值依赖,进一步优化数据结构。
5. BCNF(巴克斯范式)
定义:BCNF是第三范式的一个变体,要求表中的每个决定因子(能够唯一确定其他字段的字段)都必须是候选键。如果存在非候选键的决定因子,则不符合BCNF。
目的:进一步提高数据的规范化程度,消除异常。
15、数据库系统概念
数据控制功能包括对数据库中数据的安全性、完整性、并发和恢复的控制。其中:
- 安全性(security)是指保护数据库免受恶意访问,即防止不合法的使用所造成的数据泄漏、更改或破坏。这样,用户只能按规定对数据进行处理,例如,划分了不同的权限,有的用户只能有读数据的权限,有的用户有修改数据的权限,用户只能在规定的权限范围内操纵数据库。
- 完整性(integrality)是指数据库正确性和相容性,是防止合法用户使用数据库时向数据库加入不符合语义的数据。保证数据库中数据是正确的,避免非法的更新
- 并发控制(concurrency control)是指在多用户共享的系统中,许多用户可能同时对同一数据进行操作。DBMS的并发控制子系统负责协调并发事务的执行,保证数据库的完整性不受破坏,避免用户得到不正确的数据。
- 故障恢复(recovery from failure)。数据库中的4类故障是事务内部故障、系统故障、介质故障及计算机病毒。故障恢复主要是指恢复数据库本身,即在故障引起数据库当前状态不一致后,将数据库恢复到某个正确状态或一致状态。恢复的原理非常简单,就是要建立冗余(redundancy)数据。换句话说,确定数据库是否可恢复的方法就是其包含的每一条信息是否都可以利用冗余地存储在别处的信息重构。冗余是物理级的,通常认为逻辑级是没有冗余的。
持续更新中
有需要备战2025软考中级-数据库工程师的小伙伴可关注我,入QQ群(980477026),一起打卡学习