数据库blog1_信息(数据)的处理与效率提升
🌿信息的处理
🍂实际中离不开信息处理
● 解决问题的建模
任何对问题的处理都可以看作数据的输入、处理、输出。
- eg.一个项目中,用户点击信息由前端接收传递到后端处理后返回结果
- eg.面对一个问题,我们在搜集信息后做出处理与分析,最终得出判断
- eg.硬盘里的信息到内存后,由CPU处理后输出给对应设备(如,显示屏)
● 实际信息处理全过程概括
实际中信息处理的详细流程可以概括为:信息的 输入[收集、整理]+处理[分析、计算、转换…]+输出[呈现…]。
- 搜集:使用爬虫快速搜集/整理:合适方式归类、存储
🍂信息处理能力有高下之分
● 信息处理能力
由于问题的解决过程可以看作是对信息流的处理,所以,对信息的处理能力越强,就意味着结点的处理能力越强。
- CPU每秒浮点数计算次数越大,即CPU的能力越强
注意:
- 同一个问题,不同结点的能力不同。而不同问题,一个结点的解决能力也不同。
- 即,不能直接比较结点的能力,首先要明确是那个问题,才能比较能力。
- 如,人脑在抽象问题上优于计算机。而在高速计算问题上,计算机优于人脑。即比较时,不能脱离实际问题。
● 局部对整体的影响
信息处理是由上述的几个步骤依次执行的,由此会发现,每个步骤的效率都会影响最终的效率评价。
- eg.跑4*100m接力,A组第一棒过于慢(需要40s),其它三棒速度较快(25s),而B组四棒速度均匀(24s)则会发现B组更快。
总结:
- 每个过程顺利处理,整体效率才高。
- 总体效率受最低效率的那个步骤影响最大,比如CPU与硬盘间要内存作为过渡,不然CPU效率再高体现不出来。
🍂总结
信息处理与效率的关系
- 对
某个问题
的处理的过程过程可以看作是对信息流的处理
- 而信息流的处理中,
各步骤效率影响着总体效率
- 由此,
优化各步骤效率
且使它们效率相似是提升信息处理能力的方法。- 从而使得结点解决
该问题
的能力就提升。即解决问题的效率就提升。经典例子
- CPU与硬盘间加内存,过渡了各步骤速率差异,使得整体效率变高。
所以,研究每个步骤如何提升效率十分有必要。
- 比如,优化爬虫规则,使得输入搜集效率提高
- 而数据库是研究数据的整理(存储)效率,从而使得输入效率的提高
🌿计算机对数据(信息)的处理
电子计算机中的信息都以二进制数据概念存储。即,信息在计算机中的表现形式二进制数据,所以,计算机中的信息处理有可以叫做数据的处理,对应信息处理流程就是:数据输入——>数据处理——>数据输出。
🍂PC的结构
冯诺依曼结构:CPU(运算器、控制器)、存储器、输入输出设备
- CPU————负责处理,是计算机的核心部件
- 存储器(cache/内存/硬盘)————负责数据的存储。用于将信息输入CPU/接收来自CPU的信息
- 输入/输出设备————用于接收非外界的非存储器的信息(eg.键盘)/输出来自CPU的信息
🍂PC数据处理流程效率分析
负责相关步骤的设备:
数据的输出/输入:存储器、输入/输出设备
数据的处理:CPU其中,输入的内容主要来自存储器,由此,有必要优化存储器,来提升输入/输出效率。优化CPU,提升对数据的处理效率。
🌿输入/输出步骤的优化————存储器的优化
由于存储器在数据输入/输出中起着关键作用,优化存储器结构和访问方式,是提升整体信息处理效率的重要手段。
🍂物理效率优化
主要是硬件与架构方面的优化
- 合适的存储介质与缓存技术(cache-内存-硬盘三级架构)
- 存储架构(分布式存储、存储区域网络(SAN)、网络附加存储(NAS)
)
问题:只提升了存取的物理效率。没有提示逻辑效率。举例
:快递站一堆混杂的快递,可以选择分拣快的快递员来提升寻找目标快递的速度。由此,效率提高。但如果把快递提前按标签号分类,那么寻找效率会更高。
🍂逻辑优化
在存储数据前,对数据逻辑关系再处理,比如。得出索引、分区存储…,使得查找数据的时候,不用穷举法,而是有规律的在符合特征的区域里查找就行了。
● 数据逻辑优化的本质——元数据
- 对数据不做处理,就只能穷举遍历查找,而要做到逻辑优化,必然要分析数据的逻辑特性并且记录下来(由此,生成了关于元数据逻辑关系的数据,即数据的数据,我们一般把这个叫做元数据
举例
:OS的文件系统(通过目录结构、文件索引等机制优化文件的存储和检索效率。)
● 与数据库的关系
数据库技术主要是研究数据的逻辑优化内容。
- 比如对数据结构的改变:关系表、索引、键值对
- 存储策略上, 顺序写入技术(Sequential Write),即沿着磁道写入数据,速率取决于磁盘的转速。
相关视频:【这应该是B站讲的最好的MySQL日志机制实战教程,2小时深入Innodb存储引擎底层原理、SQL底层!】 https://www.bilibili.com/video/BV1s7DHYBEfR/?share_source=copy_web&vd_source=4e01781ce46b7eace184a7de62dfc2f4
🌿总结
- 解决问题抽象建模:对信息流的处理
- 信息流的处理:输入——>处理——>输出
- 对信息流的处理效率表示结点处理该问题的能力,同时总体效率受各部分效率影响
- 所以结点处理问题能力的增强就是提升对问题的信息流的处理效率
- 即提升信息流处理各步骤的效率
- 在计算机中信息以二进制数据表示,所以提升结点处理问题的能力就是提升对问题数据流(信息)处理能力,即提升对数据流各步骤的处理效率。
- PC中对数据流处理的步骤(输入/处理/输出)的负责硬件是CPU、存储器、输入输出设备
- 其中,输入输出效率主要与存储器有关,所以,优化数据输入/输出步骤的效率就是优化存储器数据的输入/输出效率
- 优化思路分为物理优化与逻辑优化
- 其中,数据库技术就是研究存储器中数据的逻辑优化。
🌿注意
数据的逻辑优化是一门独立且复杂的学科,涉及数据结构与组织、数据存储策略、数据访问与查询优化、数据一致性与完整性、数据安全与隐私等多个研究方向。通过优化数据的逻辑结构和访问方式,可以显著提高数据处理的效率和性能。
本质是:将总资源按照某种方式分类并记录这种分类方式对应的各个数据集合信息,以此实现根据分类信息缩小目标资源的查找方式。从而提高搜索效率。
各个领域都会用到,不只是计算机存储器的优化。
- 举例:档案的分类管理,不涉及计算机,但是用到了数据逻辑优化知识。
- 超市货架分类、快递/图书馆资源管理分类(
对物质资源的分类,本质是先抽象提取了物质资源的信息作为原信息集合,在对这一抽象原信息集合进行逻辑处理
)
- 这体现了人类对现实世界的建模思想(物质是物质,认为赋予抽象意义)