02117 信息组织【第六章】
一、数字信息资源概述(P159)
原始内容
- 数字信息资源:用户可通过计算机本地或远程读取、使用,以数字形式存储在光、磁载体上的图像、文字、声音、视频等信息。如电子邮件、专题讨论和论坛、电子布告板新闻、电子期刊等。
分类方式:
(1) 按数字信息资源的分布来分类:现实资源和虚拟资源
(2) 按数字信息资源加工制作者来分类:出版机构出版的电子出版物、图书信息机构制作的数据库、网络公司及社会团体制作的数据库
(3) 按用户存取的方式分类:检索型;邮件型;揭示型(如:网络新闻);广播型;电话型(如:用户进行的网上咨询) - 数字信息资源的特征:
数字信息资源对系统的依赖性;信息与实体的可分离性;数字信息资源的非直接可读性;数字信息结构的复杂性;数字信息资源的共享性;数字信息的易更改性;数字信息的质量参差不齐,缺乏必要的控制;数字信息的跨国界数据流动和传递;数字信息的不安全性。
记忆重点
3. 核心定义:数字形式存储(光/磁载体)+ 计算机可读取(本地/远程)+ 多类型(图/文/声/视);
4. 分类(表格对比,避免记混):
分类依据 具体类型 关键示例/说明
分布 现实资源、虚拟资源 无示例,记名称即可
加工制作者 出版机构电子出版物、图书机构数据库、网络/社会团体数据库 按“制作方”划分,3类
存取方式 检索型、邮件型、揭示型、广播型、电话型 揭示型=网络新闻;电话型=网上咨询
5. 特征(9点,记关键词,避免长句):系统依赖、实体分离、非直接可读、结构复杂、共享、易改、质量不均、跨国流动、不安全(选择题直接对应选项,简答题罗列关键词即可)。
二、Metadata
原始内容
6. 内涵:描述资料的资料,可用来协助对网络数字信息资源的辨识、描述、指示其位置的任何资料。
7. 分类:
○ 管理元数据:对源数据及其中内容、数据仓库主题、数据转换及各种操作信息的描述;
○ 用户元数据:帮助用户查询和理解信息,了解数据仓库中的数据和组织。
8. 特点(简答题★★★):
(1) 描述性:这是所有元数据最本质的特征。
(2) 动态性:元数据不是静止不变的,它随着所描述的对象的变化而变化。
(3) 多样性:指元数据的类型多样。
(4) 复杂性:强制性的元数据与选择性的元数据共存。
(5) 多层次性:一方面是由元数据所描述对象的多层次决定的,另一方面,是由元数据使用对象的多层次性决定的。
(6) 支撑性。
记忆重点
9. 内涵核心:“描述资料的资料”+ 三大作用(辨识、描述、指示位置);
10. 分类(2类,记“对象+功能”):
○ 管理元数据:面向“数据/操作”(描述源数据、转换等);
○ 用户元数据:面向“用户”(帮查询、理解);
11. 特点(6点,记“关键词+本质特征”):
○ 描述性(最本质)、动态性(随对象变)、多样性(类型多)、复杂性(强制+选择共存)、多层次性(对象/用户多层次)、支撑性(无额外解释,记名称)。
三、Dublin Core(都柏林核心)
原始内容
12. 都柏林核心元素集(Dublin Core Element Set),简称都柏林核心(DC),是目前比较成熟的元数据之一。
13. Dublin Core 的成果:
(1) 确立 Dublin Core 的15个核心元素;
(2) 确定了附加的 Dublin Core 限定词—达塔拉限定词;
(3) 采用HTML和RDF作为主要的语法格式。
14. Dublin Core 结构(简答题/选择题★★★):
由15个核心元素组成,分三类:
(1) 内容字段(7个):题名(Title)、主题词和关键词(Subject)、内容描述(Description)、资源类型(Type)、关联(Relation)、资料来源(Source)、内容范围(Coverage)
(2) 知识产权字段(4个):作者或创造者(Creator)、出版者(Publisher)、其他责任者(Contributor)、权限管理(Rights)
(3) 例示字段(4个):日期(Date)、资源格式(Format)、资源标识(Identifier)、语言(Language)
15. Dublin Core 的功能(简答题★★★):
(1) 查找:设计目的是支持数字信息资源的发现,元素是查找的重要依据。
(2) 识别:不是明显目标(不侧重识别特定资源、区别相似资源)。
(3) 选择:不是意图(不帮用户在检索结果中选)。
(4) 获取:是目的之一,“识别符”的准确地址支持资源获取。
16. DC的主要优点(简答题★★★):
(1) 简易性:仅15个基本字段,语义易理解,适合各类人员。
(2) 可扩展性:格式弹性大,可按需增加著录信息(特定目的/学科)。
(3) 著录的全面性:概括网络资源主要特征,涵盖检索点、说明性信息。
(4) 与机读目录接轨:可与标准机读目录转换。
(5) 广泛的适用性:适用于地图、绘画、生物标本、历史文物等。
17. DC的缺点:
(1) 字段定义上的模糊性。
(2) 限定词的制定使DC变得复杂化。
(3) 格式不稳定。
记忆重点
18. 核心成果(3点,选择题高频):15个核心元素、达塔拉限定词、语法格式(HTML+RDF);
19. 结构(15元素分3类,必背数量+具体元素,表格清晰):
字段类型 数量 核心元素(英文+中文)
内容字段 7个 Title(题名)、Subject(主题/关键词)、Description(内容描述)、Type(资源类型)、Relation(关联)、Source(资料来源)、Coverage(内容范围)
知识产权字段 4个 Creator(作者/创造者)、Publisher(出版者)、Contributor(其他责任者)、Rights(权限管理)
例示字段 4个 Date(日期)、Format(资源格式)、Identifier(资源标识)、Language(语言)
20. 功能(4点,记“核心目的+非目的”):
○ 核心目的:查找、获取;
○ 非目的:识别、选择(明确“不是明显目标/意图”,避免混淆);
21. 优点(5点,记关键词):简易(15字段)、可扩展(加信息)、全面(盖特征)、接轨机读目录、适用广(多类型资源);
22. 缺点(3点,记关键词):定义模糊、限定词复杂、格式不稳定。
三、RDF—元数据的“容器”
原始内容
- 概念:
Resource Description Framework(资源描述框架)。
功能是利用当前存在的多种元数据标准来描述各种网络资源,形成人机可读,并可以由计算机自动处理的文件。
RDF的目标:建立一个供多种元数据标准共存的框架。RDF可看作是一个元数据的“容器”,其关键是框架结构。
RDF框架由三个部分组成:RDF Data Model, RDF Schema 和 RDF Syntax。 - RDF Data Model:又称RDF数据模型,它包括了三个对象类型:资源;属性;称述。
- RDF Schema的具体作用:
○ 定义资源的属性类、语法、属性值的类型;
○ 定义资源类以及属性所应用到的资源类;
○ 声明由一些机构定义的元数据标准的属性类。
记忆重点
- 核心定位:RDF是元数据的“容器”,目标是多元数据标准共存;
- 框架三部分(必记,选择题高频):RDF Data Model(数据模型)、RDF Schema(模式)、RDF Syntax(语法);
- 数据模型三对象:资源、属性、称述(直接记名称,不扩展);
- Schema作用(3点,记关键词):定义属性类/语法/值类型、定义资源类及属性适用类、声明机构元数据属性类。
四、搜索引擎
原始内容
- 概念:以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。
- 分类:按信息收集方法和服务提供方式的不同分为:
○ 目录式搜索引擎(代表是Yahoo、LookSmart);
○ 机器人搜索引擎;
○ 元搜索引擎。 - 机器人搜索引擎的工作原理与基本构成(P173,简答题/选择题需看书)。
- 机器人搜索引擎的基本构成:搜索器、索引器、检索器和用户接口等四个部分组成。
- 搜索引擎的发展趋势:
向垂直化专业领域搜索;向智能化搜索;向关联式的综合搜索发展;向个性化搜索;向结构化搜索;向本土化搜索发展;向多媒体搜索。
记忆重点
- 核心功能:搜集信息+处理+提供检索服务(信息导航);
- 分类(记“类型+代表”,避免混淆):
类型 代表实例 核心特征
目录式搜索引擎 Yahoo、LookSmart 人工或半自动整理目录
机器人搜索引擎 - 自动爬取信息
元搜索引擎 - 聚合多个搜索引擎结果 - 机器人搜索引擎构成(4部分,必记):搜索器、索引器、检索器、用户接口;
- 发展趋势(7点,记关键词):垂直化、智能化、关联综合、个性化、结构化、本土化、多媒体(简答题直接罗列)。
五、Z39.50协议
原始内容
- 简介:它是应用层的协议,是关于信息检索的协议,包括书目信息、全文信息、商业信息等。它把互联的双方分别称为请求方和服务方,当检索命令和检索方法各不相同的双方,不能直接检索和使用对方数据库时,则需要通过Z39.50为双方提供服务。
- Z39.50协议的内涵(4点):
(1) Z39.50协议是一种网络协议,由一套用来控制和管理计算机之间通信过程中所涉及的格式和进程的规则所组成。
(2) Z39.50协议是一种开放网络平台上的应用层协议;
(3) Z39.50协议是一种基于网络的信息检索标准。
(4) Z39.50协议是符合客户机/服务器(C/S)模式。
记忆重点
- 核心属性:应用层信息检索协议,双方角色(请求方、服务方);
- 内涵(4点,记关键词):
○ 网络协议(含通信格式/进程规则);
○ 开放平台应用层协议;
○ 网络信息检索标准;
○ 符合C/S模式。