02117 信息组织【第五章】
一、自动标引技术
原始内容
自动标引的目的在于能让计算机从存储的信息中自动抽取主题词(主题标引)。
自动标引分为:自动抽词标引和自动赋词标引两种方式。
一个标引系统的有效性取决于:
(1) 标引的网罗度:表示标引词对文献各方面内容的表达和识别程度。网罗度越高,则越有利于提高检索的查全率。
(2) 标引的专指度:表示标引词对文献特定内容描述的详细程度。专指度越高,则越有利于提高检索的查准率。
记忆重点
- 核心目的:计算机自动抽主题词(主题标引);
- 两种方式:自动抽词标引、自动赋词标引(记名称,不扩展);
- 有效性指标(高频考点,记“指标-含义-对应检索率”):
○ 网罗度→覆盖文献内容程度→高→查全率高;
○ 专指度→描述特定内容详细程度→高→查准率高。
二、自动抽词标引
原始内容
- 自动抽词标引是由计算机自动从文本文中抽取词或短语来表达信息资源的主题内容。
根据自动抽词标引时所采用的标准:
○ 对频率法:
(1) 统计文本中非虚词出现的频率,将他们出现的频率排序;
(2) 排在最前面的词为“高频词”,可选作文献的“标引词”;
(3) 对英文词或短语选择时,只将词干存储起来,以代替许多不同的变体。
○ 相对频率法:当某个词或短语在某一文献资源中出现的频率高于它在整个数据库中出现的频率时,这个词或短语就可被选作标引词。这就是相对频率抽词法。不必使用停用词表。
○ 位置法:利用词语在文献中出现的位置来选择。
记忆重点
三种抽词方法(记“方法名称-核心逻辑-关键细节”):
方法 核心逻辑 关键细节
对频率法 统计非虚词频率→排序→选高频词 英文存“词干”(代变体)
相对频率法 文献内频率 > 数据库频率→选标引词 不用停用词表(必记)
位置法 按词语在文献中的“位置”选择 无额外细节,记标准即可
三、自动赋词标引与中文自动标引
原始内容
- 自动赋词标引:从某种形式的受控词表中选取词语来表达文献资源的主题内容。
○ 基于关联词表的自动赋词标引;
○ 基于中介词典的自动赋词标引。 - 中文自动标引的难度:
(1) 词的切分问题;
(2) 难以进行比较全面的语法分析;
(3) 汉语用词的灵活性;
(4) 主题词选择和隐含标引问题。 - 中文自动标引的主要方法分析:
(1) 词典标引法:主题词表法;关键词词典法;部件词典法;
(2) 切分标记法:表外用字;表内用字;条件用字;非用字;
(3) 语法分析标引法;
(4) 汉语自动标引专家系统;
(5) 单汉字标引法;
(6) 汉语自动标引方法评价。 - 智能化标引:
汉语的语法分析问题;汉语的语义学和语用学的研究;语用学的研究。
记忆重点
- 自动赋词标引:核心是“从受控词表选词”,两种方式(关联词表、中介词典);
- 中文标引难度(4点,记关键词):词切分、语法分析难、用词灵活、主题词选择+隐含标引;
- 中文标引主要方法(记“方法名称+子类型”,不展开细节):
○ 词典标引法(3子法:主题词表、关键词词典、部件词典);
○ 切分标记法(4用字:表外、表内、条件、非用字);
○ 其余4种(语法分析、专家系统、单汉字、方法评价)直接记名称; - 智能化标引:记3个研究方向(语法分析、语义学语用学、语用学)。
四、自动分类技术
原始内容
- 文本自动分类:利用计算机对文本集按照一定的分类体系或标准进行自动分类,属于同一类别的文本被标上相同的类别标记,为文本信息资源的检索提供系统化的解决方案。
- 自动分类:由计算机代替人工对文献或文本信息进行分类,赋予其分类标识,以描述文献主题内容的过程。
自动分类一般包括自动聚类、自动归类、类号的自动转换。 - 自动聚类:基于词语特征的自动聚类;基于非词语特征的自动聚类。
记忆重点
- 文本自动分类核心:按分类体系/标准自动分→同类标相同标记;
- 自动分类过程:计算机代人工→赋分类标识,包含3部分(必记):
○ 自动聚类、自动归类、类号自动转换; - 自动聚类:两种依据(词语特征、非词语特征)。
五、自动文摘技术
原始内容
- 自动文摘:利用计算机自动地从原始文摘中提取文摘。
文摘:准确全面地反映某一文献中心内容的简洁连贯的短文。
自动文摘有4种方法:自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘。 - 自动摘录的步骤:
(1) 计算词的权值;
(2) 计算句的权值;
(3) 对原文中的所有句子按权值高低降序排列,权值最高的若干句子被确定为文摘句;
(4) 将所有文摘句按照它们在原文中的出现顺序输出。 - 自动摘录的特征:词频;标题;位置;句法结构;线索词、指示性短语。
- 自动摘录的不足:不全面;不简洁;不连贯。
- 基于理解的自动文摘:以人工智能,特别是自然语言理解技术为基础而发展起来的文摘方法。
- 基于信息抽取的自动文摘:只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高。
记忆重点
- 核心定义:
○ 自动文摘=计算机自动提取;
○ 文摘=准确全面反映文献中心内容的短文; - 4种方法(必记名称):自动摘录、基于理解、信息抽取、基于结构;
- 自动摘录(高频考点,记“步骤+特征+不足”):
○ 步骤(4步):算词权→算句权→选高权句→按原文顺序输出;
○ 特征(5点):词频、标题、位置、句法结构、线索词/指示短语;
○ 不足(3点):不全面、不简洁、不连贯; - 其他两种方法(记核心技术):
○ 基于理解:AI+自然语言理解;
○ 基于信息抽取:分析有用片段→效率高、灵活。