知识表示与处理1
知识的特性
1.相对正确性 不同框架不同理解,牛顿与爱因斯坦理论
“知识来源于人们对客观世界运动规律的正确认识,但虽然都是正确认知,在客观环 境变化或不同条件下,知识的正确性就要接受检验,必要时需要对原有的知识加以 修正或补充”
2.知识的确定与不确定性 大概率的可能下午两点气温高
3.知识的发展性
可解释性?思维链
多视图学习?对同一组样本的不同特征描述方式。从文本内容、作者信息等不同视角
发展
1.语义网络
节点(可带有属性),边
LISP表示/图表示
LISP表示?一种以列表(list) 为核心数据结构的语言,程序和数据都用列表表示
1.三元组列表法
用 (关系 主体 客体) 形式表示知识。
例如:
(is-a 狗 哺乳动物)
(has-property 狗 四条腿)
(lives-in 狗 人类家庭)
可将多个三元组组成知识库列表,适合存储事实和简单查询。
2.属性-值列表法
以对象为中心,用 ((属性 . 值) ...) 形式组织。
例如:
(setq 狗
'((is-a . 哺乳动物)
(has-property . (四条腿 会叫))
(lives-in . 人类家庭)))
便于按对象访问属性,结构清晰。
3.帧式结构表示法
采用结构化方式,包含类、父类、槽、方法等。
例如:
(setq frame-狗
'(:class animal
:superclass 哺乳动物
:slots ((legs :value 4)
(sound :value "bark"))
:methods ((bark () (print "Woof!")))))
表达能力强,适合复杂知识建模和继承推理。
优点:表示自然,易于理解;结构化知识表示
2.产生式系统
if -then 结构 基于规则的
匹配代价高
3.框架系统
框架-槽slot-侧面facet
数据仓库?典型架构:
数据源层:
- 来自各种系统:关系数据库、日志文件、API、Excel 等。
ETL 层(Extract, Transform, Load):
- 抽取(Extract):从源系统获取数据。
- 转换(Transform):清洗、去重、格式统一、计算衍生字段。
- 加载(Load):将处理后的数据存入数据仓库。
数据存储层:
- 核心数据仓库(如 Snowflake、Redshift、Greenplum)
- 可能包含:ODS(操作数据存储)、DW(数据仓库)、DM(数据集市)
数据服务层:
- 提供接口供 BI 工具(如 Tableau、Power BI)、报表系统、机器学习平台使用。
全面,不够灵活,构建代价高
4.描述逻辑
精确,消除歧义
5.语义网
节点,弧,指针(解释)
RDFresource description framework
6.统计表示学习
实体间的隐式关系,表示为向量
自然语言中:word2vec,doc2vec
如何判断表示好坏
1.同样长度向量,表示的内容越多越好
2.准确率高,任务目标越优秀越好
3.后续任务越简单越好,自监督学习
分类
1.监督式表示学习
监督字典学习,多层感知机,神经网络
2.无监督
无监督字典学习,聚类,PCA,矩阵分解
表示学习优势
1.提升计算效率 降维,相似度计算等
2.缓解数据稀疏
3.异质信息融合
浅层特征学习kernal高维,深度特征学习
bert?双向,掩码,下一句预测,微调