大语言模型如何获得符号逻辑演绎能力?从频率范式到贝叶斯范式的转移
摘要:本文提出一种不通过加入符号逻辑演绎层,直接通过LLM发展逻辑能力的替代路径:考虑 用大量 由if ,then ,or 语句格式组成的现有现象规律和数学推导或数学定理的逻辑语料,进行反复迭代训练,包括训练IF中的条件组件识别,分类等,LLM可能会逐步获得真正的符号演绎逻辑能力。
关键词:Bayesian paradigm, LLM, symbolic logic, IF-THEN,
正文:
其实人类的逻辑就是一个IF THEN,OR语句链,树状图,本质上是语义的,逻辑的判据,机制系统来源于语义,那么从原理上LLM就也能获得至少达到人类水平的逻辑能力,因为原理是一样的。 幻觉问题,很简单把现象数据放到内存不参与显卡并行向量运算的动态生成,幻觉将大幅压缩,通过IF语句的反复训练,幻觉将进一步减少;内在逻辑一致性,对IF的判据组合的识别准确度,对IF和THEN之间的逻辑机制的理解度都会达到STEM科学学科的博士生水平。
IF THEN 训练集也不难获得,就是将 K12教材的内容全部分解解析为IF_THEN语句,然后扩展到更高层次教材,乃至把所有当前可靠的人类知识全部分解为IF THEN OR语句树状数据库,合成成训练集,训练LLM。
实际上,现有大多数符号运算库的本质也是先编译成IF_THEN,再符号化。那么可以发现另一个方向是将现有开源符号库在授权协议授权许可的范围内,反编译成IF-THEN 体系。
我相信这两个方向的不断训练,优化,再训练,3年内,可以让LLM大模型习得博士级逻辑能力。
在此基础上的由 IF-THEN语句库组成的训练集,是很容易转换为代码,这里就可以提出一个代码生成验证层,通过生成一套逻辑的等价代码,并通过代码能否跑通来验证逻辑自洽性。代码验证是强验证,可逼近达到工业级需求。
加入IF THEN训练集训练,就是使LLM从频率范式升级到贝叶斯范式。
初期,可考虑开发开发一个高度智能化的“知识转码”平台或智能化编译器,它能像工业设备一样,自动地、批量地将结构化和半结构化的知识(乃至自然语言描述的原理)转换成标准化的“IF-THEN-OR”逻辑树。相关工作不会那么容易,因为人类知识库语料中有大量定义不清晰,判据结构不精确的论述。
本文仅提供一份概念性蓝图。受限于资源,作者尚无力开展前期实验,但 AI 社区完全可借助低成本方案对该路径进行快速验证。
https://doi.org/10.5281/zenodo.17557840
