A Logical Calculus of the Ideas Immanent in Nervous Activity(神经网络早期的M-P模型)
哈喽,各位朋友大家上午好!今天我们要一起啃下这篇神经科学与逻辑学交叉领域的奠基之作——McCulloch和Pitts的《A Logical Calculus of the Ideas Immanent in Nervous Activity》。
这篇论文篇幅不长,但每一个定理、每一个假设都像精密齿轮,共同构成了“神经活动可被逻辑描述”的核心框架。从最基础的假设讲起,逐个解析所有定理,对于大家关注的定理部分,会做深入拆解。
基本信息
- 论文标题: A LOGICAL CALCULUS OF THE IDEAS IMMANENT IN NERVOUS ACTIVITY*
- 作者与合著者: WARREN S. MCCULLOCH(美国伊利诺伊大学医学院、伊利诺伊神经精神病学研究所精神病学系)、WALTER PITTS(美国芝加哥大学)
- 发表期刊 / 会议:最初发表于《Bulletin of Mathematical Biophysics》第 5 卷,第 115-133 页,后重印于《Bulletin of Mathematical Biology》第 52 卷第 1/2 期,第 99-115 页
- 发表时间: 1943 年(最初发表),1990 年(重印)
- DOI/URL: https://doi.org/10.1007/BF02478259
一、引言:神经活动与逻辑的“相遇”
论文开篇就点明了核心洞察:神经元的“全或无”特性(要么兴奋,要么不兴奋),使得神经事件及其关系可以用命题逻辑处理,好比开关的“通”与“断”对应逻辑的“真”与“假”,为整个理论埋下了伏笔。
同时,简单网络可用基础逻辑描述,含循环的复杂网络则需要更复杂的逻辑工具;反之,满足特定条件的逻辑表达式,总能找到对应的神经网络。
二、神经生理学的核心假设:理论的“地基”
要建立逻辑模型,必须先明确神经元的“行为规则”。作者提出了5个物理假设,这些是所有定理的前提:
- 全或无特性:神经元活动是“非此即彼”的过程,没有中间状态,对应命题的二值性(真/假)。
- 固定阈值:激发神经元需要“潜伏叠加期”(<0.25ms)内达到一定数量的兴奋性突触激活,这个数量不随历史或位置变化。比如,神经元A的阈值是3,就必须在0.25ms内有3个兴奋性突触同时被激活才能兴奋。
- 突触延迟是唯一显著延迟:神经元内部的传导延迟可忽略,只有突触处有>0.5ms的延迟。这让时间可以被离散化为“突触延迟的整数倍”(t=0,1,2,…),方便用逻辑符号描述时间关系。
- 抑制性突触的绝对作用:只要有抑制性突触被激活,神经元就绝对不会兴奋,对应逻辑中的“否定”(¬)——抑制信号直接让命题为假。
- 网络结构不变:短期内不考虑学习导致的突触变化,后续会用“循环网络”模拟学习。
这些假设看似简化了真实神经生理(比如实际神经元的阈值可能变化),但正是这种抽象让逻辑建模成为可能。比如“突触延迟”的设定,使得时间可以被量化为离散的“步长”,为后续的“时间命题表达式”奠定了基础。
三、符号系统:神经活动的“逻辑语言”
要将神经活动转化为逻辑,必须定义一套符号系统。作者借鉴了Carnap、罗素和怀特海的符号,构建了专属语言:
- 神经元动作符号:Ni(t)N_i(t)Ni(t)表示“神经元cic_ici在时间t(t为突触延迟的整数倍)被激发”。比如N1(2)N_1(2)N1(2)意为“神经元1在第2个突触延迟时刻兴奋”。
- 时间算子S:S(P)(t)S(P)(t)S(P)(t)等价于P(t−1)P(t-1)P(t−1),表示“前一个时间步的P状态”。比如S(N2)(t)S(N_2)(t)S(N2)(t)即N2(t−1)N_2(t-1)N2(t−1),描述了“神经元2在前一时刻的兴奋状态”。
- 逻辑连接符:使用∨(析取,“或”)、∧(合取,“与”)、¬(否定,“非”)表示命题关系,与传统逻辑一致。
该符号系统是“神经活动→逻辑表达式”的翻译工具。比如,“神经元3在t时刻兴奋,当且仅当神经元1在t-1时刻兴奋,或神经元2在t-3时刻兴奋且t-2时刻未兴奋”,可写成:
N3(t)≡N1(t−1)∨(N2(t−3)∧¬N2(t−2))N_3(t) \equiv N_1(t-1) \lor (N_2(t-3) \land \neg N_2(t-2))N3(t)≡N1(t−1)∨(N2(t−3)∧¬N2(t−2))。
在论文中对应于冷热感知错觉的例子,直观展示了符号系统的用法。
四、时间命题表达式(TPE):可被神经网络实现的逻辑
并非所有逻辑表达式都能对应神经活动,作者定义了“时间命题表达式(TPE)”来框定范围,其递归定义如下:
- 基础形式:单个谓词变量的时间函数p(z1)p(z_1)p(z1)(如Ni(t)N_i(t)Ni(t))是TPE。
- 复合形式:若S1S_1S1和S2S_2S2是含相同自由变量的TPE,则S(S1)S(S_1)S(S1)(前一时间的S1S_1S1)、S1∨S2S_1∨S_2S1∨S2、S1∧S2S_1∧S_2S1∧S2、S1∧¬S2S_1∧¬S_2S1∧¬S2也是TPE。
即TPE是“能被神经网络实现的逻辑表达式”,其核心是只能涉及过去或现在的状态,不能预测未来,这与神经活动的因果性一致。
五、零阶网络(无循环)的定理:简单逻辑与网络的等价性
零阶网络是指没有“循环路径”(如A→B→C→A)的网络,其行为最容易用TPE描述,在论文用3个定理建立了两者的双向关系。
定理1:零阶网络的行为可用TPE描述
含义:任何无循环的神经网络,其每个神经元的兴奋规则都能写成TPE。
证明思路:
- 对零阶网络中的神经元cic_ici,设其阈值为βi\beta_iβi,有ppp个兴奋性突触来自ci1,...,cipc_{i1},...,c_{ip}ci1,...,cip,qqq个抑制性突触来自cj1,...,cjqc_{j1},...,c_{jq}cj1,...,cjq。
- 其兴奋条件为:
- ① 所有抑制性神经元在t-1时刻未兴奋(∏m=1q¬Njm(t−1)\prod_{m=1}^q \neg N_{jm}(t-1)∏m=1q¬Njm(t−1));
- ② 兴奋性神经元的某个子集的突触数量之和超过阈值(∑α∈κi∏s∈αNis(t−1)\sum_{\alpha \in \kappa_i} \prod_{s \in \alpha} N_{is}(t-1)∑α∈κi∏s∈αNis(t−1),其中κi\kappa_iκi是满足条件的子集集合)。
- 结合时间算子S,可写成:Ni(t)≡S{∏m=1q¬Njm(t)∧∑α∈κi∏s∈αNis(t)}N_i(t) \equiv S\left\{ \prod_{m=1}^q \neg N_{jm}(t) \land \sum_{\alpha \in \kappa_i} \prod_{s \in \alpha} N_{is}(t) \right\}Ni(t)≡S{m=1∏q¬Njm(t)∧α∈κi∑s∈α∏Nis(t)}
- 由于网络无循环,可通过“替换法”逐步消除非外周神经元(将其表达式代入其他神经元的规则),最终所有神经元的活动都能用外周神经元的TPE表示。
例:一个简单的“与门”网络(神经元C的阈值为2,接收A和B的兴奋性突触),其规则为NC(t)≡S(NA(t)∧NB(t))N_C(t) \equiv S(N_A(t) ∧ N_B(t))NC(t)≡S(NA(t)∧NB(t)),显然是TPE。
定理2:任何TPE都能被零阶网络实现
含义:只要是TPE,就一定能设计出对应的无循环网络。
证明思路:
- 基础case:单个p(z1)p(z_1)p(z1)可由单个神经元实现(外周神经元)。
- 复合case:
- S(p1)S(p_1)S(p1):用一个神经元接收p1p_1p1的突触,延迟一个时间步输出(图1a)。
- p1∨p2p_1∨p_2p1∨p2:设计神经元,阈值为1,接收p1p_1p1和p2p_2p2的兴奋性突触(图1b)。
- p1∧p2p_1∧p_2p1∧p2:设计神经元,阈值为2,接收p1p_1p1和p2p_2p2的兴奋性突触(图1c)。
- p1∧¬p2p_1∧¬p_2p1∧¬p2:设计神经元,阈值为1,接收p1p_1p1的兴奋性突触和p2p_2p2的抑制性突触(图1d)。
- 通过归纳法,所有TPE都可由这些基础结构组合实现。
例:TPE“S(p1)∨(p2∧¬p3)S(p_1) ∨ (p_2 ∧ ¬p_3)S(p1)∨(p2∧¬p3)”可由“S(p1)S(p_1)S(p1)的网络”与“p2∧¬p3p_2 ∧ ¬p_3p2∧¬p3的网络”通过“或门”组合而成。
定理3:TPE的判定条件
含义:一个逻辑表达式是TPE,当且仅当它满足三个等价条件之一:
- 当所有 constituent p(z1−zz)p(z_1-zz)p(z1−zz) 为假时,表达式为假;
- 其真值表最后一行(所有输入为假)为“假”;
- 其希尔伯特析取范式中,没有仅由否定项组成的项。
证明思路:
- 必要性:TPE由基础形式通过∨、∧、¬和S组合而成,当所有输入为假时,复合表达式必为假(如S1∨S2S_1∨S_2S1∨S2在S1S_1S1和S2S_2S2都假时为假)。
- 充分性:若表达式满足条件3,可写成(S1∧...∧Sm)∧¬(Sm+1∨...∨Sn)(S_1∧...∧S_m) ∧ ¬(S_{m+1}∨...∨S_n)(S1∧...∧Sm)∧¬(Sm+1∨...∨Sn),显然是TPE。
例:“p∨¬qp∨¬qp∨¬q”不是TPE(当p和q都假时,表达式为真,违反条件1);“p∧qp∧qp∧q”是TPE(p和q都假时为假)。
六、等价性定理:不同神经机制的“逻辑等效”
神经生理存在多种可能机制(如抑制的方式、学习的实现),作者证明了它们在“扩展意义上等价”——即一种机制能实现的功能,另一种也能实现(可能时间不同)。
定理4:相对抑制与绝对抑制等价
- 相对抑制:抑制性突触提高神经元阈值(如原本需3个兴奋,1个抑制后需4个)。
- 绝对抑制:抑制性突触直接阻止神经元兴奋(只要有1个抑制,无论多少兴奋都无效)。
- 等价性证明:
- 相对抑制的规则可写成TPE(如“兴奋数-抑制数>阈值”),而TPE可由零阶网络实现(定理2),其中绝对抑制可模拟相对抑制的效果(如用多个抑制性突触抵消兴奋性输入)。
- 反之,绝对抑制也可通过相对抑制模拟(如设置足够高的阈值,让抑制后永远无法达到)。
定理5:消退与绝对抑制等价
- 消退:神经元兴奋后,阈值在一段时间内升高(如兴奋后j个时间步,阈值+ bjb_jbj)。
- 等价性证明:
- 用M个循环网络T1,...,TM\mathscr{T}_1,...,\mathscr{T}_MT1,...,TM(分别含1,…,M个神经元)模拟消退:神经元cic_ici兴奋后,激活这些循环,每个循环在j个时间步后通过bjb_jbj个抑制性突触作用于cic_ici,等效于阈值升高。
- 反之,绝对抑制也可通过消退模拟(如设置足够大的bjb_jbj)。
定理6:易化与时间总和可被空间总和替代
- 易化/时间总和:神经元对时间上分散的兴奋(如t-2和t-1时刻的兴奋)进行叠加。
- 等价性证明:
- 引入延迟链(含不同数量突触的路径),将时间上的兴奋转化为空间上的同步兴奋(如t-2的兴奋通过2个突触延迟,t-1的兴奋通过1个突触延迟,最终在t时刻同步到达),从而用空间总和模拟时间总和。
定理7:可改变的突触(学习)可被循环替代
- 可改变的突触:原本无效的突触,在“神经元兴奋且突触同时激活”后变为有效。
- 等价性证明:
- 用循环网络模拟突触变化:当神经元cic_ici兴奋且突触前神经元cjc_jcj激活时,激活一个循环路径,使cjc_jcj的信号持续作用于cic_ici,等效于突触变为有效。
七、高阶网络(含循环)的定理:处理“记忆”与递归
当网络存在循环(如A→B→A),神经元活动会依赖“历史状态”(记忆),其行为需用递归函数描述。
定理8:循环网络的解可通过递归表达式描述
含义:含循环的网络(阶数p)的行为,可通过含递归的表达式描述,其中神经元活动依赖于自身或其他神经元的过去状态(可能是任意早的过去)。
证明思路:
- 设循环集为c1,...,cpc_1,...,c_pc1,...,cp,其活动满足Ni(t)≡Pri[Sni1N1(t),...,SnipNp(t)]N_i(t) \equiv Pr_i[S^{n_{i1}}N_1(t),...,S^{n_{ip}}N_p(t)]Ni(t)≡Pri[Sni1N1(t),...,SnipNp(t)](PriPr_iPri为含外周输入的表达式)。
- 通过反复代入,可将表达式转化为依赖SnNj(t)S^nN_j(t)SnNj(t)(n为nijn_{ij}nij的最小公倍数)的形式,再转化为希尔伯特析取范式,最终用递归函数表示为:
Ni(t)≡(Eϕ)(x)t−1⋅ϕ(x)≤2p⋅ϕ(t)=i⋅P[ϕ(x+1),ϕ(x),Nϕ(0)(0)]N_i(t) \equiv (E\phi)(x)_{t-1} \cdot \phi(x) \le 2^p \cdot \phi(t)=i \cdot P[\phi(x+1), \phi(x), N_{\phi(0)}(0)]Ni(t)≡(Eϕ)(x)t−1⋅ϕ(x)≤2p⋅ϕ(t)=i⋅P[ϕ(x+1),ϕ(x),Nϕ(0)(0)]。
其中ϕ\phiϕ是描述历史状态序列的函数,体现了“记忆”的作用。
定理9:可实现类(prehensible classes)的判定条件
含义:一个类的函数能被神经网络实现,当且仅当它满足特定的递归条件(涉及逻辑运算和时间算子的封闭性)。
证明思路:
- 基于前面的符号和定理,可实现类需对逻辑运算(¬、∧、∨)和时间算子S封闭,且能通过有限步骤递归定义。
定理10:集合K的所有成员均可实现
- 集合K的定义:
- 任何TPE,以及用K中成员替换TPE的变元后仍属于K;
- 若Pr1(z1)∈KPr_1(z_1)\in KPr1(z1)∈K,则(z2)z1Pr1(z2)(z_2)_{z_1}Pr_1(z_2)(z2)z1Pr1(z2)(全称量词)、(Ez2)z1Pr1(z2)(Ez_2)_{z_1}Pr_1(z_2)(Ez2)z1Pr1(z2)(存在量词)、Cmn(z1)C_{mn}(z_1)Cmn(z1)(模n同余m)也属于K。
- 证明:通过归纳法,K中的成员均可通过循环网络实现(如用循环网络实现量词和模运算)。
八、神经网络与图灵机的等价性
论文最后指出:神经网络的计算能力与图灵机等价。
- 任何图灵机能计算的数,配备“纸带、扫描仪、效应器”的神经网络都能计算;
- 神经网络能计算的数,图灵机也能计算;
- 含循环的神经网络可在无纸带时计算部分数,但范围不超过图灵机。
这一结论将神经活动与“可计算性”理论绑定,为“认知即计算”的思想提供了早期依据。
九、研究思路总结
该论文的研究思路堪称“从现象到理论”的典范,可拆解为四步:
- 现象抽象:从神经元“全或无”“突触延迟”等特性中,提炼出与二值逻辑的相似性,将神经活动映射为命题。
- 符号建模:定义Ni(t)N_i(t)Ni(t)、S算子等符号,构建“神经活动→逻辑表达式”的翻译系统,明确TPE的范围。
- 双向验证:
- 正向:证明零阶网络的行为能被TPE描述(定理1),高阶网络的行为能被递归表达式描述(定理8);
- 反向:证明TPE和更复杂的表达式(集合K)能被对应网络实现(定理2、10)。
- 等价扩展:证明不同神经机制(抑制、消退、学习等)在逻辑功能上等价,拓宽理论的适用范围(定理4-7)。
该“观察→抽象→建模→验证→扩展”的框架体现了跨学科研究的核心方法论。其核心观点在于:面对复杂的生物系统,研究者无需在初始阶段过度关注细节,而应通过合理的抽象化过程提取关键规律,进而运用逻辑与数学工具构建具有普适性的理论模型。本研究的学术价值不仅体现在为神经网络奠定了理论基础,更在于通过严谨的逻辑推演揭示了生命现象的内在机制——此类研究范式可为多领域学术探索提供方法论借鉴。