双反向传播训练光子神经网络(未做完)
双反向传播训练光子神经网络
1 论文核心概念
本文提出了一种名为"双反向传播(dual backpropagation)"的训练方法,用于端到端优化光子神经网络(PNNs)。该方法通过引入系统误差预测网络(SEPNs),结合物理系统与数值模型的协同训练,显著提升了在存在显著系统误差情况下的PNN性能,适用于衍射型和干涉型等多种光子神经网络结构。
本文的核心动机
光子神经网络(PNNs)因其高速度、低功耗的优势成为下一代AI计算的有力候选,但其发展面临一个核心挑战:“仿真到现实的鸿沟”(Simulation-to-Reality Gap)。具体而言,传统的训练方法在计算机中基于一个理想的、无误差的物理模型进行优化(称为“in silico”训练)。然而,当将训练好的模型直接部署到真实的物理硬件上时,由于制造缺陷、温度漂移、元件性能偏差等不可避免的系统误差(Systematic Errors),模型的实际性能会急剧下降甚至失效。现有的自适应训练(AT)和物理感知训练(PAT)等方法难以有效应对大规模PNN中的此类误差。
因此,本论文的核心动机是打破这一鸿沟。作者提出双反向传播(Dual Backpropagation)方法,旨在创建一种新的训练范式,能够在训练过程中直接感知、建模并补偿物理系统的系统误差。其根本目的是通过端到端的协同优化,得到一个对硬件不完美性具有鲁棒性的模型,实现“一次训练,直接部署”,无需复杂的额外校准,从而推动大规模PNN的实际应用。