Python----神经网络发(神经网络发展历程)
年份 | 网络名称 | 突出点 | 主要成就 | 论文地址 |
---|---|---|---|---|
1989 | LeNet | 首个现代卷积神经网络(CNN),引入卷积、池化操作 | 手写数字识别先驱,奠定CNN基础 | MNIST Demos on Yann LeCun's website |
2012 | AlexNet | 首次大规模使用深度卷积神经网络进行图像识别;引入ReLU、Dropout、重叠池化、GPU加速;大规模数据增强。 | 2012年ImageNet图像识别竞赛冠军,Top-5错误率远低于第二名,标志着深度学习在计算机视觉领域的崛起。 | ImageNet Classification with Deep Convolutional Neural Networks |
2014 | VGGNet | 探索了网络深度对性能的影响;提出使用小尺寸(3x3)的卷积核进行堆叠。 | 证明了更深的网络结构可以带来更好的性能,在ImageNet 2014竞赛中表现出色。 | [1409.1556] Very Deep Convolutional Networks for Large-Scale Image Recognition |
2014 | GoogLeNet (V1) | 引入Inception模块,并行使用不同尺寸的卷积核和池化层提取多尺度特征;使用1x1卷积核进行降维;引入辅助分类器。 | 2014年ImageNet图像识别竞赛冠军,在提升性能的同时显著减少了参数量和计算复杂度。 | [1409.4842] Going Deeper with Convolutions |
2015 | ResNet | 提出残差连接(Residual Connection),解决了深层网络训练中的梯度消失和网络退化问题,使得训练更深的网络成为可能。 | 2015年ImageNet图像识别竞赛冠军,首次成功训练了非常深的网络(超过100层),解决了深层网络训练的难题。 | [1512.03385] Deep Residual Learning for Image Recognition |
2015 | Inception V3 | 在GoogLeNet的基础上进行改进,引入更小的卷积核分解 (factorized convolutions),辅助分类器 (auxiliary classifiers),更有效的下采样策略,以及批归一化 (Batch Normalization) 等,以进一步提升性能和效率。 | 在ImageNet分类任务上取得了比 Inception V1 更好的性能,同时保持了较高的计算效率。这些优化为后续的网络设计提供了新的思路。 | [1512.03385] Deep Residual Learning for Image Recognition |
2016 | ResNeXt | 在ResNet的基础上引入分组卷积(Grouped Convolution)的思想,引入基数(Cardinality)的概念,在不显著增加参数量的情况下提升性能。 | 在ResNet的基础上进一步提升了性能。 | [1611.05431] Aggregated Residual Transformations for Deep Neural Networks |
2016 | Inception V4 | 在 Inception V3 的基础上进一步加深了网络,并结合了残差连接的思想 (与 ResNet 团队合作),提出了Inception-ResNet 结构,旨在进一步提升性能。Inception V4 本身也采用了更深更复杂的 Inception 模块。 | 在 ImageNet 分类任务上取得了当时领先的性能。Inception-ResNet 的提出证明了 Inception 结构与残差连接结合的有效性。 | [1602.07261] Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning |
2017 | MobileNetV1 | 首次提出深度可分离卷积(Depthwise Separable Convolution),将标准卷积分解为深度卷积和逐点卷积,大幅减少了模型参数量和计算量,专注于设计高效的轻量级网络,适用于移动设备和嵌入式系统。 | 在大幅减少模型尺寸和计算成本的同时,在ImageNet等数据集上取得了与当时一些更深更复杂的网络(如VGG)相媲美的性能,为后续轻量级网络的研究奠定了基础。 | [1704.04861] MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications |
2017 | SENet | 提出了Squeeze-and-Excitation (SE)模块,可以自适应地学习特征通道的重要性,并进行加权,提升了网络的表示能力。 | 提升了现有卷积神经网络的性能,在ImageNet 2017分类竞赛中取得第一名。 | [1707.07012] Learning Transferable Architectures for Scalable Image Recognition |
2017 | DenseNet | 提出了密集连接(Dense Connection),每一层的特征都直接连接到后续的所有层,最大化了特征的重用,并有助于缓解梯度消失问题。 | 在参数效率和特征传播方面表现出色。 | [1608.06993] Densely Connected Convolutional Networks |
2018 | MobileNetV2 | 引入反向残差块(Inverted Residual Block)和线性瓶颈层(Linear Bottleneck),进一步提升了轻量级网络的效率和性能。 | 在保持较低计算成本的同时,相较于 MobileNetV1 进一步提升了准确率。 | [1801.04381] MobileNetV2: Inverted Residuals and Linear Bottlenecks |
2018 | NASNet | 利用神经架构搜索(NAS)技术自动发现了高性能的网络结构,展示了自动化网络设计的潜力。 | 发现了比人工设计的网络结构更优的网络结构。 | [1707.07012] Learning Transferable Architectures for Scalable Image Recognition |
2019 | MobileNetV3 | 结合了神经架构搜索(NAS)来优化网络结构,并引入了h-swish激活函数等新的高效操作,进一步提升了在移动设备上的性能和效率。 | 在不同的资源限制下提供了多个性能和效率不同的模型变体,进一步提升了轻量级网络的SOTA水平。 | [1905.02244] Searching for MobileNetV3 |
2019 | EfficientNet | 提出了一种系统地缩放网络宽度、深度和分辨率的方法(复合缩放),在性能和效率之间取得了更好的平衡。 | 在ImageNet上取得了当时最高的top-1准确率,并在参数量和计算量方面更加高效。 | [1905.11946] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks |
2020 | Vision Transformer (ViT) | 首次成功将Transformer架构应用于图像识别任务,将图像分割成Patch序列输入Transformer编码器;利用自注意力机制捕获长距离依赖。 | 在大规模数据集上取得了与先进CNN模型相当甚至更好的性能,开创了Transformer在视觉领域的新方向。 | [2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale |
2021 | DeiT | 在ViT的基础上,提出了新的训练策略(例如知识蒸馏),使得Transformer在更少的数据下也能取得优异的性能。 | 降低了Transformer对大规模数据的依赖,使其在中小规模数据集上也能有效训练。 | [2012.12877] Training data-efficient image transformers & distillation through attention |
1989-LeNet-5网络
2012-AlexNet网络
2014-VggNet网络
2014-GoogLeNet网络
2015-ResNet网络
2017-MobileNetV1网络
2018-MobileNetV2网络
2019-MobileNetV3网络