笔记记录
层次
全连接层
卷积层
池化层
批量规范化层
激活函数
丢弃层
经典模型
LeNet
AlexNet
VGG
Nin
GoogleNet
ResNet
DenseNet
神经网络层的主要类别
"基础结构层": ["全连接层", "卷积层", "池化层"],"序列处理层": ["RNN", "LSTM", "GRU", "Transformer"],"归一化层": ["BatchNorm", "LayerNorm", "InstanceNorm"],"正则化层": ["Dropout", "DropPath"],"注意力机制": ["自注意力", "交叉注意力", "多头注意力"],"嵌入层": ["词嵌入", "位置编码"],"激活函数": ["ReLU", "Sigmoid", "Tanh", "Softmax"],"特殊连接": ["残差连接", "跳跃连接"],"采样层": ["上采样", "下采样", "转置卷积"]
神经网络经典架构时间线
"2012": ["AlexNet"], "2014": ["VGG", "GoogLeNet"], "2015": ["ResNet", "UNet"], "2016": ["DenseNet"], "2017": ["Transformer"], "2018": ["BERT", "GAN"], "2020": ["Vision Transformer"]
架构选择指南
| 图像分类 | ResNet, EfficientNet | 平衡精度和效率 |
|---|
| 目标检测 | YOLO, Faster R-CNN | 实时vs高精度 |
| 语义分割 | U-Net, DeepLab | 医学影像,街景分割 |
| 机器翻译 | Transformer, BERT | 当前最优选择 |
| 文本生成 | GPT系列 | 自回归语言模型 |
| 图像生成 | GAN, VAE, Diffusion | 高质量图像合成 |
| 语音识别 | WaveNet, Conformer | 时序信号处理 |
实用建议
- 1.从预训练开始:使用在ImageNet等大数据集上预训练的模型
- 2.迁移学习:针对特定任务微调最后几层
- 3.架构搜索:使用EfficientNet等自动搜索的架构
- 4.计算预算:根据可用资源选择合适规模的模型
- 5.持续学习:关注新架构的发展,如Swin Transformer、ConvNeXt等
目标检测算法发展历程
detection_algorithms = {"传统方法": ["Viola-Jones", "HOG+SVM"],"两阶段检测器": ["R-CNN系列", "SPP-Net", "Fast R-CNN", "Faster R-CNN", "Mask R-CNN"],"单阶段检测器": ["YOLO系列", "SSD", "RetinaNet", "CenterNet"],"Anchor-Free": ["CornerNet", "CenterNet", "FCOS"],"基于Transformer": ["DETR", "Deformable DETR", "Swin Transformer"],"实时检测器": ["YOLO系列", "SSD", "EfficientDet"]
}
实时检测器对比
| 算法 | 速度(FPS) | 精度(mAP) | 特点 | 适用场景 |
|---|
| YOLOv5s | 140+ | 37.2 | 极快,精度可接受 | 移动端,实时视频 |
| YOLOv8n | 160+ | 37.3 | 最新架构,平衡性好 | 通用实时检测 |
| SSD300 | 46 | 41.2 | 经典单阶段 | 中等精度需求 |
| RetinaNet | 12 | 40.8 | Focal Loss解决不平衡 | 高精度需求 |
| EfficientDet-D0 | 55 | 33.8 | 高效网络设计 | 资源受限环境 |
笔记记录