当前位置: 首页 > news >正文

实时图像与视频超分辨率:高效子像素卷积网络(ESPCN)解析

文章目录

  • 概要
  • 理论知识
  • 操作实操
    • 环境配置
    • 基础命令格式:
    • 效果示例

概要

超分辨率系列论文阅读卷1:Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network
PDF网址:https://arxiv.org/pdf/1609.05158
官网:https://github.com/pytorch/examples/tree/main/super_resolution
本人打包代码、模型百度云盘: https://pan.baidu.com/s/17jJ2mM5PHbVGl_fubr0XZA?pwd=m75r 提取码: m75r

理论知识

大多数深度超分方法(如SRCNN)在输入阶段通过双三次插值(Bicubic)将LR图像上采样至HR空间,随后进行特征提取。这一流程存在两大问题:
(1)计算冗余:HR空间的特征提取需要更大的卷积核和更多计算资源。
(2)信息缺失:插值操作未引入新信息,无法有效解决SR的“病态逆问题”。

ESPCN的核心创新

  1. 子像素卷积层(Sub-Pixel Convolution)
    设计思想:将上采样操作延迟至网络末端,直接在LR空间提取特征,最后通过子像素卷积实现高效上采样。
    具体实现:在LR空间通过多层卷积提取特征图,最后一层输出通道数为C×r×r (r为放大倍数),通过周期混洗(Periodic Shuffling)将特征图重新排列为HR图像(图1)。
    在这里插入图片描述
    图示:LR特征图经子像素卷积层直接生成HR图像,避免中间高成本计算。

  2. LR空间特征提取的优势
    计算效率:假设放大倍数为r,在LR空间处理的计算复杂度降低r×r倍。
    灵活学习:每个特征图独立学习上采样滤波器,比单一插值滤波器更适应复杂纹理。

操作实操

环境配置

下载预训练模型:espcn_x3.pth,云盘分享文件中已有。

模型位置

项目目录/
├── BLAH_BLAH/
│   ├──espcn_x3.pth

训练数据

| Dataset | Scale | Type | Link |
|---------|-------|------|------|
| 91-image | 3 | Train | [Download](https://www.dropbox.com/s/4mv1v4qfjo17zg3/91-image_x3.h5?dl=0) |
| Set5 | 3 | Eval | [Download](https://www.dropbox.com/s/9qlb94in1iqh6nf/Set5_x3.h5?dl=0) |

基础命令格式:

python train.py --train-file "BLAH_BLAH/91-image_x3.h5" \
                --eval-file "BLAH_BLAH/Set5_x3.h5" \
                --outputs-dir "BLAH_BLAH/outputs" \
                --scale 3 \
                --lr 1e-3 \
                --batch-size 16 \
                --num-epochs 200 \
                --num-workers 8 \
                --seed 123                
python test.py --weights-file "BLAH_BLAH/espcn_x3.pth" \
               --image-file "data/butterfly_GT.bmp" \
               --scale 3

云盘分享文件中,test.py可直接在pycharm中运行.

效果示例

在这里插入图片描述

相关文章:

  • CLIP论文学习
  • 985本硕,网络安全方向,走算法还是走开发?
  • 【会议预告】人工智能与材料国际学术会议
  • 沃丰科技大模型标杆案例 | 索尼大模型智能营销机器人建设实践
  • 短视频矩阵碰一碰发视频源码技术开发,支持OEM
  • bypy的依赖库版本问题
  • STL —— 洛谷字符串(string库)入门题(蓝桥杯题目训练)(一)
  • Ubuntu24安装MongoDB(解压版)
  • 使用docker-compose运行服务
  • IM聊天系统架构实现
  • day12_调度和可视化
  • org.mortbay.jetty和org.eclipse.jetty的区别
  • 论文笔记:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling
  • 罗格科技发布全球首款税务智能合规终端“罗拉DeepTax双引擎AI一体机”
  • Grok 3当前唯一跑分超过1400分的模型,Grok 2 和 Grok 3 如何使用
  • 燕云十六声武器心法搭配推荐 燕云十六声心法怎么选择
  • GitBash输出中文乱码处理
  • 【ISO 14229-1:2023 UDS诊断(ECU复位0x11服务)测试用例CAPL代码全解析⑬】
  • 青少年编程与数学 02-009 Django 5 Web 编程 21课题、部署
  • idea-gradle打包运行配置
  • 阿尔巴尼亚执政党连续第四次赢得议会选举,反对党此前雇用特朗普竞选经理
  • 秦洪看盘|交易新逻辑,银行股成A股稳定器
  • 周启鸣加盟同济大学,曾任香港浸会大学深圳研究院院长
  • 观众走入剧院空间,人艺之友一起“再造时光”
  • 加强战略矿产出口全链条管控工作部署会召开
  • 2025年上海好护士揭晓,上海护士五年增近两成达12.31万人