当前位置：首页 > news >正文

三、CV_VGGnet

news 2025/7/18 9:09:49

三、VGGnet

1.VGG网络架构

VGG可以看成是加深版的AlexNet，整个网络由卷积层和全连接层叠加而成，和AlexNet不同的是，VGG中使用的都是小尺寸的卷积核（3 $×\times$ 3)。

VGGNet使用的全部都是3 $×\times$ 3的小卷积核和2 $×\times$ 2的池化核，通过不断加深网络来提升性能。VGG可通过重复使用简单的基础块来构建深度模型

在tf.keras中实现VGG模型，首先来实现VGG块，它的组成规律是：连续使用多个相同的填充为1、卷积核大小为3 $×\times$ 3的卷积层后接上一个步幅为2，窗口形状为2 $×\times$ 2的最大池化层。卷积层保持输入高的宽不变，而池化层则对其减半。我们使用vgg_block函数来实现这个基础的VGG块，它可以指定卷积层的数量num_convs和每层的卷积核个数num_filters.

# 定义VGG网络中的卷积块：卷积层的个数，卷积层中卷积核的个数
def vgg_block(num_convs, num_filters):blk = tf.keras.models.Squential()for _ in range(num_convs):blk.add(tf.keras.layers.Conv2D(num_filters, kernel_size = 3, padding = 'same', activation = 'relu'))# 卷积块最后一个是最大池化，窗口大小为2*2，步长为2blk.add(tf.keras.layers.MaxPool2D(pool_size = 2, strides = 2))return blk

VGG16网络有五个卷积块，前2块使用两个卷积层，而后三块使用三个卷积层。第一块的输出通道是64，之后每次对输出通道数翻倍，直到变为512

# 定义5个卷积块，指明每个卷积层个数及相应的卷积核个数
conv_arch = ((2, 64), (2, 128), (3, 256), (3, 512), (3, 512))

这个网络使用了13个卷积层和3个全连接层，通过指定conv_arch得到模型架构后构建VGG16

def vgg(conv_arch):# 构建序列模型net = tf.keras.models.Squential()# 根据conv_arch生成卷积部分for (num_convs, num_filters) in conv_arch:net.add(vgg_block(num_convs, num_filters))# 卷积块序列后添加全连接层net.add(tf.keras.models.Squential([tf.keras.layers.Flatten(),tf.keras.layers.Dense(4096, activation = 'relu'),tf.keras.layers.Dropout(0.5),tf.keras.layers.Dense(4096, activation = 'relu'),tf.keras.layers.Dropout(0.5),tf.keras.layers.Dense(10, activation = 'Softmax')]))return net# 网络实例化
net = vgg(conv_arch)

构造一个高宽均为224的单通道数据样本来看一下模型架构

X = tf.random.uniform((1, 224, 224, 1))
y = net(X)net.summary() # 查看网络形状

2.手写数字识别

读取数据时需将图像高和宽扩大到VggNet使用的图像高和宽224，这个通过tf.image.resize_with_pad来实现

（1）数据读取

获取数据并进行维度调整

import numpy as np
(train_images,  train_labels), (test_images, test_labels) = mnist.load_data()train_images = np.reshape(train_images, (train_images.shape[0], train_images.shape[1], train_images.shape[2], 1))
test_images = np.reshape(test_images, (test_images.shape[0], test_images.shape[1], test_images.shape[2], 1))

定义两个方法获取部分数据，并将图像调整为224*224大小，进行模型训练

# 定义两个样本随机抽取部分样本演示
# 获取训练集数据
def get_train(size):index = np.random.randint(0, np.shape(train_images)[0], size)resize_images = tf.image.resize_with_pad(train_images[index], 224, 224, )return resize_images.numpy() ,train_labels[index]# 获取测试集数据
def get_test(size):index = np.random.randint(0, np.shape(test_images)[0], size)resize_images = tf.image.resize_witn_pad(test_images[index], 224, 224, )return resize_images.numpy(), test_labels[index]

调用上述两个方法，获取参与模型训练及测试的数据集

train_images, train_labels = get_train(256)
test_images, test_labels = get_test(128)

（2）模型编译

# 指定优化器，损失函数和评价指标
optimizer = tf.keras.optimizers.SGD(learning_rate = 0.01, momentum = 0.0)net.compile(optimizer = optimizer,loss = 'sparse_categorical_crossentropy',metrics = ['accuracy']
)

（3）模型训练

net.fit(train_images, traim_labels, batch_size = 128, epoch = 3, verbose = 1, validation_split = 0.1)

（4）模型评估

net.evaluate(test_images, test_labels, verbose = 1)

查看全文

http://www.dtcms.com/a/284686.html

栈和队列的实现，咕咕咕

CTF之栅栏密码的传统型、W型与偏移量

ota之.加密算法，mcu加密方式

开源 python 应用开发（八）图片比对

Android wifi简单白名单实现逻辑

20250717在荣品的PRO-RK3566开发板的Android13系统下解决点屏出现问题unsupport command data type: 217

通俗的解释一下以太网中的端口号

流式数据处理实战：用状态机 + scan 优雅过滤 AI 响应中的 `＜think＞` 标签

深入理解CSS定位：绝对定位的包含块机制

退休时间计算器，精准预测养老时间

项目实战(18)-POE分离器

Spring底层原理（一）核心原理

RCU机制及常见锁的理解

深入理解Java中的Map.Entry接口

【数据结构】单链表的实现

python(one day)——春水碧于天，画船听雨眠。

Python 网络爬虫 —— requests 库和网页源代码

网络爬虫的介绍

Kafka 配置参数详解：ZooKeeper 模式与 KRaft 模式对比

【Android】Span的使用

深入了解linux系统—— 信号的捕捉

卷积神经网络--网络性能提升

如何成为高级前端开发者：系统化成长路径。

初识二叉树

BI Agent vs. 传统BI工具：衡石科技视角下的效率与智能跃迁

亚远景科技助力长城汽车，开启智能研发新征程

AI产品经理面试宝典第34天：破解人机社交关系面试题与答法

一台显示器上如何快速切换两台电脑主机？

【vue-2】Vue 3 中的 v-on 指令：全面指南与最佳实践

无线调制的几种方式