Day 41 卷积神经网络(CNN)基础与实战-迪斯科星球

在上一节中，我们尝试使用全连接网络（MLP）处理 CIFAR-10 图像分类任务，但发现准确率难以突破瓶颈。这是因为 MLP 将图像的所有像素展平为一维向量，破坏了图像原本的空间结构信息（如局部纹理、形状边缘等）。今天我们正式引入卷积神经网络（CNN），它通过“卷积”和“池化”操作，专门用于提取图像的空间特征。

1. 为什么需要 CNN？

全连接网络（MLP）处理图像面临两个主要问题：

参数量爆炸：对于高分辨率图像，全连接层的权重数量巨大，难以训练且容易过拟合。
空间信息丢失：展平操作忽略了像素之间的邻域关系。

CNN 通过局部感知（卷积核只看局部区域）和权值共享（同一个卷积核扫描整张图），在大幅减少参数量的同时，有效地提取了图像的平移不变性特征。

2. 数据增强 (Data Augmentation)

在训练深度学习模型时，数据量往往决定了模型的上限。数据增强通过对原始图像进行一系列随机变换，生成形态各异的新样本，从而在不增加实际采集成本的情况下扩展数据集，显著提升模型的泛化能力。

我们在训练集中使用了以下增强策略：

train_transform = transforms.Compose([ # 随机裁剪：在四周填充4像素后，随机裁剪出32x32 transforms.RandomCrop(32, padding=4), # 随机水平翻转：模拟物体方向的变化 transforms.RandomHorizontalFlip(), # 颜色抖动：随机调整亮度、对比度、饱和度、色相 transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.1), # 随机旋转：最大旋转15度 transforms.RandomRotation(15), transforms.ToTensor(), # 标准化：使用 CIFAR-10 数据集的均值和标准差 transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)) ])

注意：测试集通常只进行标准化处理，不进行随机变换，以确保评估结果的稳定性。

3. CNN 模型架构设计

我们构建了一个经典的 CNN 结构，包含三个卷积块和一个分类器。

3.1 核心组件解析

卷积层 (Conv2d)：特征提取器。通过滑动窗口（卷积核）提取边缘、纹理等特征。
批量归一化 (BatchNorm2d)：加速收敛。对每一批数据的特征图进行归一化（均值0，方差1），解决“内部协变量偏移”问题，使得模型可以使用更大的学习率，并具有一定的正则化效果。
激活函数 (ReLU)：引入非线性，增加模型的表达能力。
最大池化 (MaxPool2d)：下采样。保留局部区域的最强特征，减小特征图尺寸，降低计算量。

3.2 模型代码实现

class CNN(nn.Module): def __init__(self): super(CNN, self).__init__() # 卷积块 1：输入 3 通道 -> 输出 32 通道 self.conv1 = nn.Conv2d(3, 32, kernel_size=3, padding=1) self.bn1 = nn.BatchNorm2d(32) self.relu1 = nn.ReLU() self.pool1 = nn.MaxPool2d(kernel_size=2, stride=2) # 尺寸减半: 32 -> 16 # 卷积块 2：输入 32 通道 -> 输出 64 通道 self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1) self.bn2 = nn.BatchNorm2d(64) self.relu2 = nn.ReLU() self.pool2 = nn.MaxPool2d(kernel_size=2) # 尺寸减半: 16 -> 8 # 卷积块 3：输入 64 通道 -> 输出 128 通道 self.conv3 = nn.Conv2d(64, 128, kernel_size=3, padding=1) self.bn3 = nn.BatchNorm2d(128) self.relu3 = nn.ReLU() self.pool3 = nn.MaxPool2d(kernel_size=2) # 尺寸减半: 8 -> 4 # 全连接分类器 # 展平维度计算：128通道 * 4(高) * 4(宽) = 2048 self.fc1 = nn.Linear(128 * 4 * 4, 512) self.dropout = nn.Dropout(0.5) self.fc2 = nn.Linear(512, 10) # 输出 10 个类别 def forward(self, x): # x: [batch, 3, 32, 32] x = self.pool1(self.relu1(self.bn1(self.conv1(x)))) # -> [batch, 32, 16, 16] x = self.pool2(self.relu2(self.bn2(self.conv2(x)))) # -> [batch, 64, 8, 8] x = self.pool3(self.relu3(self.bn3(self.conv3(x)))) # -> [batch, 128, 4, 4] # 展平 x = x.view(-1, 128 * 4 * 4) # -> [batch, 2048] x = self.dropout(self.relu3(self.fc1(x))) x = self.fc2(x) return x

3.3 维度变换推导

输入图片尺寸为 $32 \times 32$：

Block 1: Conv(padding=1) $\rightarrow 32 \times 32$; Pool(2x2) $\rightarrow 16 \times 16$.
Block 2: Conv(padding=1) $\rightarrow 16 \times 16$; Pool(2x2) $\rightarrow 8 \times 8$.
Block 3: Conv(padding=1) $\rightarrow 8 \times 8$; Pool(2x2) $\rightarrow 4 \times 4$.

最终特征图大小为 $128 \times 4 \times 4$。

4. 学习率调度器 (Learning Rate Scheduler)

为了进一步提升模型性能，我们引入了学习率调度器。在训练初期，较大的学习率有助于快速下降；在训练后期，较小的学习率有助于模型在极小值附近精细收敛。

我们使用的是ReduceLROnPlateau，它是一种“监控型”调度器：

机制：当监控的指标（如验证集 Loss）在patience个 epoch 内不再下降时，自动将学习率乘以factor进行衰减。
适用场景：几乎适用于所有监督学习任务，特别是在不知道具体何时衰减 LR 最优时。

scheduler = optim.lr_scheduler.ReduceLROnPlateau( optimizer, mode='min', # 监控指标是越小越好（Loss） patience=3, # 容忍 3 个 epoch 不提升 factor=0.5 # 衰减系数 ) # 在训练循环中更新 # scheduler.step(epoch_test_loss)

5. 训练效果对比

相较于 MLP，CNN 在 CIFAR-10 上的表现有质的飞跃：

MLP：通常只能达到 50%-55% 的准确率。
简单 CNN：在本实验中，配合数据增强和 BatchNorm，准确率可以轻松达到 80% 以上。

这一结果证明了 CNN 在提取图像特征方面的强大能力。卷积层作为特征提取器，能够从底层的边缘、颜色，逐层抽象到高层的形状、物体部件，这是全连接网络无法做到的。

6. 总结

数据增强是提升图像分类模型泛化能力的必备手段。
BatchNorm是现代 CNN 的标配，能显著加速收敛并稳定训练。
CNN 结构（卷积+池化）通过保留空间结构和参数共享，高效地处理了图像数据。
学习率调度器帮助模型在训练后期打破瓶颈，进一步提升精度。

企业官网建设流程全解析

1. 为什么需要 CNN？

2. 数据增强 (Data Augmentation)

3. CNN 模型架构设计

3.1 核心组件解析

3.2 模型代码实现

3.3 维度变换推导

4. 学习率调度器 (Learning Rate Scheduler)

5. 训练效果对比

6. 总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 为什么需要 CNN？

2. 数据增强 (Data Augmentation)

3. CNN 模型架构设计

3.1 核心组件解析

3.2 模型代码实现

3.3 维度变换推导

4. 学习率调度器 (Learning Rate Scheduler)

5. 训练效果对比

6. 总结

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？