1、 ShuffleNet v1：研究背景和动机

以前的模型像是“豪华工厂”（如 AlexNet、VGG、ResNet），产能强但耗电量大（计算量）；MobileNet v1 像是“省电小工厂”，提出了 深度可分离卷积，极大减少了计算量，证明了“轻量化 CNN”是可行的。

👉 类比：

在工厂流水线里，虽然大机器已经省电了（Depthwise Conv），但最后的“拼装工序”（1×1 Conv）依旧特别耗时，成了瓶颈。

👉 类比：

2、1×1 分组卷积 (Group Convolution)

在 CNN 里，1×1 卷积的作用主要是：
- 通道间信息混合（把不同通道组合起来，学新的特征）。
- 升维/降维（比如减少通道数，降低计算量）。

👉 形象化理解：假设你有一张图有 128 个通道（像 128 种不同颜色的照片层）。普通 1×1 卷积 = 所有工人（卷积核）同时看这 128 种颜色，一起计算，综合成新结果。 ➡️ 很全面，但非常耗时。

👉 类比工厂：

省计算量：
- 普通 1×1 Conv：输入通道数 × 输出通道数。
- Group Conv：= (输入通道 ÷ G) × (输出通道 ÷ G) × G → 计算量直接除以 G。
- 举例：128 in → 128 out
  - 普通 Conv = 128×128 = 16384 次计算
  - G=4 分组 = 32×32×4 = 4096 次计算 ➡️ 计算量减少 4 倍！
适合移动端：在手机/嵌入式设备上，可以显著加速推理。

👉 类比：就像工厂分了 3 个小车间（红/绿/蓝），每个小车间只处理自己的任务，效率高但彼此不沟通。

👉 类比：小车间干完一轮任务，下一轮还是原班人马继续干，一直在原地打转。

👉 类比：工厂里的工人干完一轮活 → 老板让大家“换座位” → 下一轮每个小车间里的人都换了组合 → 信息可以交叉传递。

结构：1×1 Conv → 3×3 DWConv → 1×1 Conv → 残差相加(Add)。
作用：
- 第一个 1×1 卷积：降维/压缩通道，减少后续计算量。
- 3×3 Depthwise Conv：逐通道卷积，主要处理空间特征，计算量小。
- 第二个 1×1 卷积：恢复通道数。
- 短路连接：输入与输出相加，形成残差结构。

👉 类比工厂：输入零件 → 压缩成更少的零件类别 → 各类别自己加工（DWConv） → 再扩展回原大小 → 和原始零件“对比修正”后输出。

这就是 轻量级 ResNet 单元。

变化点：
1. 把 1×1 密集卷积 改成 1×1 分组卷积 (Group Conv) → 大幅降低计算量。
2. 在第一个 1×1 Group Conv 之后加入 Channel Shuffle → 解决组间信息“互不交流”的问题。
3. 3×3 DWConv 之后不加 ReLU → 避免信息丢失（实践发现这样更好）。

👉 类比工厂：原来“所有工人(通道)一起干活 → 太累”。于是改成“分组干活” → 省力，但不同小组间不交流。所以要定期打乱分组 (Channel Shuffle) → 让信息充分交流。最后继续逐通道加工(DWConv)，再恢复通道数。

这就是 ShuffleNet 的核心创新点。

输入主分支：1×1 Group Conv → Channel Shuffle → 3×3 DWConv(stride=2) → 1×1 Group Conv。
旁路分支：3×3 AvgPool (stride=2)。
输出方式：两个分支结果用 Concat 拼接（不是相加）。

👉 为什么要 Concat 而不是 Add？

下采样后通道数需要翻倍，而相加会丢掉一半信息。
Concat 可以 保留更多信息，同时几乎不增加额外计算量。

👉 类比工厂：想要“减少产线长度(下采样)” → 主工厂通道：继续复杂工艺但降低分辨率；副工厂通道：用 平均池化快速缩小尺寸；最后把两路产出 直接合并 (concat)，产能翻倍且更高效。

核心问题： ShuffleNet v1 的设计是用 分组卷积 (Group Conv) 来减少计算量，但分组卷积天然会让不同通道“各自为战”，信息只在小组内流动。为了解决这个问题，作者引入了 Channel Shuffle，让不同组的特征通道交换一下。然而，通道交换的效果有限，并不能像全连接卷积那样实现完全自由的信息交互。
影响：
1. 在小模型（低 FLOPs）下，特征表达能力不足，精度掉得更快。
2. 在大模型（高 FLOPs）下，Channel Shuffle 的优势减弱，甚至比不过 MobileNet V2。
3. 在硬件部署时，shuffle 操作带来额外的内存读写开销，反而可能拖慢速度。

👉 类比：

就好比工厂里为了省成本，把工人分成小组，每个组只负责自己的一部分。虽然偶尔会“换工位”让大家交流，但交流频率不高，效率依旧受限。这样虽然省了钱，但产出的产品种类和质量受影响。

✅ 一句话总结： ShuffleNet v1 最致命的缺点是 分组卷积严重限制了信息流通，而 Channel Shuffle 只是“补丁”，无法彻底解决问题，这也是后来 ShuffleNet v2 改进的重点方向。