cascaded级联网络(2022):级联深度卷积神经网络作为拉曼光谱数据预处理的改进方法

cascaded级联网络(2022):级联深度卷积神经网络作为拉曼光谱数据预处理的改进方法

导出时间:2025/11/24 08:58:26

1、研究背景和动机

一、研究背景:为什么要关注拉曼光谱预处理

  1. 拉曼光谱在生物医学中的潜力 拉曼光谱是一种“非侵入式”“无需染色”就能分析样品分子成分的光学技术,非常适合医学检测。比如:
    • 可以直接分析患者组织中是否有癌变;
    • 检测胎盘外泌体(EVs)以研究妊娠疾病;
    • 对药物或化学物质进行快速成分分析。
这就像“用光照一照,就能看到分子世界”。
  1. 实际测得的光谱往往不干净 真实的拉曼光谱数据经常受到三大干扰
    • 基线漂移:仪器和样品的背景信号叠加在有用的信号上,像照片上有一层雾;
    • 随机噪声:探测器的电子噪声或热噪声让光谱曲线变得抖动;
    • 宇宙射线干扰:偶尔会出现非常尖锐的“假信号峰”。
在进行分类或检测前,必须先把这些干扰去掉,这一步就叫“光谱预处理”。
  1. 传统预处理的局限性 以往的方法像手工修图:
    • 需要人工调节很多参数(比如多项式的阶数、平滑系数等);
    • 对不同样本需要反复试错;
    • 一点点调整就可能意外改变信号里的关键信息。
结果就是 处理慢、依赖专家经验、难以保证一致性和可重复性。 在大规模医学实验或临床应用中,这几乎无法操作。

二、研究动机:为什么要用深度学习,特别是“级联 CNN”

  1. 用神经网络“自动修图” 深度卷积神经网络(CNN)能够像图像处理一样,从原始光谱中自动学会:
    • 去掉背景(基线);
    • 平滑噪声;
    • 保留真正的化学信号。
理论上可以让科学家不再手工调节参数,实现“一键清洗光谱”。
  1. 现有深度学习方法的不足 早期有两种尝试:
    • 直接用 CNN 分类原始光谱:虽然准确率高,但需要大量训练数据(数万条以上),而医学上样本获取往往很困难;同时模型缺乏可解释性,不利于临床应用。
    • 单一 U-Net 或 ResNet 做预处理:可以自动降噪和基线校正,但往往无法很好地分离不同任务,也难与传统方法定量对比。
    换句话说,现有模型要么“黑箱”且吃数据,要么处理不够灵活可控
  2. 提出“级联式 CNN”的核心想法 作者将基线校正降噪分成两个独立但相互衔接的深度网络(ResNet 或 U-Net):
    • 先用一个网络专门学会去掉复杂的基线;
    • 再用另一个网络专门处理噪声和
    • 尖锐干扰;
    • 中间还设置潜在空间输出,让模型能在每一步保留有用信息并便于解释。
  3. 这样做的好处:
    • 自动化:不再需要专家调参数;
    • 更小的数据需求:用模拟生成的大量光谱训练即可,减少真实数据采集压力;
    • 可解释性强:处理后的光谱可以被直接分析或用常规机器学习(如 SVM、LDA)分类;
    • 对临床友好:适合小数据场景、速度快、结果透明。

✍️ 形象比喻

  • 传统预处理 = “手工修照片”:每张都得调曝光、调对比度,费时费力,还可能调坏。
  • 以前的深度学习 = “一键美颜”:效果惊艳但不透明,需要大量样本练出来,别人不放心用。
  • 级联 CNN = “智能修图师”:先去背景,再去噪点,每一步都清晰可控,照片干净又真实,还能快速批量处理。


2、模型的核心创新点

1. 将“预处理”分成可解释的两步:基线校正 + 去噪


  • 第一阶段:基线校正 专门设计基于 ResNet 的网络来消除复杂背景(基线漂移),保持信号峰值不被扭曲。
  • 第二阶段:降噪与尖峰去除 独立的网络处理随机噪声和宇宙射线干扰。
这种“任务分工”式的级联设计让网络在每一步都只专注一件事,结果更干净、泛化更好,也便于科学家分析每一步到底做了什么

🔍 类比:以前是“一个人又扫地又擦桌子”,容易做不干净。现在是“先请一个扫地工,再请一个擦桌工”,各司其职。


2. 加入“潜在空间输出”提高信息保留和可解释性

在两个网络之间,作者增加了潜在层输出(latent space):
  • 这个潜在层相当于中间“半成品光谱”,能显示基线被去掉后但噪声还没处理完的样子;
  • 让模型在训练中逐步学会如何去掉背景而不丢失真实信号;
  • 也帮助研究人员理解模型到底改动了哪些部分,避免黑箱化。

🔍 类比:修图软件加了“历史记录和中间预览”,让你能看到每一步的处理效果,而不是只看到最终成品。


3. 利用 ResNet 与 U-Net 的优势重新设计一维网络

  • ResNet 的短跳连接 解决了深层网络训练时的梯度消失问题,使网络可以更深、更稳定地处理复杂基线。
  • U-Net 的长跳连接 适合保持细节结构,帮助在噪声去除时保留峰形特征。
作者根据拉曼光谱是一维数据的特点,对原本用于图像的架构进行了调整,包括卷积核大小、步长和张量形态,使其适合光谱信号。

🔍 类比:把一辆越野车(U-Net、ResNet)改造成适合窄轨道的矿道车,专门应对一维的“光谱轨道”。


4. 用大量模拟光谱训练,降低对真实大数据的依赖

  • 以往的深度学习方法需要上万条真实光谱,医学上很难获得;
  • 作者用随机生成的模拟光谱(加入各种随机基线、噪声、峰型变化)训练网络;
  • 这样网络就能适应各种复杂情况,而只需少量真实样本微调或直接使用。

🔍 类比:让AI先在“虚拟赛车”里学会开各种路,再去真实赛道跑几圈就能上手。


5. 一次性实现全自动、快速且高精度的预处理

  • 传统方法:需要反复人工调参,每次几秒到几分钟;
  • 新方法:训练好模型后,每条光谱处理只要几毫秒;
  • 性能:在去基线和降噪方面优于常用的 airPLS、AsLS、iMor、SG、小波等传统方法;
  • 结果:让常规机器学习算法(SVM、LDA、KNN)在小数据集上也能接近深度 CNN 的分类精度。

🔍 类比:以前修一张图像要手工调很久;现在是“批量修图秒出结果,还比手工修得更好”。


6. 适合临床和科研的可解释、轻量化工作流

  • 输出结果是干净的光谱,医生或科研人员可以直接看峰位、分析化学信息;
  • 不再是“黑箱模型直接给出诊断”;
  • 支持小数据集训练,特别适合医学场景中样本昂贵或稀少的情况

🔍 类比:把“黑盒医生”变成“会给你看病历和检查结果的医生”,让科研人员有信心使用。


🌟 核心创新总结

创新点
传统方法的问题
本文的改进
任务分级:基线校正 + 降噪
一锅乱炖,容易互相干扰
拆分任务,独立优化
潜在空间输出
模型黑箱,难解释
中间输出可视化每步处理
ResNet + U-Net 改造
原架构为图像设计,不适合一维光谱
针对光谱重新设计卷积与连接方式
模拟光谱训练
真实数据不足,成本高
大量虚拟数据训练,降低需求
自动化与高效性
人工调参慢且不可重复
全自动、毫秒级处理、结果稳定
临床友好
黑箱预测不被信任
输出可解释光谱,支持常规 ML

3、模型网络结构

image.png

一、总体思路:级联两步走

这套模型不是一个“大杂烩”式的单网络,而是两阶段级联结构
  1. 第一阶段:基线校正(Baseline Removal) 目标:去除光谱中缓慢变化的背景,使峰形更清晰。
  2. 第二阶段:去噪与尖峰干扰消除(Denoising) 目标:进一步清理随机噪声、尖锐的宇宙射线干扰,得到干净的光谱。
这种两步走的优势是:每个子网络只处理一种干扰,效果更稳定,可解释性更好。

二、两种主干网络设计

论文提出两条不同的“骨干(backbone)”实现方案,你的图中正是这两类:

1️⃣ ResNet 级联结构(图 (a))

  • 输入:原始拉曼光谱(Raw spectra)
  • 第一模块:Baseline removal architecture
    • 使用 ResNet(残差网络)作为主体。
    • 残差连接(skip connection)可以缓解梯度消失,让网络更深也能训练。
    • 目标:学习如何拟合并消除基线背景。
  • 中间潜在层 (Latent layer)
    • 类似“中间结果”,保留去基线后的光谱。
    • 可选择直接输出基线校正光谱,供分析或下游机器学习使用。
  • 第二模块:Denoising architecture
    • 同样是基于 ResNet 的结构,输入是中间结果。
    • 学习如何去掉高频噪声、尖锐干扰。
  • 输出
    • 可以得到两种结果:
      1. 仅基线校正后的光谱
      2. 同时去噪后的最终光谱

🔍 图中的 (a1)、(a2)、(a3) 表示三种不同的使用方式:

  • (a1) 先去基线,再去噪;
  • (a2) 去基线后在潜在空间连接到去噪模块;
  • (a3) 用潜在层直接生成输出。

2️⃣ U-Net 级联结构(图 (b))

  • 输入:原始光谱
  • U-Net 架构特点
    • 编码器(下采样):提取光谱的全局趋势和背景信息;
    • 解码器(上采样):重建去除背景/噪声后的信号;
    • 长跳连接(skip connection):保持细节(峰形)不被破坏。
  • 单级 U-Net(b1): 一次性完成基线去除和降噪。
  • 多级 U-Net(b2): 分两次处理:
    • 第一个 U-Net 专门去基线;
    • 第二个 U-Net 再做降噪。
这种设计更适合数据量不大、希望保持峰形完整的场景。

三、关键细节

  1. 1D 卷积替代 2D
    • 原本的 ResNet/U-Net 是给图像用的(2D 卷积),
    • 作者针对光谱信号改成 一维卷积(1D CNN),以适应光谱数据的序列性质。
  2. 潜在空间的多输出设计
    • ResNet 版本里,网络可以在中间阶段输出“仅基线校正”版本,方便科研人员直接使用。
    • 对临床和分析工作友好:如果只需要去掉背景,不一定要走完第二阶段。
  3. 训练策略
    • 利用模拟生成的大量光谱数据(加入随机基线、噪声、峰型变化)训练;
    • 再用少量真实数据微调或直接评估,减少对真实大数据集的依赖。

四、整体工作流程(用生活比喻)

像照片修复:

  • ResNet/U-Net 1 = 自动“去雾和调光” → 去掉背景基线;
  • 潜在层输出 = 修完底图后可以先看一眼半成品;
  • ResNet/U-Net 2 = 专门“去噪点、去划痕”;
  • 最终图像 = 清晰、无噪声的光谱数据,可直接做分析或分类。

五、结构优点总结

特性
ResNet 级联
U-Net 级联
核心优势
残差结构适合深度去基线,训练稳定
跳连接保留峰形,重建能力强
可解释性
有潜在层,可中途输出结果
简洁但黑箱感稍强
适用场景
噪声和基线都复杂;需要分步可视化
数据量较少、希望保持峰形
处理速度
快,结构相对轻量
稍慢但重建精细

✨ 一句话总结

该模型通过 “两步走的级联 CNN + 可中途查看的潜在层”, 将原本繁琐、依赖人工调参的拉曼光谱预处理过程自动化、结构化, 并可选择 ResNet 或 U-Net 主干来适应不同的实验需求。


4、模型的核心不足与局限

4.1 大量依赖模拟数据

  • 作者主要用模拟生成的光谱来训练模型(随机添加基线、噪声、峰形)。
  • 虽然这样解决了真实样本稀缺的问题,但模拟数据与真实实验数据之间存在域差异
    • 仪器噪声和生物样本中的化学背景往往比模拟更复杂;
    • 当实际光谱的分布与训练时假设的分布不同时,性能可能下降。

🔍 影响:模型在真实临床数据上的泛化能力需要更多验证。


4.2 对小样本微调仍需要经验

  • 虽然减少了大规模真实数据的需求,但如果换仪器或样本类型(例如从胎盘外泌体到血液样本),模型仍可能需要重新微调。
  • 迁移学习流程、如何选择微调数据量,作者未给出明确指导。

4.3 两阶段串联带来延迟和复杂度

  • 级联的两步处理(基线→去噪)比单一模型更复杂:
    • 推理时需要经过两次前向传播;
    • 训练时需要分别优化两个子网络。
  • 在实时分析或大规模在线检测中,可能不如单阶段轻量模型高效。

🔍 影响:在工业在线检测场景,速度可能仍是瓶颈。



4.3 潜在空间虽然提高解释性,但依旧是黑箱

  • 中间输出只是提供“视觉上可看”的光谱,并不能解释模型内部如何做出每一步修正
  • 仍缺乏真正的可解释性分析(如特征归因、注意力可视化)。
  • 对临床用户来说,这比传统手工预处理方法的“公式和参数”依然不够透明。

4.4 网络参数量较大

  • ResNet/U-Net 都是比较深的卷积架构,相比一些传统方法(如 airPLS、iMor)对计算资源和显存要求更高
  • 如果在嵌入式光谱仪或边缘设备上部署,会面临资源受限问题。

对比实验的局限
  • 虽然与常见的预处理算法(airPLS、iMor、SG、小波等)做了比较,但与其他深度学习预处理模型的系统性对比不足
  • 对最终分类任务的改进,作者主要测试了传统 ML 分类器(SVM、LDA),未对比端到端的深度分类器在同样数据量下的性能,因此难以完全量化预处理对下游深度学习的价值。

5、后续改进方向

一、近年改进/替代模型方向概览

在级联 CNN 预处理模型之后,后续工作主要沿着以下几个方向演进:
年份
模型 / 方案
主要用途 / 创新点
与级联 CNN 或注意力 / Transformer 的关系
2023
Raman ConvMSANet
融合一维卷积 + 多头自注意力 (multi-head self-attention) 机制进行光谱处理 / 分类
在传统 CNN 基础上加入注意力模块,使模型能“关注重要频点”的能力加强。
2023
RamanNet
引入 shifted MLP + 稀疏连接,克服 CNN 在光谱上的平移不变性问题
这是更加偏结构创新 + 模型设计方向的尝试,避开单纯卷积方式的局限性。
2024
RSPSSL(Raman Spectral Preprocessing via Self-Supervised Learning)
自监督预处理方案,用 “背景估计补丁 CNN (RSBPCNN)” 等模块进行基线校正 + 去噪
强调“无需人工干预 / 通用性 / 高保真度”的预处理,在模型设计上兼顾卷积与 patch 处理思想。
2024
“Denoising + Baseline Correction via Convolutional Autoencoder”
使用卷积自编码器(CAE / CDAE)做去噪 + 基线校正的统一模型
虽然不是 Transformer,但代表“把两个阶段(基线 + 噪声)融合到一个端到端模型”的趋势。
2024
TMNet(混合 Transformer 网络)
在表面增强拉曼 (SERS) 频谱分类 / 识别任务中,将 Transformer 编码器与多层感知机 (MLP) 结合
主要用于分类 /识别层面,但它把 Transformer 引入频谱处理 /特征提取流程。
2024
Deep-learning-based acquisitional denoising with Transformer
在 Raman 光谱获取 / 采集过程的去噪任务中尝试 Transformer 模型
这个工作是比较接近用 Transformer 做预处理 /处理噪声的尝试。
下面挑几个比较有代表性的方法详细聊聊它们怎么“在级联 CNN 上改进”。

二、几个典型改进模型详解

6、重点模型 / 方案解析

1. Raman ConvMSANet (2023)

  • 论文 / 出处:A High-Accuracy Neural Network for Raman Spectroscopy (Ren et al., 2023) ACS Publications
  • 主要结构:一维卷积 + 多头自注意力 (MultiHead Self-Attention, MSA)
    • 首先用卷积抽取局部特征(峰型、局部形状);
    • 然后用自注意力模块让模型能够“关注”频谱中的重要频点,提升全局信息建模能力。
  • 优点 / 可能改进
    • 注意力机制可以捕捉远距离点之间的依赖,有助于识别相互干扰、重叠峰或复杂背景关系;
    • 相对于纯卷积,模型更加灵活,可能在多尺度 / 非局部结构上表现更好。
  • 局限 /挑战
    • 引入注意力后,计算量 /内存开销上升;
    • 在极低信噪比或极端干扰背景下,注意力模块可能容易被噪声引导。

2. RamanNet (2023)

  • 论文 / 出处:RamanNet: a generalized neural network architecture for Raman spectroscopy SpringerLink
  • 设计思路
    • 认为光谱与图像 / 时序信号不同,不应盲用卷积 “平移不变性” 假设。
    • 引入 shifted MLP 结构 + 稀疏连接,来兼顾特征提取能力与保留局部特性。
  • 创新点
    • 在早期层用 MLP 而非卷积提取跨谱点特征;
    • 使用稀疏连接、跳层结构来模拟卷积优势但避免不适合的平移假设。
  • 与级联 CNN 的关系
    • 它不是典型的“预处理网络”,更偏向于可泛化的整体谱分析模型;
    • 如果在未来将预处理与 RamanNet 结合,可能出现“不做预处理 / 直接建模”的趋势。

3. RSPSSL & RSBPCNN (2024)

  • 论文 / 出处:RSPSSL: A novel high-fidelity Raman spectral preprocessing scheme Nature
  • 主要思路 / 结构
    • 自监督训练:构造多源多样本的训练数据集(包含不同设备 / 样本 /背景类型),以训练一个通用的预处理模型;
    • 预处理模型命名为 RSBPCNN(Background-Estimation-Patches CNN),它在设计上考虑了“光谱-物理成分关系”的 patch 分割策略 + 局部 /全局融合。
    • 采用两阶段结构:第一阶段做背景估计,第二阶段做去噪与细节恢复。
  • 性能 /亮点
    • 在速度上表现优越,可达到 ~1900 条/秒的处理速度;
    • 在多个设备 / 实验室数据集上表现鲁棒,减少设备间 /样本间差异的影响;
    • 在一些医学 /生物应用中显著提升分类 /定量性能(例如癌症诊断 AUC 提升)。
  • 评价 /潜在挑战
    • 自监督预训练依赖训练集的多样性覆盖性,如果新设备 /样本类型不在训练分布内,可能性能下降;
    • 模型复杂度与部署成本可能较高,尤其是在光谱仪端或低算力设备上。

4. 混合 Transformer / TMNet (2024)

  • 出处 /背景:在 SERS(表面增强拉曼光谱)识别任务中,有论文提出使用混合 Transformer + MLP 结构,即 TMNet。科学直通车
  • 思路
    • 在光谱分类 /识别任务中,将 Transformer 的编码器用于特征表示,后接 MLP 进行分类;
    • 虽然主要用途是识别 /分类,但它体现出 Transformer 在频谱特征提取中的可用性。
  • 意义
    • 表明 Transformer 不仅能用于图像 / NLP,也逐步被用于光谱特征学习;
    • 在未来的预处理 /降噪 /基线校正任务中,可能有更多论文尝试将 Transformer 模块插入或替代卷积模块。

5. Deep-learning based acquisitional denoising with Transformer (2024)

  • 出处 /场景:在试图对光谱采集过程中的噪声进行去噪处理时,部分研究引入 Transformer 模型。SPIE Digital Library
  • 特点 /挑战
    • 去噪任务是预处理的一部分,这类工作尝试直接对原始采样信号做噪声抑制;
    • 引入 Transformer 可以更灵活地对整条谱线作全局建模,而不仅是局部卷积;
    • 但由于噪声的随机性、幅度差异、频率成分复杂,引入 Transformer 成本 + 不稳定性是个挑战。

6. Convolutional Autoencoder 统一预处理 (2024)

  • 出处 /论文:Denoising and Baseline Correction Methods for Raman Spectroscopy Based on Convolutional Autoencoder: A Unified Solution MDPI
  • 主要做法
    • 使用 卷积去噪自动编码器 (CDAE) 来做噪声抑制;
    • 使用改进版 CAE+ 来做基线校正(在解码后附加对比 /调整模块以更好地拟合基线)
    • 两者可组合为一个统一流程(去噪 + 基线校正)
  • 与级联 CNN 的联系 /区别
    • 与级联 CNN 的“两个独立网络串联”思想类似,但这里更加强调一步到位、端到端训练;
    • 相对于 Transformer /注意力模型模型而言,仍然相对轻量、稳定;
    • 在实际性能上,这类 autoencoder 方法在模拟/实验谱上展示了比传统算法(如多项式拟合、ALS)更好噪声还原与峰保留效果。

7、总结与未来趋势预测

从这些改进可以看出,基于级联 CNN 的预处理模型向以下几个方向发展:
Transformer / 注意力机制 正在渗透
  • 虽然目前将 Transformer 完全用于基线校正 + 去噪的预处理部分的研究还不多见,但越来越多研究把 Transformer 用作特征提取或分类模块(如 TMNet、Raman ConvMSANet);
  • 未来的趋势可能是 “卷积 + 注意力混合模块插入预处理网络” 或 “Transformer 作为主干网络替代部分卷积结构”。
自监督 / 预训练 成为重要方向
  • 像 RSPSSL 这样的自监督预处理方案,能够减少对人工标注 /仿真数据的依赖,增强跨设备 /跨样本的通用性;
  • 在未来,可能出现更强大的预训练预处理模型,可用于零样本 /少样本光谱任务。
端到端 / 一体化结构更受青睐
  • 级联 CNN 的“两步走”思路好在清晰模块分工,但有一定复杂度开销;
  • 趋势可能是将基线校正、去噪、特征提取、分类 /定量等模块融合成一个端到端可训练网络。
轻量化 /边缘部署 /实时性要求加强
  • 在光谱仪器端或现场检测场景,需要在算力 /内存受限环境下运行模型;
  • 模型压缩、剪枝、知识蒸馏、量化等技术可能会与预处理网络结合。
跨设备 / 跨域鲁棒性成为试金石
  • 新模型是否能在不同光谱仪、不同样本类型、不同实验室间通用,是衡量其实用性的重要标准;
  • 自监督 /多源训练 /域适应 (domain adaptation) 方法可能成为关键技术。