拉曼光谱去噪和基线校正系列

拉曼光谱去噪和基线校正系列

导出时间:2025/11/24 08:57:56

1、研究背景与任务定义

image.png

图1:原始拉曼光谱常含有显著的荧光背景信号作为基线(纵轴为光强,横轴为拉曼位移(拉曼位移(Raman shift)是拉曼光谱学里的一个核心概念。简单来说,它描述的是入射光子与散射光子之间的能量差。),基线随波数缓慢变化。这种基线漂移会掩盖真实的拉曼特征峰。深色曲线显示了多个拉曼散射峰叠加在一个缓慢上升的背景之上。
image.png
图2:经过基线校正后的拉曼光谱。可以看到背景基线已被去除(信号基线接近0水平),各拉曼散射峰的峰高、峰形更加清晰。基线校正有助于准确测量峰强度和位置,而不受背景干扰影响。
拉曼光谱及其作用: 拉曼光谱(Raman spectroscopy)是一种基于光散射效应的非破坏性光谱分析技术,在分析化学、材料科学、生物医学等领域具有重要作用。当激光照射样品时,大部分散射光与入射光频率相同(瑞利散射),但有极少部分光子与分子振动发生能量交换,产生频移的散射光,这就是拉曼散射
拉曼光谱通过检测这些频移,获取样品分子振动和键合的信息,可用于物质鉴定和分子结构研究。由于拉曼散射信号本身非常微弱(通常只有激发光强度的10^−8左右),实际测量中常伴随较强的荧光背景和噪声干扰。这使得原始拉曼光谱往往叠加有一个平滑且缓慢变化的背景信号,即基线漂移
基线漂移及校正必要性: 拉曼光谱中的基线漂移通常来源于样品的自发荧光、仪器响应不平坦等因素,其表现为在整个光谱范围内叠加的宽而平滑的背景信号。如图1所示,基线会提高光谱的整体强度水平,掩盖某些弱拉曼峰,并影响定量分析的准确性。未经校正的基线干扰将对光谱的定性定量分析造成严重影响——拉曼峰强度会被高估或低估,峰的位置和形状也可能难以准确确定。为了获得真实的拉曼信号,必须对光谱进行基线校正。传统上,研究者提出了多种数学方法来估计并扣除基线,例如多项式拟合、样条平滑、渐进多项式减去(如 airPLS 算法)等。然而,这些传统方法往往需要针对不同光谱手动调整参数(例如选择多项式阶数、平滑惩罚项等),参数选择很大程度依赖操作者经验,不同参数可能导致校正结果差异。
此外,传统基线校正可能会损失拉曼峰信号:基线扣除过程常导致拉曼峰强度下降,改变峰形,尤其当光谱中存在复杂背景或宽峰时,这种峰值削弱问题更为突出。换言之,传统算法难以在移除背景的同时完全保留拉曼峰信息。这些局限性促使研究者探索更加智能和自适应的方法来实现高精度的基线校正。在这样的背景下,引入深度学习技术来解决拉曼光谱基线校正问题成为了一项重要的研究任务。

2、深度学习在基线校正中的发展路线

随着人工智能和机器学习的发展,研究者自2010年代末开始尝试将深度学习应用于拉曼光谱预处理,逐步形成了从早期简单网络到当今复杂模型的演进路线。总体来说,深度学习基线校正方法经历了以下阶段:

2.1、早期探索阶段(2017~2020年):DAE和简单CNN方法。

最初的尝试包括自动编码器(Autoencoder)和基本卷积神经网络(CNN)等模型,用于去噪和基线去除。这一阶段的思想是利用神经网络自动学习光谱中的平滑背景成分,从而减轻人工设定参数的负担。例如,有研究使用反向传播神经网络对拉曼光谱去噪,并取得了可媲美优化小波方法的效果,同时大大简化了参数调节过程。随后,卷积神经网络被用于光谱平滑去噪,研究者设计自定义损失函数以平衡噪声抑制与峰值保真。在基线校正方面,2019年 Schmidt 等人提出利用CNN同时进行拉曼峰检测和基线扣除,他们在不同信噪比条件下取得了比传统小波法更低的 MAE(平均绝对误差)的效果。这一时期还出现了结合生成对抗网络(GAN)和残差学习的模型。例如 Liu 等人在2021年提出基线识别网络(Baseline Recognition Networks, BRNs),通过对抗训练和深度残差学习实现了高精度的自动基线校正,不再需要人工参数调节。总体而言,早期的深度学习方法证明了智能模型在光谱预处理上的可行性,相比传统算法能取得更好的基线去除效果,同时减少人为参与。

2.2、模型深化阶段(2020~2022年):引入更复杂的卷积网络结构。

随着深度学习的发展,研究者开始设计更复杂的一维卷积网络结构来专门解决光谱基线漂移问题。其中具有代表性的是结合 ResNet 和 U-Net 结构的ResUNet-1D模型。该模型由韩国全南国立大学的 Tiejun Chen 等人在2022年的工作中提出。
论文:https://pubs.rsc.org/en/content/articlelanding/2022/an/d2an00868h 这个是2022年基线模型


ResUNet-1D 以U形编码器-解码器架构为基础,在网络的下采样和上采样路径中引入残差块(ResNet单元),能够高效提取不同尺度下的光谱特征,同时通过残差连接和跳跃连接保留原始峰信息。Chen 等人采用大量模拟光谱数据对该深度模型进行训练,使其能够学习各种形式的基线。

结果表明,该模型无需人工调整惩罚参数即可实现优于传统罚Least-Squares(如 ALS/airPLS 算法)的校正效果。在定量评价中,ResUNet-1D 在合成数据上取得了最低的 RMSE 和 MAE,显著优于以往的深度学习方法和经典算法。由于其对基线校正的出色表现和适用广泛性,ResUNet-1D 被认为是这一阶段的代表性成果之一。

此外,同期还有研究尝试将所有预处理步骤(如去噪、去除宇宙射线噪点、基线校正)整合到单一深度网络中。例如 Wahl 等人在2020年提出利用一个卷积神经网络实现拉曼光谱的“一步式”预处理,包含同时的去噪和基线扣除。这类方法进一步证明了深度学习模型的灵活性:一个训练好的网络可以自动完成以往需逐步完成的多种预处理任务。不过,单一网络处理多任务也会带来模型设计和训练难度增加的问题。因此,大部分研究仍聚焦于通过改进网络结构来提升单项任务(基线校正)的性能

2.3、多尺度与创新结构阶段(2022~2023年):融合信号分析方法的混合模型。

在这一阶段,涌现了一些将传统信号处理理念与深度学习相结合的新方法,其中以多尺度分析物理先验的引入为代表。2023年,焦等人提出了基于多尺度分析和回归的深度学习基线校正方法(以下简称 MSAR-BC)。该方法利用光谱信号在不同尺度下的数学特征:拉曼峰主要体现为高频细节,而荧光基线属于低频缓变成分。MSAR-BC 通过小波分解等多尺度处理提取光谱的不同频率成分,再由卷积神经网络分别建模,从而更有效地区分出基线和峰信号
论文地址:https://pubs.rsc.org/en/content/articlelanding/2024/ay/d3ay02062b
这种融合物理意义的多尺度深度学习方法在基线扣除准确度和峰形保真方面取得了优异成绩。总体来看,2022-2023年的研究趋势是在深度模型中融入领域知识(如频域特征、谱学先验等)以提升模型对不同类型基线的适应性。
在模型结构上,除了典型的编码器-解码器架构外,也出现了如双阶段U-Net级联网络等更复杂的设计。

2.4、注意力机制与Transformer阶段(2024~至今):引入自注意力的高级模型。


最近的研究开始将Transformer等注意力机制模型应用于一维光谱基线校正任务。例如,赵江山等人在2024年底发表了利用Transformer模型进行拉曼光谱基线估计的研究。Transformer最初在自然语言处理中大获成功,其自注意力机制能够高效建模长序列数据中任意位置之间的相关性。应用于拉曼光谱时,Transformer模型可以“全局看待”整个光谱,一次性考虑远距离波数点之间的关系,从而有望更准确地区分缓变的基线背景和局部的拉曼峰信号。赵等人构建的模型(可称为Transformer-BC利用了一批人工注释了基线的真实拉曼数据进行训练和评价,结果表明其基线估计精度相比以往CNN模型有进一步提高。值得注意的是,由于Transformer模型参数量大、对训练数据要求高,为弥补光谱标注数据有限的短板,研究者采用了人工标记基线+数据扩增的策略获取训练样本。Transformer-BC 的出现标志着深度学习基线校正进入了注意力机制时代。同期,Chen等人没有停下对卷积模型的改良步伐,
论文:https://pubs.rsc.org/en/content/articlelanding/2025/an/d5an00253b

在2025年又提出了一种新颖的三角形深度卷积网络(Triangular Deep Convolutional Network, TDCN)。TDCN通过特殊的网络拓扑使特征提取和重建过程形成“三角形”结构,进一步提升了模型对不同形状基线的适应能力。实验证明,TDCN相较此前的ResUNet等模型在校正精度、计算效率以及峰形保真方面都有全面改进。例如,TDCN在保持峰强度和形状方面表现出色,纠正后的光谱负偏差更小。总的来说,截至2025年,深度学习在拉曼基线校正领域已发展出从卷积网络到自注意力网络的多种技术路线。研究重点也从最初证明可行性,逐步转向提高精度、减少计算量以及融合更多任务。


3、数据集与真值基线构建

常用公开数据集: 深度学习模型的训练通常需要大量带标注的光谱数据。在拉曼光谱基线校正任务中,常用的数据集包括以下几类:

3.1、拉曼光谱数据库 (RRUFF):

RRUFF 项目提供了一个大型矿物拉曼光谱数据库,收录了各种经过充分鉴定的矿物的高质量拉曼光谱 地址:https://rruff.info/。该数据库为研究拉曼光谱分析提供了丰富的原始数据。一些基线校正研究会利用 RRUFF 中的光谱来测试算法的有效性。然而,需要注意的是 RRUFF 数据库的光谱通常已经过初步处理,某些谱已由其自带算法进行了基线扣除。因此,在利用RRUFF进行基线校正研究时,研究者可能选择将基线人工添加回这些光谱,再让模型去校正,以评估模型性能。尽管如此,RRUFF 仍是获取多样光谱的宝贵资源,其涵盖的矿物种类和光谱变化为模型的通用性验证提供了良好的测试平台。

3.2、合成光谱数据

由于真实拉曼光谱的基线“真值”难以直接获得(很难精确测量出真实背景信号),合成数据成为训练深度模型的主要手段。合成光谱通常通过以下步骤产生:
首先收集一些没有荧光背景的纯拉曼光谱或理想峰模型(可以来自实验测得的低背景光谱或通过洛伦兹/高斯峰模拟获得);
然后根据需要生成模拟的基线曲线(如使用低阶多项式、指数函数、样条函数甚至实验测得的典型荧光背景形状等);
最后将模拟基线与纯拉曼峰谱相加,并叠加一定程度的随机噪声,得到仿真的带基线和噪声的“原始”拉曼光谱。
通过这种方式,可以合成任意数量的带已知基线的训练样本。许多文献都采用了此策略,例如 Chen 等人在训练 ResUNet 时,就通过随机生成基线曲线与随机参数的拉曼峰叠加来模拟各种不同情况的光谱。这种方法能够在解决训练数据不足的同时,为模型提供明确的基线真值标签,便于计算损失函数。需要注意的是,合成基线应尽可能贴近真实情况,模拟各种不同形态(线性漂移、指数漂移、阶梯型背景等)和不同强度的背景,以提高模型的泛化能力。

3.3、真值基线的构建方法

如上所述,建立含真值基线标签的训练/测试集是深度模型监督学习的关键挑战之一。常用的方法包括:
  • 人工标注基线: 由专家在每条光谱上人工绘制基线轮廓。例如,利用专业软件在无拉曼峰的波谷处选点并做平滑插值,得到人工认为的背景曲线。这种方法精度较高,但费时费力,难以大规模应用,多用于小型测试集或校准集。
  • 算法辅助产生参考基线: 使用若干经典基线校正算法,对真实光谱进行处理并比较结果,挑选出较理想的基线作为近似真值。例如,可将多种算法(多项式拟合、airPLS、形态学法等)的输出取交集或平均,得到一个较为保守的基线估计。不过这些算法本身有偏差,其结果仅能作为参考,准确度不及人工标定。
  • 合成数据自带基线: 正如前述,在模拟合成光谱时直接记录下所添加的基线函数,即可将其作为该光谱的真值基线标签。这是当前训练深度学习模型最主要的方式。通过控制随机基线的参数分布,可以产生丰富多样的训练样本,并严格知道每个样本的真实基线形状。
  • 挑战性基线数据集: 近年也有工作提出构建专门的基线校正基准数据集,例如固定某些仪器和样品,测量不同荧光背景水平下的光谱,并已知样品真实拉曼信号(例如测已知组分的样品,在不同背景条件下的光谱,真实拉曼信号可由低温或时间门控等技术获取),从而得到带已知baseline的光谱对。这类数据获取难度较高,目前公开的仍然很有限。
通过上述方式获得的数据和标签,研究者即可对深度学习模型进行训练,并在独立的数据集上评估模型的基线校正性能。数据集的多样性和真值标注质量在很大程度上决定了模型最终的泛化能力和实用效果。

4、模型综述:结构分类与代表模型

深度学习模型在拉曼基线校正中的应用可根据模型结构大致分为以下几类:卷积神经网络(CNN)类、循环神经网络(RNN)类、注意力机制(Transformer)类以及混合结构模型。本节将对各类模型的代表结构、原理特点、优势与局限进行综述,并介绍近年的代表性模型,包括 TDCN、ResUNet-1D、Transformer-BC、MSAR-BC、DSDU 等。

4.1、卷积神经网络模型

模型结构与原理: 卷积神经网络(CNN)是一类擅长提取局部特征的深度学习模型,在一维光谱序列处理中得到了广泛应用。典型的卷积模型通过一系列一维卷积滤波器滑动窗口般地扫描光谱,可以自动学习到拉曼峰形和基线形状的局部特征。例如,低阶卷积层可能学到诸如“缓慢上升/下降”的背景形态,高阶卷积层则能组合出更复杂的模式(如峰叠加在背景上的形态)。由于基线漂移通常是缓变的全局背景信号,CNN 通过逐层池化可以逐步扩大感受野,从而在高层捕捉到光谱的整体趋势,同时保留对局部峰细节的识别能力。相比全连接神经网络,卷积网络参数更少且具有平移不变性,非常适合处理光谱这类等间隔序列数据。
代表模型:
1)Chen 等人提出的ResUNet-1D 代表了卷积基线校正模型在准确度和实用性上的一个高峰,被广泛认为是当前的SOTA(state-of-the-art)之一。
2)2025年提出的TDCN (三角形深度卷积网络)。TDCN 的结构设计灵感在于形成一个逐级扩张再压缩的“三角形”拓扑。具体来说,TDCN使用不同卷积核尺寸和步幅,在网络前半部分逐步扩大感受野抓取基线趋势,在后半部分逐步细化恢复细节,相当于一个非对称的U-Net结构。其特殊之处在于通道和层次的分配呈三角形,较前层侧重大尺度基线估计,较后层侧重小尺度峰形调整,整体架构上类似一个三角形。因此命名为Triangular DCN。根据Chen等人的报告,TDCN 较之前ResUNet等网络进一步降低了基线校正误差,并显著减少了计算耗时。同时,由于模型对不同尺度特征的针对性处理,TDCN在保持拉曼峰形和强度方面尤为突出,峰高和峰宽等参数在校正前后几乎没有改变。这说明精心设计的卷积架构能够更好地兼顾基线去除的充分性和峰信息的完整性。

优缺点分析: CNN类模型的主要优势在于其对特征的局部提取能力和结构上的灵活性。通过调整卷积核大小、网络深度和架构(如U-Net跳连、ResNet残差等),可以针对不同基线形态和噪声水平进行优化。此外,卷积模型计算效率高,适合于大量光谱的批处理和实时处理应用。例如,一旦模型训练完成,推理时对每条光谱的校正只需几十毫秒,满足在线光谱监测的需求。而且卷积网络具有一定的平滑滤波效应,天然适用于去除平滑的背景信号。卷积模型的局限性主要在于:1)对训练数据依赖较大,如果训练集中未包含某类特殊基线形态,模型在遇到新情况时可能泛化不佳;2)卷积属于固定形状滤波器,可能需要较深的层数才能覆盖非常宽的背景变化,这增加了训练难度;3)传统卷积模型主要关注局部模式,对于非常全局性的趋势(如整个光谱缓慢弯曲的底线)有时捕捉不如专门的全局模型(如Transformer)直接。尽管如此,得益于丰富的研究积累,卷积模型目前仍是拉曼基线校正的主流方案,许多最新方法也常在卷积基础上进行改进。

4.2、循环神经网络模型

模型结构与原理: 循环神经网络(RNN)是一类用于处理序列数据的神经网络,通过隐藏状态的循环连接来记忆先前输入,从而适合捕捉长程依赖关系。在拉曼光谱基线校正中,RNN可以将光谱视为时间序列,逐点读入并根据过去的数据估计当前的基线值。例如,一个简单的RNN或其改进型 LSTM(长短期记忆网络)可以通过记忆光谱前段的强度水平,逐步预测后续的平滑基线走向。理论上,如果拉曼光谱的基线漂移是缓慢变化的,那么RNN 有能力在其循环状态中累积这种变化趋势,从而对全谱形成一种全局性的基线“理解”。与CNN侧重局部窗口不同,RNN天生擅长处理序列全局特征和长距离相关。
应用情况与代表模型: 尽管RNN在序列任务上表现突出,但在拉曼基线校正领域并未像CNN那样广泛应用。这有几个原因:首先,拉曼光谱虽然也是一维序列,但其长度相对于典型时间序列并不算长(常为几百到一两千个采样点),使用卷积网络已经足以覆盖全局;其次,RNN的训练相对困难,存在梯度消失和训练耗时长的问题,在需要大量样本训练的背景下不如CNN高效;再次,在许多实验中,CNN已经表现出良好的效果,研究者优先选择了更易训练的CNN架构。因此,较少有文献专门报道基于RNN/LSTM的拉曼基线校正模型。不过,也有一些研究在尝试将RNN用于光谱数据的其他预处理任务,比如利用LSTM平滑光谱噪声或配合卷积提取序列特征。在基线校正方面,可以设想一种可能的模型:使用 Bi-LSTM(双向长短期记忆网络),从光谱两端同时进行扫描,综合前向和后向的序列信息来估计中间的基线值。这种方法理论上能够更准确地捕获全局趋势。但检索文献发现,并没有针对拉曼基线校正的RNN主导的模型成为主流或取得超越卷积网络的显著成果。因此,我们可以认为,在目前阶段RNN更多是作为辅助或对比模型出现。例如,有些研究可能构建CNN和RNN的混合模型,利用CNN提取局部特征,再用RNN整合序列信息。总体而言,循环网络在该领域尚未大放异彩
优缺点分析: RNN 模型的潜在优点在于擅长处理长相关和顺序模式,理论上适合光谱这种存在整体背景趋势的任务。而且RNN的隐状态能够累积先前信息,对于逐点修正基线可能更为自然(类似逐点滤波)。缺点方面,RNN对长序列训练困难,在序列过长时效果不佳(但拉曼光谱长度中等,这点影响有限)。更实际的问题是,在丰富的卷积模型已经取得很好效果的情况下,引入RNN复杂度较高且未见明显收益。因此目前RNN不是拉曼基线校正的主力模型。但随着深度学习的发展,不排除未来会出现结合RNN的新方法,例如融合Transformer和RNN或以RNN为基础的新型网络。如果有更大尺度(例如光谱序列随时间演化的基线漂移)的问题出现,RNN的价值可能会凸显出来。

4.3、注意力机制模型(Transformer类)

模型结构与原理: 注意力机制(Attention)特别是基于Transformer架构的模型,是近年来兴起的一类强大序列建模工具。Transformer通过自注意力机制,可以在每一层直接计算序列中任意两个位置之间的相关权重,从而突破了CNN和RNN对局部或顺序邻近的依赖。对于拉曼光谱来说,Transformer能够让模型“全局看待”整个光谱:它可以同时关注光谱前部和后部,从中捕捉基线在全局范围的变化模式。例如,如果光谱基线呈现先上升后下降的趋势,Transformer可以通过注意力将前段和中段的信息联系起来,从而更准确地判断背景的走向。这种全局关联能力使Transformer类模型理论上非常适合处理像基线漂移这样跨越整个频谱范围的干扰。
代表模型: 目前,Transformer在拉曼光谱基线校正中的代表作是赵江山等人发表于2024年的工作。该研究提出利用纯Transformer架构来完成基线估计任务。模型将一条拉曼光谱视作一个序列输入Transformer编码器,通过多头自注意力层提取光谱各区域间的相关性特征,最后映射输出与输入长度相同的基线预测。由于Transformer没有卷积或循环结构的局限,它能够轻松建模光谱中的长程依赖关系,例如将远端的荧光背景形态关联起来。据报道,Transformer-BC在他们构建的手动标注数据集上相对于卷积基线模型取得了更低的基线拟合误差。尤其是在一些背景起伏复杂的光谱上,Transformer的全局视野使其可以更准确地区分哪些成分属于平滑背景。需要指出,Transformer模型参数量巨大,对训练数据量要求高。为此,赵等人的研究采用了预训练和微调结合的策略:先用大量合成光谱预训练Transformer,使其初步掌握一般性的光谱模式,再用小规模的人工标注真实光谱进行微调,从而兼顾模型泛化能力和在真实光谱上的准确性。除了纯Transformer外,还有一些变体融合了卷积和注意力,比如在卷积网络中嵌入自注意力模块(即 CNN+Attention 混合),或使用 Transformer Encoder 提取特征、再由 CNN Decoder 重建基线等。这类模型尚在探索中,但初步结果显示,相比纯卷积,它们在处理非典型基线(如陡峭陨落、局部突变的背景)时有更优势,因为注意力可以灵活关注到异常区域并调整基线。
优缺点分析: Transformer类模型的突出优势在于全局建模能力强和特征表达力丰富。它不受卷积窗口或循环顺序的限制,可以根据任务需要关注光谱中的任意部分组合,从而对基线进行更精准的拟合。此外,Transformer可以并行计算(相较于循环网络逐步处理),在硬件加速下即使模型庞大也能高效推理。对于基线校正这样需要精细刻画全局趋势的任务,Transformer有潜力提供比传统模型更高的上限性能。然而,其缺点同样明显:Transformer需要大量训练数据进行学习,否则容易过拟合小数据并失去推广能力。这在拉曼基线任务中尤其突出——真实带标注的数据极其有限。此外,Transformer模型复杂度高,训练和部署的计算成本远超一般卷积网络,不利于资源受限环境(如便携式光谱仪嵌入设备)应用。最后,Transformer的预测往往缺乏可解释性,注意力虽然能给出一定提示,但模型为何做出某种基线估计仍然是“黑箱”。总体而言,Transformer为拉曼基线校正提供了一个新的有力工具,特别在高精度要求场景下可能引领性能提升。但在实际应用中,需要平衡其巨大资源需求和潜在精度收益。目前Transformer-BC等模型还处于研究阶段,要真正取代成熟的卷积方案尚需进一步探索数据获取和模型简化的方法。

4.3、混合结构与其他模型

模型结构与原理: 混合结构是指将上述各种模型范式进行结合,或者引入其它特殊机制的模型。其目的是利用不同模型的优势来弥补单一结构的不足。在拉曼光谱基线校正中,有几种值得注意的混合思路:
  • 卷积+对抗(GAN): 这是利用生成对抗网络思想来提升基线校正效果的尝试。典型案例是前文提到的 Liu 等人的 BRN 模型。他们采用了一个 Generator 网络产生基线校正后的光谱,另配一个 Discriminator 判别校正结果的真实性(例如判别光谱中是否仍残留基线成分)。通过生成器和判别器的对抗训练,生成器被逼迫产出尽可能逼近“真实无基线光谱”的输出,从而达到自动校正基线的目的。GAN结构的引入有助于解决传统损失函数难以度量的“峰形保真”问题,因为判别器可以学习到人眼难以量化的差异,使得模型校正结果不仅在数值误差上小,而且更“真实自然”。BRN的结果表明,GAN 配合残差卷积可以高精度去除基线且不损伤拉曼峰,成功避免了手工参数调整。但GAN训练不稳定的问题也需要注意,训练时需保持平衡避免模式崩溃。
  • 多尺度卷积+回归: 这指的是前述 MSAR-BC 模型等,将传统信号的多尺度分析与卷积网络回归相结合。具体做法通常是在预处理中用小波变换把光谱分解成不同频带分量,然后将这些分量作为输入喂给深度网络分别处理,最后再综合得到校正结果。另一种思路是在卷积网络内部引入不同卷积核大小或不同池化尺度的分支,使网络自行学会从宽波段和平滑背景到窄波段和尖锐峰值的多层次特征。这类模型本质上还是卷积网络,但因为融合了频域/尺度的信息,往往对基线和峰的区分更加敏锐。例如有文献报告,通过在CNN中加入多分支卷积模块(卷积核长度分别对应长、中、短波长尺度),可以显著提高校正对各种宽度背景的适应性,同时保持对窄峰的检测能力。
  • 序列+卷积混合: 这方面的例子包括将 LSTM/RNN 与 CNN 结合的模型。卷积部分负责提取局部模式特征,循环部分负责整合顺序相关。例如可以设计一个两段模型:先用若干卷积层将光谱编码成特征序列,再用双向 LSTM 读取该特征序列以预测基线。这样既利用了卷积的强局部特征提取能力,也利用了循环网络对全局顺序模式的记忆。虽然目前没有看到公开的专门这样做并显著超越其他方法的报道,但这个方向在理论上可行。一些相关领域(如光谱时间序列分析)已经使用CNN+LSTM的混合网络取得了成功,未来或许会有学者将其引入拉曼基线校正任务。
  • Transformer+卷积混合: 这类模型试图结合Transformer的全局注意力和卷积的局部精细优势。可能的实现如:用Transformer编码器获取光谱全局背景的表示,再将这一表示融入卷积解码器校正细节;或者在卷积网络中增加几个自注意力模块,使网络在需要时可以“跳出”局部视野看全局。混合模型有望达到“1+1>2”的效果,即全局基线趋势由注意力处理,局部峰形修正由卷积完成,从而得到比单一结构更佳的结果。目前有一些初步研究,例如某些医学光谱处理工作中使用了卷积Transformer混合网络,报告显示相对于纯CNN在基线扣除上有所改进。不过这方面在拉曼基线校正中的应用仍在探索中,尚未形成明确的代表模型。
  • 双阶段/级联模型: 这是指将两个或多个模型串联使用,让每个模型专注于不同的子任务。例如前述 DSDU(Dual-Stage Dual-UNet)思路:第一个 U-Net 去噪,第二个 U-Net 校正基线。再比如,可以先用一个网络粗略估计一个基线,再将初步校正的光谱送入第二个网络做精细的残余基线修正。级联的思想类似传统信号处理中粗调+细调两个步骤。Chen等人在他们2024年的工作中其实也采用了类似分而治之的思路,只不过他们是将去噪和校正作为两个独立网络分别训练使用。双阶段法的优点是每个模型结构可以更简单(各自解决一部分问题),训练也更具针对性;缺点是总体流程变长,而且误差会在阶段间传递,需要仔细设计衔接方式(例如第一阶段不要过度削弱信号以免影响第二阶段)
优缺点分析: 混合模型的优点在于融合各家所长,针对复杂情况提供更灵活的解决方案。例如GAN能够把定性判别引入,提高峰形真实性;多尺度方法加入先验,使模型更有物理意义;两阶段处理让问题分解,减少单模型负担混合模型往往在特定指标上表现突出,比如BRN的对抗训练确保了峰的完整保留,MSAR-BC的多尺度分析让模型同时兼顾宽/窄基线。这些都不是单一普通CNN容易做到的。然而混合模型也有其不足:网络结构更复杂,调试和训练难度增加,可能需要更多数据和算力;模型的超参数更多(例如各分支权重、两个阶段如何划分等),引入了新的调参工作。此外,复杂模型可能欠缺通用性,某种混合结构对特定场景有效但换一种场景未必仍有优势。因此,设计混合模型需要深厚的领域知识和大量实验探索。总体而言,混合模型代表了深度学习基线校正领域不断创新的方向,其潜力在于突破现有模型的瓶颈。但在追求性能的同时,也需权衡模型复杂度和实际应用的可行性。

5、评估方法

评估拉曼光谱基线校正算法的效果,需要从数值误差峰形保真两方面进行衡量。常用的评估指标包括以下几类:
  • 基线拟合误差指标: 用于量化模型所估计基线与真实基线之间的差异。典型指标有平均绝对误差 (MAE)均方根误差 (RMSE)。MAE是估计基线与真值基线之差绝对值的平均,RMSE则对误差进行了平方平均,更加重视大误差样本。在合成数据集上,这两项指标可以直接计算,因为真值基线已知。在实际数据上,如果以人工校正或参考算法结果作为近似真值,也可计算这些误差值。一般来说,MAE/RMSE越低表示基线校正越准确。例如,Schmidt等人的CNN模型报告相对于传统方法降低了基线估计的MAE,Chen等人的ResUNet模型则取得了所有比较方法中最小的RMSE和MAE。这类指标直观反映了基线去除的定量效果,是算法对比中最常用的指标之一。
  • 负基线率 (Negative baseline rate): 这是一个特殊的指标,用来衡量校正后光谱是否出现物理上不合理的负值。理想情况下,基线校正后的拉曼光谱应当以0为基准线,所有信号(除噪声波动外)都在零线以上。如果出现大量低于0的区域,通常意味着校正算法过度扣除了基线。负基线率可以定义为校正后光谱中数据点低于零的比例,或低于零的面积占总面积的比例等。如果该比例过大,说明算法可能将部分拉曼信号误当作基线扣除了,使实际信号被削减。优秀的基线校正算法应当将负值率控制在很低水平(理想为0)。一些文献在比较算法时会提及校正后是否有负值谱段,以此作为判断算法是否过校正的依据。特别是在没有明确真值基线时,负基线率是一个很有用的定性参考:较低的负值产生往往表示基线扣除恰到好处,没有“扣过头”。
  • 拉曼峰保留指标: 基线校正算法不仅要去掉背景,还需尽可能不失真地保留拉曼散射峰。因此,需要从峰强度、峰位置、峰面积、峰宽度等方面考察校正前后的变化情况。常用做法是选取若干显著的拉曼峰,对比校正前后的参数差异。例如:
    • 峰高 (peak height): 校正后峰高与校正前(或与真值峰高)的比值或差值。理想结果是峰高基本不变。如果校正后峰高降低很多,说明算法削弱了信号。
    • 峰位置 (peak position): 一般以峰的中心波数作为峰位指标。校正算法不应改变峰的位置(峰位偏移通常由仪器校准问题引起,与基线校正无关)。如果校正前后峰位发生偏移,说明算法可能对谱线形状产生了影响(例如不当平滑导致峰顶位置变化)。
    • 峰面积 (peak area): 衡量峰的总强度,通常通过积分峰下面积获得。基线校正如果不准确,会导致积分区域不确定或峰底剪切,从而影响峰面积计算。评估时可比较校正前后峰面积的变化百分比。
    • 半高宽 (FWHM): 峰的全宽半高,是峰形尖锐程度的指标。一个好的校正算法不应使峰变得更宽或更窄(除非基线扣除改变了峰的基底定义)。比较FWHM可以发现算法是否对峰形状有额外影响。
在有真值光谱的情况下(如模拟数据中已知纯拉曼峰形状),上述每项都可以与真值作直接对比;在无真值时,则通常以校正前(扣Baseline但假定峰形基本不变)作为参考。比如,Gebrekidan等人在评估U-Net去噪和去基线效果时,计算了校正后光谱与参考光谱的结构相似度指数(SSIM),从整体上量化峰形保持情况;Chen等人在TDCN论文中报告他们的方法更好地保留了峰强度和形状,暗示在峰高/峰宽等指标上优于其他方法。
综合来看,评价基线校正需要**“双管齐下”**:一方面看数值误差(基线是否扣除了恰当数量的信号),另一方面看峰是否保持完好(没有被过度扣减或形变)。一个基线校正算法若能在实现低MAE/RMSE的同时,保持极低的负基线率且峰参数几乎不变,那么可认为是非常优秀的算法。在实际研究中,往往需要结合多个指标一起考虑。例如,有的算法基线误差很低但稍微削弱了峰高,这在某些定性分析场景可能可以接受,但在定量分析中就不理想。反之,如果峰完全保留但基线扣除不充分(误差高),算法价值也有限。因此,研究者会根据具体应用需求,在基线去除充分性和峰信息保真度之间寻找平衡,并通过上述指标的综合比较来选择或改进算法。

未来展望

深度学习在拉曼光谱基线校正方面已取得长足进步,但仍有诸多挑战和创新方向。未来的研究可能在以下几个方面取得突破:

少样本/零样本学习与自监督技术

获取大规模高质量的带基线标注数据是一项困难且耗时的工作。未来的模型需要降低对标注数据的依赖,这催生了少样本学习、零样本学习等新方向。在少样本情境下,可以利用迁移学习数据增强技巧:例如先用大量模拟数据预训练一个基线校正模型的骨干网络,再用很少的真实标注样本进行微调,使模型适应真实光谱。这种预训练-微调策略已经在Transformer-BC等工作中有所应用并显示出效果。零样本学习则更具挑战,可能需要模型内置更多物理先验或者通过生成模型来自我训练。例如,可以考虑引入自监督学习:设计网络自己从未标注光谱中学习规律,如让模型同时输出“平滑成分”和“细节成分”,并设法使细节成分包含所有尖锐峰而平滑成分解释其余信号,形成一种不需要明确基线标签的训练信号。类似的方法在图像分解等领域已有探索,可尝试移植到拉曼光谱领域。另外,GAN 的判别器输出也可用作未标注数据的训练监督,使模型学会识别“有无基线”的光谱区别,这也是一种自监督思路。总之,减少对人工标注的依赖,将大大提高模型实用性。未来或许会出现基于对比学习变分自编码(VAE)的框架,在大量未标记拉曼光谱上预训练,然后在少量标记数据上达到媲美有监督模型的性能。

多任务联合学习与光谱智能分析

拉曼光谱基线校正并不是光谱分析的最终目标,它通常是下游任务(如物质鉴定、组分定量、光谱分组)的预处理步骤。未来一个重要方向是在一个统一的模型中同时完成基线校正和下游分析,即多任务学习。例如,设计一个模型具有两个输出分支:一个输出校正后的纯拉曼光谱(或直接输出基线曲线),另一个输出光谱所属的分类标签或回归浓度值。这两个任务彼此关联:良好的基线校正有助于提高分类/回归精度,而了解谱峰所对应的物质类别又能反过来指导基线的识别(不同物质的光谱背景可能有模式可循)。通过联合训练,模型的隐藏层将同时学习到“如何去基线”和“如何识别物质”,从而达到共享表示、互相促进的效果。一些初步研究已经体现了这种思路,例如有工作将基线校正和异常检测同时融入一个网络,使网络一边校正光谱一边判定谱是否含荧光淬灭剂pubs.acs.org。未来更通用的做法是开发一个“全能光谱助手”模型:给它原始光谱,它可以输出校正后的光谱、识别其中的物质成分、甚至还能给出峰的指认和注释。这种一体化模型将极大简化光谱分析流程,提高效率。此外,多任务学习还有助于模型的鲁棒性。例如在训练时增加一个辅助任务(如重构原始光谱或预测光谱的某些属性),可以防止模型过度拟合在基线校正单一目标上,从而在复杂情况下表现更稳健。

基线-峰分离理论的改进与模型融合创新

基线校正的本质是在信号分离:将观测光谱分解为“慢变背景+锐利峰”两部分。这一点与信号处理中的趋势-细节分离、频率分离有共通之处。未来在理论层面,可以进一步发展专门针对拉曼光谱的基线-峰分离模型。例如,引入更符合拉曼光谱特点的数学表示:基线可能用低频傅里叶分量表示,拉曼峰用一组参数化峰型(如洛伦兹函数)表示。然后通过深度学习来动态估计这些表示的参数。这将融合传统光谱拟合的精确性和深度学习的灵活性。另外,物理信息融入也是趋势,如考虑拉曼峰的物理线型(对称性、半高宽范围)去约束模型识别出哪些是峰、其余就是基线
在模型融合方面,未来可能出现更多创新的网络结构。例如,受启发于图像领域的 SwIN Transformer 、DenseNet等架构,设计适用于光谱序列的稠密连接金字塔结构,能够同时捕获局部细节和全局背景。又比如基于物理仿真的深度展开模型:将传统基线算法的迭代过程用神经网络模块表示,形成一个可训练的迭代网络(deep unrolling),既保留算法机理又利用数据驱动来优化迭代步骤。这样的模型在去噪等任务已有成功案例,在基线校正上也值得一试。
此外,随着拉曼光谱数据量的增加和计算平台的发展,集成学习可能发挥作用。可以训练多个专长不同的子模型(如分别擅长平滑背景、陡峭背景、低信噪比情况等),然后构建一个元模型根据输入光谱特征自适应地选择或融合子模型的输出。通过模型集成,可以兼顾各类方法的优点,避免单一模型难以面面俱到的问题。当然,这会增加计算复杂度,需要在云端或高性能计算环境中运行,未来或许借助边缘计算和芯片优化可以应用于现场。
最后,值得关注的是模型的解释性和可控性。工业和科研用户希望了解模型校正基线的依据,未来的模型或将提供人机交互接口。例如,通过调整几个抽象的参数(如“平滑程度”、“峰保持程度”),让用户在结果上微调,从而增加信任度和接受度。这要求模型在黑箱预测之外,提供一定的可调节控制。自解释模型、可视化工具的发展将有助于这一方向。