EEG脑电分类系列
导出时间:2025/11/24 08:59:48
1、EEG基础知识
1.1 脑电信号原理与采集方式
脑电图(Electroencephalography, EEG)是在头皮表面通过电极记录大脑神经元群体同步电活动的方法。EEG信号主要反映大脑皮层大量锥体细胞突触后电位的同步变化。由于头皮、颅骨的阻隔,EEG振幅很小(通常仅几十微伏),需要高增益放大器采集。
传统EEG使用多导联电极按国际10–20系统放置于头皮特定位置,以保证各实验间数据的可重复性和可比性。10–20系统规定电极命名以大脑区域英文首字母和编号标识,例如F(frontol)额区、T(temporal)颞区、C(central)中央区、P(parietal)顶区、O(occipital)枕区等,奇数表示左侧、偶数表示右侧,中线以“Z”标识。常用临床和研究EEG设备通道数从21导(标准临床配置)到32、64甚至256导不等。EEG信号具有高时间分辨率(毫秒级),能够反映大脑瞬时状态变化,但空间分辨率较低,难以精确定位深部脑区活动。采集EEG时需避免环境电磁噪声和生理伪迹(如眼电、肌电),通常在屏蔽室内进行,受试者佩戴含电极的弹性帽,使用导电膏提高电接触。近年来出现了干电极和可穿戴无线EEG设备,提升了EEG采集的便携性,但信噪比相对较低
1.2 脑电波频段划分及生理意义:
人脑在不同觉醒和认知状态下会产生不同频率成分的脑电节律。根据频率范围,EEG常划分为几个经典频段:
δ波(Delta,约0.5–4 Hz)主要见于深度无梦睡眠阶段;
θ波(Theta,4–7 Hz)与瞌睡、浅睡或放松冥想状态相关;
α波(Alpha,8–13 Hz)在清醒闭眼放松时于枕部和顶区明显,可被睁眼或警觉刺激抑制;
β波(Beta,13–30 Hz)在睁眼专注、紧张思考时于额区等增强,反映大脑警觉兴奋状态;
γ波(Gamma,30 Hz以上,一般指30–100 Hz)与高级认知功能和意识相关,在专注、记忆加工时出现,高频γ活动也在感觉整合和脑区通信中起作用。
以上频段并非截然独立,大脑信号是多频混合的连续谱,各频段的划界有所不同。此外还有诱发电位成分如P300(刺激后约300ms的正峰)等,但这些属于事件相关电位(ERP)范畴,不在自发EEG频段划分之内。不同频段与脑功能状态密切相关,如α波被认为反映静息放松,β/γ波对应积极认知活动,而θ/δ波出现则可能表示困倦或睡眠。研究者常将EEG在各频段的功率作为特征,用于分类情绪或认知负荷等。
1.3 电极布置与脑区映射:
EEG电极的布局通常采用国际10–20系统标准,将头皮特定解剖标志点之间距离按10%或20%等比例划分放置电极。例如,在鼻根(nasion)到枕骨隆凸(inion)的中线及两耳之间连线处标定若干点,即可确定Fpz、Fz、Cz、Pz、Oz等中线电极;左右两侧按额、顶、颞、枕等脑叶分区对称放置F3/F4、C3/C4、P3/P4、O1/O2等电极,数字奇数表示左侧、偶数表示右侧。10–20系统21导对应经典脑区功能:例如F3/F4位于前额皮层与情绪/执行功能相关,C3/C4在中央运动皮质投影区(左侧C3主要感知/控制右手运动,右侧C4对应左手),P3/P4在顶叶感觉联合区,O1/O2位于视觉皮层投影区等。通过脑区定位,可将EEG特征与认知功能联系,如运动想象任务常重点分析C3/C4导的µ节律变化,情绪相关研究关注额区α不对称等。值得注意的是,不同个体解剖差异可能导致同名电极下覆盖的精确皮层区域略有不同。高密度EEG可采用10–10或10–5系统在标准21导间加插电极,提升空间采样密度。EEG记录通常采用双极或参考引导方式,每导记录某电极与参考电极(如耳垂或头皮中央参考)的电位差。为了更直观地解析脑区贡献,研究者还常将EEG各通道映射到头部拓扑图或使用源成像技术估计皮层电流源的空间分布
2、EEG分类任务定义与场景应用
2.1 情绪识别
基于EEG的情绪识别是情感计算的重要方向,旨在通过脑电模式自动判别个体的情绪状态(如快乐、愤怒、悲伤等)。与面部表情、语音语调等外显信号相比,EEG属于内隐生理信号,难以被人为抑制,更客观地反映真实情绪。
常见情绪诱导实验通过让受试者观看带有特定情绪倾向的影片或图片、聆听音乐等方式,引发不同情绪,再记录脑电用于模型训练。
情绪的描述模型包括离散分类(基本情绪类别)和连续维度模型(如愉快度valence和唤醒度arousal)。
EEG情绪识别任务可相应定义为多类分类(例如区分高兴、厌恶、恐惧等多种情绪)或二分类(如正性/负性,高唤醒/低唤醒)等。
应用场景上,情绪BCI可用于安全驾驶监测(检测驾驶员困倦/烦躁)、精神健康(监测抑郁情绪变化)、人机交互(根据情绪状态自适应系统响应)等。
研究表明,不同情绪会引发大脑特定模式,如正性情绪时额叶α波功率左右不对称、负性情绪时θ波活动增强等。然而情绪EEG模式个体差异显著,跨被试通用性较差,需要大量数据和高级特征提取方法来提升分类准确率。近年来深度学习在情绪EEG上取得进展,端到端模型能够自动学习时频特征并达到优于传统方法的效果。例如,有研究使用动态图卷积网络捕捉脑电空间连接,实现对情绪的高准确率识别。总的来说,EEG情绪识别具有广阔应用前景,但仍面临情绪诱导生态效度不高、个体差异和数据标注主观性等挑战
2.2 癫痫检测:
癫痫是一种以异常脑电放电(癫痫样放电)引起反复发作为特征的神经疾病。临床上EEG是癫痫诊断的金标准之一,可记录到癫痫患者发作间期的痫样放电(如尖波、棘慢复合波)以及发作期的高幅度节律活动。
EEG癫痫检测任务通常包括:
(a) 发作检测,即从长时间EEG记录中自动识别出癫痫发作的开始和结束时刻;
(b) 癫痫分类,将EEG片段分类为发作期或正常期,或进一步分型不同类型的癫痫发作;
(c) 发作预测,尝试在发作前几分钟从EEG预测即将发生的癫痫。
自动癫痫检测的应用包括为癫痫患者提供发作报警(防止意外伤害)、医生诊断辅助,以及在ICU等环境下对长程EEG进行实时监测。由于癫痫发作具有稀疏性和不可预知性,EEG记录往往长达数小时乃至全天,其中发作片段仅占极小比例,导致数据高度不平衡。深度学习方法通过卷积神经网络提取EEG的时频特征,已在发作检测上取得显著成果。例如,1D卷积网络能从原始EEG学会特征并达到近乎完美的区分准确率(一些研究在常用数据集上报告>99%的敏感度)。特别地,大型公开数据(如TUH癫痫语料库)推动了更稳健模型的发展。有研究采用多层卷积+双向LSTM结构,结合时间上下文提高了发作预测的准确率。
此外,癫痫发作往往表现出脑区同步放电,因此图神经网络也被用于将EEG通道构建脑网络图,以捕捉发作在不同脑区的传播模式。需要注意的是,癫痫EEG分类系统在临床落地需达到极低的误报率和较高的灵敏度,以确保可靠性。当前算法在受控数据集上表现优异,但在真实医院环境中可能因电极脱落、人为伪迹等导致性能下降,因而抗噪性和泛化性仍是研究重点
2.3 睡眠阶段识别:
人的睡眠过程可分为若干生理阶段,包括觉醒(W)、快速眼动睡眠(REM)和非REM睡眠N1、N2、N3期等,每一阶段具有特征性的脑电波形。
临床上通过多导睡眠脑电图(PSG)记录整夜睡眠,并由技师依据30秒为单位的EEG/EOG/EMG特征对每个时间窗标注睡眠分期。自动睡眠分期任务即利用算法从EEG等生理信号输入中预测每个时间段所属的睡眠阶段。
其应用包括睡眠质量评估、辅助诊断睡眠障碍(如失眠、睡眠呼吸暂停)等。传统自动分期依赖人工提取特征(如δ波比例判断深睡等),近年来深度学习(尤其卷积网络和长短期记忆网络)显著提高了自动分期准确率。
睡眠EEG的典型特征:清醒时以α和β波为主,N1阶段出现θ波,N2阶段可见睡眠纺锤波(sigma, ~12–16 Hz)和K复合波,N3深睡时大量δ波;REM阶段EEG类似浅睡(混合频率低幅活动)但伴随肌张力下降和快速眼球运动。
自动分期模型需要学会这些波形特征并结合上下文阶段转移模式。常用指标包括分期Accuracy和Cohen’s Kappa等衡量算法与人工标注的一致性。近年来CNN模型如DeepSleepNet、SeqSleepNet以及结合注意力机制的多模态模型不断刷新Sleep-EDF等公开数据集上的分期性能,最高总体准确率已达85–90%以上。例如,有研究采用多通道卷积+双向LSTM对EEG、EOG、EMG联合建模,在Sleep-EDF数据集上取得约91%分类准确率和Kappa 0.89的优异表现。需要注意睡眠分期的类别不平衡(如N2阶段占比往往超过一半),因此Balanced Accuracy和Kappa比纯Accuracy更能体现模型性能。未来方向包括利用跨夜跨被试迁移提升模型泛化、通过可穿戴设备少导联信号进行分期等。
2.4 运动想象识别
运动想象(Motor Imagery, MI)指不实际运动肢体而在大脑中想象该运动的过程,它会在脑电中引发与实际运动相似的节律变化,特别是中央运动皮层区域的µ节律(8–13Hz)和β节律(18–26Hz)出现律动抑制(ERD)和反弹(ERS)现象。
MI是脑机接口(BCI)领域经典范式,可用于帮助瘫痪患者通过脑信号控制假肢或轮椅等装置。典型MI分类任务是在EEG信号中区分想象不同动作(如想象左手 vs. 右手运动)。
常用实验包括两类MI(二分类,如左右手)或四类MI(如左手、右手、双足、舌头想象)。EEG特征主要来自对C3/C4等中央区导联的µ/β波功率分析,传统方法如共空间模式(CSP)提取差分特征,再用LDA/SVM分类。在深度学习应用下,卷积网络能够自动学习空间滤波器和时频特征,如著名的EEGNet、ShallowConvNet等已在BCI竞赛数据上取得领先表现。MI识别的重要挑战是信噪比低(想象信号弱且易被背景脑电淹没)以及个体差异(不同受试者脑电幅值和频率特征不同)。为提高鲁棒性,研究者尝试多种策略:如频带滤波银行提取多频特征(FBCSP方法);数据增强缓解小样本问题;以及近年来的时序建模(将CNN提取的特征送入RNN或TCN,以捕获长时间依赖)。Transformer架构也被引入MI解码,通过自注意力机制捕获全局时间依赖。实际应用中,为克服训练数据有限且分布迁移问题,一些研究利用迁移学习或域自适应技术,将预训练模型从公开数据迁移到新用户,以减少校准时间。当前在BCI Competition IV 2a(4类MI)数据集上,最先进模型单人校准条件下准确率可达80–85%以上,而跨人通用模型仍较低,有待进一步攻克。
3、EEG数据集综述
公开数据集对推动EEG信号分类研究至关重要。下面综述几类具有代表性的数据集,列出其任务类型、规模和特点。
3.1 DEAP数据集(情绪分析):
DEAP (Dataset for Emotion Analysis using Physiological signals) 是情感计算领域引用最广的多模态情绪数据库之一,由Koelstra等提供。实验让32名被试(男女各半)观看40段1分钟音乐视频,以诱发不同情绪。每段视频后被试自行评定其情绪的唤醒度、愉快度、掌控感和喜欢度(以1-9分量表)。DEAP同步记录了32导EEG和8路外周生理信号(如EDA、心率等),其中EEG采用BioSemi ActiveTwo系统,采样率512 Hz,后下采到128 Hz;32个Ag/AgCl电极按国际10-20系统布放。EEG预处理包括频带滤波、眼动伪迹去除,并提供MATLAB格式的预处理数据。DEAP可用于二分类情绪判别(如依据评分高低将影片分为高/低唤醒、高/低愉快二类)或回归预测(直接预测情绪评分)。数据量:32被试×40试次=1280样本,每样本长63秒(含基线3秒)。DEAP公开下载地址在PhysioNet和作者主页。其多模态记录也支持研究EEG与面部表情、生理信号的融合情绪识别。
3.2 SEED系列数据集(情绪分析)
SEED数据集由上海交大情感计算团队构建,包括SEED和后续扩展的SEED-IV等版本。SEED (2015)收集15名大学生(7男8女)观看15段中文电影剪辑的视频,每个视频约4分钟,分别诱导正面、中性、负面三类情绪,每类5段。每位被试在不同日期重复实验3次,共获取15(被试)×15(影片)×3=675段情绪EEG。EEG使用Neuroscan 62导电极帽记录,采样率1000 。发布的数据包含原始64通道(62 EEG+2 EOG)信号及每段的自评情绪标签。SEED-IV (2018)进一步扩充为4类情绪(快乐、悲伤、恐惧、中性),受试者增至44人但每人只进行一次实验(其中15人做了3次)。SEED-IV总计产生四类情绪的EEG片段等。SEED数据集的标签为离散情绪类别,可用于情绪三分类或四分类任务。其特点是片段较长(4分钟)且每人重复测量,适合研究跨次跨日稳定性。此外,SEED提供各段的视频刺激内容,可研究脑电与刺激的关联。下载可通过情感计算中心官网提供的链接获取。另有SEED-V等后续版本引入更多被试和实验条件。SEED数据常用于训练情绪分类模型,在跨被试情绪识别研究中也经常作为基准。
3.3 BCI Competition运动想象数据集
国际BCI竞赛提供了许多经典的公开EEG数据用于运动想象解码算法比拼。其中最广泛采用的是BCI Competition IV的数据集2a。
BCI IV-2a包含9名健康受试者,每人进行了两天实验,每天记录22导EEG+3导EOG,以250 Hz采样。被试被提示执行四类运动想象任务:左手、右手、双足、舌头,各类每次试验持续3秒,共288次试验(每类72次)随机呈现。数据已划分训练集(包含EOG伪迹通道以便伪迹处理研究)和测试集(不含EOG)。BCI竞赛还提供对应的标签和评价脚本,用于算法性能比较。
另一个相关数据集是BCI Competition IV-2b,是两个类别(左手/右手)想象的EEG数据,有9名被试,每人5通道EEG,两类各120次。
同系列的BCI Competition III也有知名的数据,如Dataset IVa(5位被试3类MI)等。这些公开数据集的样本量相对有限,但由于采集严格、标签准确,非常适合作为算法基准测试。
此外,BNCI Horizon 2020项目整合了多个BCI数据资源,并提供统一格式(如Graz数据集、KU数据集等运动想象EEG)。总的来说,BCI Competition数据集是MI解码研究中使用最多的资料,为比较不同模型提供了公平平台。研究者可以从竞赛官网或BNCI数据库获取这些数据集及说明文档。
3.4 TUH EEG语料库(临床脑电)
Temple University Hospital (TUH) EEG Corpus是目前规模最大的公开临床脑电数据库isip.piconepress.com。TUH EEG包括2002–2017年间在天普大学医院采集的约26,000多条EEG记录,覆盖1万余名受检者,总时长超过14万小时。
这些记录对应各类临床指征(癫痫、晕厥、癔症等)的常规检测,导联配置和记录时长不尽相同(多为21导,采样率250 Hz或更高)。
TUH语料库包含若干子集:
例如TUH Abnormal EEG (TUAB)标注每条记录为正常或异常,用于脑病理分类研究;
TUH Seizure (TUSZ)包含将近900小时的癫痫患者EEG并对发作段落进行了精确注释,可用于训练发作检测算法
TUH Artifact子集中对眼动、肌肉等常见伪迹进行了标记。
由于TUH数据量庞大且涵盖多样病例,它被用于训练深度模型以提高泛化能力。例如,在TUSZ上发展的卷积神经网络已经能达到0.9以上的AUC,用于检测癫痫发作。
3.5 Sleep-EDF睡眠数据集
Sleep-EDF是著名的公开睡眠生理数据库,由MIT PhysioNet平台提供physionet.org。其扩展版本Sleep-EDF Expanded (2013, 2018)包含来自健康受试者和轻度失眠受试者的197整夜多导睡眠记录。每晚记录包括2路EEG(Fpz-Cz和Pz-Oz导联,采样100 Hz)以及EOG、下颌肌电和事件标记等。所有记录由睡眠技师按30秒窗口标注了睡眠阶段(依照Rechtschaffen & Kales标准,有W、N1、N2、N3、N4、REM分期;2018版将N3/N4并为N3)。
Sleep-EDF包含两个子集:Sleep Cassette研究(78名受试者,153夜)和Sleep Telemetry研究(20名年轻人,44夜)。Sleep-EDF数据集特点:受试者年龄跨度大(青年到老年),记录时长整夜约8-10小时,因此非常适合评估自动睡眠分期算法的性能和鲁棒性。
许多深度学习模型(如DeepSleepNet、U-Sleep等)都以Sleep-EDF为训练和测试基准,近年来最好模型的分期总体准确率已达到~0.9,Kappa约0.85。Sleep-EDF可从PhysioNet网站公开获取,数据以欧洲数据格式(EDF)提供,每条记录配对应的睡眠标记文件。除了Sleep-EDF,其他睡眠EEG公开数据还有美国的SHHS、以色列的ISRUC等,但Sleep-EDF因历史长、标注规范而应用最广。它推动了数据驱动的睡眠医学研究,使研究者能客观比较各自算法在标准数据上的优劣
4、评估指标详解
EEG信号分类任务中常用多种评价指标。以下对主要指标及其公式进行说明:
- Accuracy(准确率):模型预测正确的样本数量占总样本数的比例,公式为 $Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$。其中TP、TN、FP、FN分别表示真阳性、真阴性、假阳性、假阴性次数。准确率直观反映整体分类正确率,但在类别不平衡情况下可能存在偏差。当数据集各类别样本数接近且代价相当时,Accuracy是合适的总体性能指标。但若一类样本极少,模型即使忽略该类也可获得高Accuracy,此时需结合其它指标。
- Precision(精确率)和 Recall(召回率):精确率P = TP/(TP+FP),表示模型预测为阳性的实例中实际为阳性的比例;召回率R = TP/(TP+FN),表示所有实际阳性中被模型正确识别出的比例,又称灵敏度或真阳率(TPR)。以二分类为例,精确率衡量预测结果的可靠性(假警报少不少),召回率衡量目标实例的检出率。在不平衡数据(例如癫痫发作检测中发作段远少于正常段)中,单纯Accuracy会被多数类主导,此时更应关注召回率,以确保少数阳性被检出。精确率和召回率往往此消彼长,可根据任务需求调整。如对癫痫检测,宁可多报(FP多)也要尽量不漏报(FN少),因此注重高召回率;反之某些应用(如筛查)可能要求高精度以减少误警。为兼顾两者,常引入F1分数。
- F1-score(F1值):精确率和召回率的调和平均数, $F1 = 2 \times \frac{P \times R}{P + R}$。F1综合考虑了Precision和Recall,当二者均较高且平衡时F1才会高。F1特别适用于类别不平衡且希望综合评价模型准确且全面捕获正类能力的情况。例如在情绪分类中,由于某些情绪样本少,F1比Accuracy更能体现模型在少数类上的性能。不同行业阈值下,有Precision-Recall曲线用于权衡模型性能。需要注意F1对各类一视同仁,若需强调某类重要性,可使用加权F1等变体。
- ROC-AUC:ROC曲线是以真阳率(TPR=Recall)为纵轴、假阳率(FPR = FP/(FP+TN))为横轴绘制的曲线。AUC(Area Under Curve)为该曲线下的面积。ROC-AUC提供了模型在所有判别阈值下综合表现的衡量,其物理意义是在随机正样本和负样本对中,模型将正样本评分判高于负样本的概率。AUC取值0.5–1.0,越接近1表示分类器总体判别能力越强,与阈值选择无关。对于二分类任务,特别是当数据不平衡时,AUC是评价模型的一项稳健指标。例如在癫痫发作检测中,AUC常用来比较不同模型的整体检测性能。需要注意AUC不能直接反映实际使用时的特定阈值下精度,但在需要比较模型优劣或调整阈值时很有价值。
- Cohen’s Kappa(卡帕系数):衡量模型分类与标注结果一致程度的指标,考虑了随机偶合的影响。公式 $\kappa = \frac{p_o - p_e}{1 - p_e}$。其中$p_o$是模型预测与真值的实际一致率,$p_e$是按各类别概率随机猜测下的理论一致率。Kappa=1表示完全一致,0表示仅相当于随机水平,负值表示比随机更差。Kappa常用于多分类情景评价分类器与人工标注的一致性,如睡眠分期中评估模型分期与人工专家分期的吻合程度。由于Accuracy在类不平衡时可能被高频类主导,Kappa通过引入随机一致率校正,能更公正地评价分类器优于随机分类的提升幅度。当Kappa > 0.75时通常认为一致性很好。需要指出Kappa受类边际概率影响,对于极端不平衡数据可能过严或不稳定,因此要综合Precision/Recall等一起考量。
- Balanced Accuracy(平衡准确率):在各类别召回率基础上取平均的准确率。对于二分类,它等价于 $(Sensitivity + Specificity)/2$。例如分类癫痫发作 vs 正常,Balanced Acc = (发作段召回率 + 正常段召回率)/2。当类别分布不平衡时,Balanced Accuracy能防止模型偏向多数类。其取值0–1,随机猜测的Balanced Acc约为0.5。Balanced Acc常用于评价在每类都 equally 重要的场景,例如医学诊断中正负类不均衡但都需重视时。需要注意Balanced Acc实际等同于宏平均Recall(Macro Recall),在多分类情况就是各类Recall的算术平均。因此在类别样本不均时,Balanced Acc比总体Accuracy更能真实反映模型对每类的照顾程度。例如某模型对少数类Recall很低,即使Accuracy高,Balanced Acc也会明显下降,提示性能短板。很多竞赛和研究报告都会给出Balanced Accuracy或Macro F1等作为对Accuracy的补充。
以上指标各有适用情境。在论文中应根据任务特点选择:不平衡数据下推荐Precision/Recall/F1/AUC,多类别任务常用Kappa或Macro-平均指标,一般平衡二分类可用Accuracy直观表述。此外,还可根据需要计算Specificity(特异度=TN/(TN+FP))、FPR等辅助指标。为了全面分析模型,应报告多种指标并结合混淆矩阵进行解释。
5、经典深度学习模型介绍
深度学习在EEG信号分类中的应用由浅入深发展出多种模型架构。以下介绍几种具有代表性的经典模型:
5.1 EEGNet:深度可分离卷积来提取时空特征,广泛作为基线模型
EEGNet由Lawhern等提出(2016/2018),是一种针对EEG设计的紧凑卷积神经网络。
其结构特点是使用深度可分离卷积(depthwise-separable conv)来高效提取时空特征。EEGNet包含输入层后接两个卷积模块和一输出分类层:首先是一个时域卷积(1D卷积)在每个通道上学习F1个滤波器,相当于数据驱动的频带滤波器组;然后是一个深度卷积在空间维度(通道间)进行卷积,每个先前的滤波器独立拥有D个空间滤波器,相当于为每个频带学到D种空间投影。接着BatchNorm、ELU激活和池化降维。第二个卷积模块是深度可分离卷积,先对每个特征图做一次小卷积细化时间特征,再通过1×1卷积将不同特征图混合生成F2个新特征。最后接一小型全连接或Conv层输出分类。EEGNet参数非常少(仅数千),有效降低过拟合风险。其设计理念模仿传统EEG信号处理流程:时域卷积对应滤波、空间深度卷积类似CSP投影、可分离卷积凝练特征后分类。EEGNet在多个范式(运动想象、ERP、SSVEP等)上表现良好。例如在BCI IV数据上,EEGNet取得与更复杂CNN相当的精度,但模型更小更易训练。其缺点是容量有限,在大数据下可能性能受限。EEGNet已被广泛作为基线模型,其代码在ARL EEGModels库中开源实现。总体而言,EEGNet展示了用小卷积模块模块化提取EEG特征的有效范式,对后续模型设计有重要启发。
5.2 DeepConvNet 与 ShallowConvNet:
这两个模型由Schirrmeister等在2017年提出,用于脑电解码并可视化卷积网络学到的特征。DeepConvNet顾名思义是较深的CNN网络,包含4个卷积-池化块叠加和输出层。第1层使用特殊设计的卷积核:先对时间轴卷积提取频率特征,再对通道做卷积(相当于跨通道的滤波),然后经方波非线性和平均池化。后续第2-4层则是常规的小卷积核+池化,用于逐层抽取更高层次特征并缩减维度,最后接softmax分类。DeepConvNet具有较多参数,能拟合复杂模式,但也更易过拟合,需要足够数据支撑。相比之下,ShallowConvNet是浅层架构,着重抓取最显著的频带能量特征。它的第1层与DeepConvNet类似,包括一个较长的时间卷积(如250ms长度)加上跨通道卷积,然后使用平方非线性和log型mean池化提取稳定的时频特征。由于只含1个卷积层+1个池化层(加输出层),ShallowConvNet参数非常少。ShallowConvNet的设计灵感来源于滤波器组+log能量CSP等传统方法,强调提取慢变化的功率特征。在Schirrmeister的实验中,ShallowConvNet对µ节律ERD特征的提取尤为有效,而DeepConvNet可以学习到更细节的时序模式如ERP。两者各擅胜场:浅层网适合突出谱强度差异的任务,深层网对复杂时空模式更有力。因此在实际应用中,可根据任务特征选择深或浅结构。值得一提的是,这两个模型的提出证明了CNN无需大量预处理即可直接从原始EEG学特征,性能超越经典CSP+LDA方法。如今DeepConvNet、ShallowConvNet已成为EEG领域常用基线,在Motor Imagery等任务上被广泛比较引用。
5.3 TSception(时频卷积网络):
TSception是近年来提出的一种结合多尺度时域卷积和空间不对称卷积的EEG深度模型,最初应用于情绪识别任务。该名称来源于 Temporal + Spatial + Perception,强调对EEG信号的时间动态和空间非对称模式的捕捉。TSception架构包括三个模块:动态时间卷积层、不对称空间层和高层融合层。动态时间卷积层由多个不同长度的一维卷积滤波器并联构成,这些滤波器长度依据EEG采样率选择,以便覆盖不同时间尺度(即不同频带)的动态模式。比如在情绪EEG中,可能设置长度对应δ/θ、α、β等节律周期的卷积核,以同时捕获慢波和快波特征。空间层则分别针对左右半球进行卷积,从每个半球的所有通道中提取全局特征,同时利用左右脑情绪反应的不对称性。这实际上相当于一组以脑区为单位的卷积滤波,提取例如左、右前额等区域整体激活水平的差异。然后高层融合层将前述时间和空间特征进行级联并通过全连接层融合,完成情绪分类。TSception的多尺度卷积使其能比单尺度CNN学习更加丰富的时频信息,而空间不对称处理利用了情绪EEG常见的左右脑差异(如右半球更敏感于负面情绪)。在DEAP和MAHNOB等数据集上的实验表明,TSception相比传统方法和单尺度CNN取得更高的分类准确率和F1分数。例如,在跨被试情绪分类中,TSception的准确率显著高于DeepConvNet、EEGNet等基线。TSception也为其它领域提供了思路,如有人将其应用于认知负荷和疼痛识别等。需要注意TSception的参数量相对于EEGNet略多,但仍在可控范围。此外,其作者已开源代码并提供预训练模型,方便研究者复现和改进。总体而言,TSception代表了专门结合EEG信号生理先验(频率+脑区)的模型设计思路,在情绪等复杂脑状态分类中展示了优秀性能。
5.4 循环神经网络(RNN)与BiLSTM:
EEG信号本质是时间序列,循环神经网络(RNN)及其变种(如LSTM长短期记忆网络、GRU门控循环单元)天然适合处理序列依赖关系。在EEG分类中,RNN常用于捕捉长时间依赖和阶段过渡模式等。例如在睡眠分期任务中,相邻30秒片段的阶段具有强相关性,使用双向LSTM(BiLSTM)在序列上建模可明显提高分期稳定性。BiLSTM包括正向和反向两个LSTM,可同时利用过去和未来上下文信息,对于需要平滑过渡的分类特别有效。很多研究将CNN作为特征提取器,接上BiLSTM捕获时序关系,形成CNN-RNN混合模型。例如情绪识别中Yang等构建了并行卷积-循环网络,CNN提取空间特征,BiLSTM在时间维上整合,提高了跨段一致性。又如癫痫发作预测,有人用LSTM读取EEG随时间的变化趋势,相较静态模型有更高的预测准确率。BiLSTM的优势在于能灵活处理变长序列并保留顺序信息,不过其训练比CNN慢且需要更多内存。此外,EEG序列长且嘈杂,简单RNN容易受梯度消失/爆炸影响,LSTM/GRU通过门控机制部分缓解了这些问题。尽管如此,在超长序列(>数千时刻)上训练RNN仍有困难,近年来很多工作转向用TCN或Transformer替代RNN。但在一些需要细粒度时间对齐的任务(如ERP类别判别),RNN仍发挥作用。值得一提的是,也有将EEG各通道数据视为多元时间序列,应用Seq2Seq模型或注意力机制RNN进行端到端分类的探索。总之,循环网络为EEG分析提供了处理序列相关性的有效工具,适合那些时间动态特征明显(如睡眠阶段、认知过程)的任务,与CNN结合能实现空间-时间特征的协同学习。
5.5 时序卷积网络(TCN):
时序卷积网络(Temporal Convolutional Network)是一种使用膨胀卷积(dilated conv)实现长序列建模的卷积结构。TCN通过在卷积层逐层扩大感受野,可捕获远距离的时间依赖,同时具有并行计算、高效训练等优点。在EEG分类中,TCN近年开始受到关注。例如Ingolfsson等提出EEG-TCNet,将EEGNet的输出接入两个残差膨胀卷积块,使总的时间感受野覆盖几秒,从而更好捕获运动想象EEG的序列模式。与RNN相比,TCN没有递归计算,训练更稳定且不存在梯度消失问题。TCN的卷积因子可以根据需要设计膨胀系数和层数,理论上可达到任意长的历史依赖。比如文献中一个两层TCN残差块(kernel size=4, dilation=1和2)即可覆盖17个时间步长的依赖。对于EEG,每层时间步对应的实际时长=步长×采样周期,因此通过设置合适的膨胀系数,可以令TCN覆盖整个试次EEG长度。TCN已用于多种EEG任务:除运动想象外,在睡眠分期中TCN也被采用以捕捉跨epoch的模式;在癫痫检测中,TCN能识别发作前后的渐变迹象等。实践表明TCN往往比单纯CNN或RNN有更高精度,例如Altaheri等的注意力TCN模型在BCI IV-2a上达到83.4%的4类MI准确率。TCN也常与注意力机制结合,提升对关键时间段的关注度。需要注意,TCN的参数量和感受野随着层数指数增长,应权衡模型复杂度防止过拟合。在数据较多时,TCN是替代RNN的有力选择,其卷积结构更易并行和硬件加速。目前不少EEG开源框架(如Braindecode)也开始加入TCN模块供研究者使用。TCN的成功进一步丰富了EEG序列建模工具箱。
6、最新前沿方法总结
EEG深度学习领域发展迅速,近年出现了一系列新方法,试图从模型架构和训练策略上取得突破。下面总结几类前沿方向:
6.1 Transformer在EEG中的应用:
Transformer以其强大的全局建模和自注意力机制在NLP和CV中取得成功,近年来也被引入EEG领域。Transformer的多头自注意力可以在无序列长度限制的情况下建模EEG各时刻(或各通道)之间的相关性,这对于捕获长时间依赖、远隔脑区的互动很有潜力。一些工作直接使用Transformer编码器替代RNN,用于睡眠分期和认知负荷检测,取得比传统方法更优的结果。例如Zhao等提出TCANet,将多尺度CNN提取的特征送入包含自注意力的时序模块,成功在BCI运动想象数据上取得当时最佳成绩。又如Chen等的EEG-Transformer模型,将EEG分段为“词”,用Transformer编码情绪相关特征。据报道,Transformer在情绪识别、认知状态分类上能提升跨被试的泛化。Transformer也被用于多模态EEG融合,通过跨模态注意力对齐EEG与其他信号的特征。需要注意的是,Transformer一般需要大量数据支撑,其参数量相比CNN/LSTM要大得多,直接用于EEG存在过拟合风险。因此一些研究采取预训练-微调策略,先在海量无标签EEG上自监督预训练Transformer,再迁移至下游任务。另外,针对EEG矩阵,亦有将空间维度和时间维度分别做Transformer编码(ViT思想)的探索。总的来说,Transformer为EEG分析提供了处理长程依赖和全局模式的新范式,但如何高效训练、充分利用有限数据仍在探索中。未来可能看到Transformer与CNN/GCN相结合的混合模型在EEG领域取得更大突破。
6.2 基于图神经网络(GNN)的脑区连接建模:
脑电各导联并非独立信源,大脑活动往往表现为脑区网络的协同。因此,近年方法尝试引入图神经网络将EEG通道构建成图结构,以学习脑网络连接特征。典型做法是将每个EEG电极视为图节点,节点间边的权重可依据空间相邻距离、功能连接强度(如通道相关性、相干度)等定义。然后采用Graph Convolutional Network (GCN)或其变种,对该EEG图进行卷积聚合,从而提取考虑空间拓扑的特征。例如Song等构建动态脑网络图,提出DGCNN(动态图卷积网络)用于情绪分类,在DEAP上较传统CNN有明显提升。又如一般认为情绪产生涉及左右半球不对称和各皮层区网络,GCN可以有效捕捉这些跨区域连接模式。在癫痫检测中,GNN可抓取发作时脑区同步放电的传播路径,提高检测准确率。研究还表明,相比逐通道卷积,GCN能更自然地整合全脑空间信息。一些改进的GNN如Graph Attention Network (GAT)引入注意力机制,能自适应学习各通道重要性。例如DAMGCN方法对每个脑电图节点及频带应用双注意力,显式表示了不同脑区和频段对情绪的贡献差异,在SEED数据上取得99.4%的惊人准确率(受试者内)。GNN另一个优势是具备较强的可解释性,可通过可视化节点权重理解模型关注的关键脑区。当前GNN在情绪识别、认知负荷、病理诊断等方向均有尝试,但也存在挑战:脑网络的构建需要先验(如何定义节点连边最合理?),且GNN模型复杂度高。在数据较小时,过度参数化的GNN可能不如简单CNN效果。因此,一些研究结合CNN和GNN,例如先用CNN提取时间特征,再用GNN建模空间关系,以平衡性能和复杂度。总体而言,GNN为EEG解码引入了脑网络分析视角,使模型能够利用脑区间的相互作用信息,具有很大潜力。
6.3 自监督学习方法:
由于EEG标注获取困难,自监督学习(SSL)在EEG领域备受关注。SSL通过设计预文本(pretext)任务,在海量未标记数据上预训练特征编码器,然后迁移至小规模标注数据上,有望提升下游任务性能。常见的EEG自监督策略包括对比学习(Contrastive Learning)和预测编码(Predictive Coding)等。对比学习如SimCLR框架对同一EEG片段的不同增强视图执行特征对比,使编码器学到与语义无关的鲁棒表征。具体在EEG上,增广可采用剪切、加噪、时频遮罩等操作,再用InfoNCE损失拉近同源信号表示、区分不同信号。TS-TCC(Temporal and Contextual Contrasting)是一项将EEG视为时间序列进行对比学习的方法。它包含两个对比任务:一是时间域上,让编码器区分序列正确时间顺序 vs. 打乱顺序(捕捉动态演变特征);二是上下文域上,对比同一序列不同剪辑位置的编码(确保表示连续性)。TS-TCC在心电等数据上验证有效。MoCo-EEG是将动量对比(Momentum Contrast)引入EEG,一些研究表明,用诸如TS-MoCo之类框架预训练后,可提升情绪分类准确度。另一类方法是利用变换不变性,如对EEG做频域和时域不同滤波视角,鼓励模型提取稳定特征。除对比外,CPC(Contrastive Predictive Coding)也应用于EEG,例如对序列未来部分进行预测,迫使模型捕捉时序结构。近期还有针对跨受试场景的自监督:如MMOC框架通过多模型在线协作,逐步适应未见过的新受试数据。总的来说,自监督为解决EEG数据少、个体差异大的问题提供了新途径。实验证明,经过自监督预训练的模型,在情绪、睡眠分期、病症检测等任务上往往比随机初始化有更高的分类F1或AUC。未来随着更多EEG大数据公开(如TUH等),自监督学习有望训练出通用的“EEG预训练模型”类似于图像的ResNet,在多个下游任务上微调取得良好效果。
6.4 多模态EEG融合方法:
除脑电外,很多场景会同步记录其他模态信号,例如情绪实验常同时采集EEG与面部表情视频、心电(ECG)、皮肤电(GSR)等;又如脑机接口中,有时结合EEG与近红外光谱(fNIRS)提高稳定性。融合EEG与其他模态可望利用互补信息提升分类准确率。近年来出现多种深度融合策略:(1) 特征级融合:将各模态信号分别送入子网络提取特征,然后在全连接层级别Concatenate或通过注意力加权融合。例如有研究将EEG和眼动(Eye-tracking)分别经CNN编码,再融合用于情绪回放识别,结果优于单模态。(2) 决策级融合:分别训练EEG和其他模态的分类器,最后对输出概率加权平均。此方法简单但不能充分利用模态间关联。(3) 交叉模态注意力:利用Transformer或Attention将一种模态的信息作为查询去选择另一模态中相关部分。例如某工作将EEG各通道和肌电EMG序列用交叉注意力融合,成功检测REM睡眠中的肌束颤动。多模态融合的一大难点在于不同信号的时间分辨率和噪声水平不同,需要对准和归一化处理。如fNIRS信号频率远低于EEG,融合时需对齐采样率或用连续滤波器。又如视频数据与EEG在情绪变化上的时滞不同,也要在模型中考虑。一些深度模型通过门控机制自适应调整各模态贡献。DEAP数据上的研究显示,结合EEG的周边生理(如EDA、呼吸)特征能提升情绪二分类准确率几个百分点。多模态融合在脑机接口稳健性提升上也有应用,例如结合EEG+EOG可以同时判别意念控制和眨眼伪迹,实现更可靠的人机控制。总之,多模态方法拓展了EEG解码的维度,让模型能参考其他渠道的信息完成判别。不过应权衡传感器配置的复杂性,在实际应用中尽量挑选互补且实用的模态。随着可穿戴技术发展,将脑电与眼动、肌电、心电等整合或许成为未来BCI系统的趋势方向之一。
7、SOTA模型对比分析
基于以上方法,不同任务上当前性能最优(SOTA)模型的特点和结果如下所述。
情绪识别任务:
EEG情绪分类经过大量研究,不断刷新准确率纪录。以SEED三分类为例,最新的图卷积网络模型DAMGCN在受试者内测试达到99.42%的惊人准确率;即使在更具挑战的受试者独立设定下,该模型也取得73.21%的准确率,明显超过以往方法。这得益于引入脑网络图和注意力机制,充分挖掘了跨脑区的情绪特征。不使用图网络的模型中,基于Transformer的Hierarchical CNN也报告过在DEAP二分类(valence高低)中约90%的准确率(受试者内),跨受试情况约60-70%不等。总体而言,受试者内情绪分类准确率已普遍达到85-95%以上水平(DEAP二分类通常在85%+,SEED三分类90%+),但受试者独立的泛化仍偏低(多数方法50-70%间)。融合多模态的模型有望进一步提升。例如有研究结合EEG与面部表情,实现DEAP二分类AUC提高约5%。情绪识别领域SOTA模型创新点多集中于时空特征提取(如TSception多尺度卷积)和域自适应(如对抗训练减少个体差异)。表1汇总了若干情绪EEG数据集上的SOTA结果。
表1:EEG情绪识别任务部分SOTA方法性能
*注:BiHDM和TSRGNN为文献模型名称,非统一基准。整体来看,情绪EEG校准内分类已相当准确,而提升跨个体模型将是下一步重点。
运动想象任务:
在BCI Competition IV-2a (4类MI)上,近年来诸多深度模型交替刷新记录。基于Transformer的EEG-Transformer模型报告达到约83-84%的4类平均准确率。结合CNN和TCN的TCANet模型同样取得约83.4%准确率,同时参数量更小。相比之下,经典EEGNet在相同数据上的准确率约为70-75%,DeepConvNet约68-75%(不同文献略有差异)。表2列出若干代表结果。需要注意这些是校准后(即每个被试均有训练数据)情况下的成绩。在零校准(跨被试直接应用)场景下,准确率通常仅50-60%。近年来通过领域对抗、归一化等方法,跨被试性能有提升,如2021年的Adaptive CNN达到~60%上下。综合而言,当前4类MI单人校准准确率最高逼近85%,接近EEG理论上限之一(单次想象信息量有限);而实现无需校准的高精度仍有挑战。除准确率外,SOTA方法也比过去显著降低了模型参数,如EEG-TCNet仅十万量级参数却性能优于此前百万参数模型。这对实时BCI实现很有利。总之,Transformer和时序卷积引领了MI分类性能的新高点,但受试者独立和更复杂任务(如细微运动区分)是未来努力方向。
表2:BCI运动想象(BCI IV-2a数据集)SOTA方法比较
癫痫检测任务:
癫痫发作自动检测的评估指标通常以灵敏度(Sensitivity)和假阳性率(FPR)为主,综合指标有AUC等。CHB-MIT等常用数据上,多数深度模型已能达到接近100%的发作检测灵敏度。例如Ra & Li (2023) 使用1D-CNN结合信号变换,实现了99.7%的敏感度和极低的假警报率。TUH Seizure大型数据由于包含不同病人和更长监测,引入挑战更大,但也不断有进步:2020年NeuroPIC模型在TUSZ上取得95%灵敏度@0.5 FPR/h左右,是当时最佳。最近的文献报告通过图卷积+LSTM融合,也将TUSZ 7种发作类型平均F1提升到0.4以上(相较早期0.2-0.3有明显改进)。总的来说,小样本的常规数据集上SOTA已表现近乎完美,但在复杂综合数据上仍有提升空间。表3举例部分结果。
表3:癫痫EEG发作检测部分结果对比
注:不同论文评价标准略异,以上取近似值对比。
睡眠分期任务:
Sleep-EDF数据上目前最佳模型准确率已突破90%。例如Perslev等提出的U-Sleep(U-Net卷积网络)在Sleep-EDF-78上达到83%总体准确率、$\kappa=0.80$;2019年IBM的SeqSleepNet (CNN+BiLSTM)达到Accuracy 87%、$\kappa=0.82$。2023年Toma & Choi的多通道Bi-LSTM模型更是取得了Sleep-EDF-20上91.44%准确率和$\kappa=0.89$,Sleep-EDF-78上90.21%准确率和$\kappa=0.86$。这些结果非常接近人工标注的一致性上限(人类技师之间$\kappa\approx0.9$)。表4列出部分里程碑结果。可以看到,近年来Transformer和多模态方法也被引入,例如XSleepNet结合了多导EEG+EOG+下巴肌电,通过交叉Attention在Sleep-EDF上取得约88%准确率。总体而言,深度模型已将自动睡眠分期性能推进到实用边缘,一些工具已应用于床旁监测。不过在不同年龄群、病理睡眠上的泛化仍需进一步验证。
表4:Sleep-EDF睡眠分期任务模型性能比较
由上可见,在标准数据集上深度学习模型已显著超越传统方法,大幅接近人工水平。这表明深度方法有效捕获了EEG中蕴含的判别模式。
8、存在的挑战与未来研究方向
尽管深度学习已显著推进EEG信号分类,但该领域仍面临诸多挑战,值得进一步研究:
- 跨受试者泛化:不同个体的脑电幅度、频率特征、头皮电阻等存在巨大差异,导致模型往往依赖个体校准才能取得高性能。如何提高模型的跨人鲁棒性是关键难题。未来或需结合域自适应、迁移学习等方法减小个体差异影响。一些研究尝试使用对抗训练或正则化让模型提取与个体无关的特征。此外,收集更大规模、多样人群的数据进行预训练也有助于提高泛化。
- 信号噪声与伪迹处理: EEG极易受到各种噪声干扰,包括肌电(咬牙、眨眼)、工频噪声、电极脱落等。深度模型如果直接输入原始EEG,可能将伪迹当作特征,影响判别。传统上通过独立分量分析(ICA)等预处理剔除伪迹,未来可探索鲁棒模型,如在训练中模拟加入常见噪声,提升模型抗扰能力。另外,结合多模态辅助(如EOG帮助定位眼动伪迹)也是可行路径。
- 数据稀缺与小样本学习: 相比计算机视觉,EEG领域标注数据规模小且获取成本高。一些任务如罕见疾病诊断,可能只有几十例样本。为此,小样本学习和数据增广显得重要。未来方向包括更广泛地应用自监督预训练(利用海量无标签EEG学表示)、few-shot学习框架在EEG上的探索、以及生成对抗网络(GAN)合成逼真脑电数据以扩充样本。通过这些手段,模型有望在低标注数据下仍保持良好表现。
- 模型可解释性: 深度模型往往被视为“黑箱”,难以解释其决策依据。而在医疗等对可靠性要求高的场景,可解释性十分重要。未来需要发展EEG深度模型的可解释技术。例如利用注意力权重可视化突出模型关注的时间段/脑区,或借鉴CNN可视化方法(如利用反传播计算各通道的贡献)。一些研究已用DeepLIFT等方法在EEGNet上生成“脑电激活图”,帮助定位模型判别所依赖的神经特征。未来可解释性工作将促进深度模型与神经科学的结合,验证模型提取的模式是否具有生物学意义,从而增进对大脑机理的理解。
- 个性化与在线更新: 在脑机接口实际应用中,用户状态和电极情况会随时间改变,模型需具备在线适应能力。连续学习(Continual Learning)和主动学习(Active Learning)可能用于让模型在使用过程中持续更新而不遗忘先前知识。此外,可引入用户少量校正反馈来微调模型,提高体验。
- 融合脑科学先验: 目前模型多为数据驱动,未来可考虑将更多生理先验嵌入网络结构。例如,根据大脑解剖连接调整GNN图的拓扑,根据频率-脑区偏好设计卷积滤波器组等。这种结合或能提升训练效率并增强模型解释性。
- 新型脑电模式: 随着硬件进步,出现如高频脑电(HFO)、脑网络动态图谱等新兴分析对象。深度学习可以尝试应用于检测这些微妙模式,例如癫痫HFO自动检出等。
- 多模态与多任务联合: 大脑活动复杂多面,未来系统可能同时监测多个信号、多任务联合分析。例如同时解码驾驶员的疲劳和情绪两种状态,要求模型为多任务优化架构。或者联合EEG-眼动-面部表情构建更完善的情感计算模型。多任务学习框架和Transformer跨模态融合将在这方面发挥作用。