EEG-Transformer(2022):Transformer网络对原始脑电数据分类的效能
导出时间:2025/11/24 09:01:53
1、研究背景和动机
1.1 EEG 信号与建模的老难题
- 高噪声 & 个体差异大:肌电、眼动、导联接触等伪迹让原始 EEG 很“脏”;不同被试的脑电分布也常常“各唱各的”。
- 时空耦合强:同一时刻不同电极之间相关、同一电极跨时间点也相关;既要看时间依赖,也要看跨导联关系。
- 特征工程依赖重:传统路子常要做滤波、分段、频带功率、连接性指标等手工特征,流程长、泛化差。
- 端到端深度学习的目标,就是尽量少特征工程,直接从尽可能“原生”的 EEG 中学出判别信息。
1.2 你已学过的四类代表模型:思路与短板
把它们放在一条“时—空—图—全局注意”的轴线上看,会更清晰。
- EEGNet(紧凑 CNN) 核心:深/可分离卷积先做频段样式(时间卷积近似带通滤波),再做空间投影(深度可分离卷积把跨导联混合学出来)。 优势:参数少、端到端、BCI 友好; 可能的短板:卷积感受野有限、跨长时间依赖与远距离导联关系捕捉受限(需要加深或增大核/空洞率才能扩感受野)。
- TSception(多尺度时域 Inception + 简化空间建模) 核心:多种卷积核长度并行,学多时间尺度模式;再配合通道选择/简单空间聚合。 优势:对“节律/节奏快慢不一”的 EEG 友好; 可能短板:空间关系建模相对弱,跨通道全局交互不够灵活。
- EEG-TCNet(TCN + EEGNet 思想) 核心:引入 Temporal Convolutional Network(膨胀/因果卷积) 扩大时间感受野,兼顾长依赖; 优势:比 RNN 更易并行,感受野能很大; 可能短板:时间卷积仍是局部核堆叠,想做到任意两时刻直接交互,不如注意力来得彻底。
- DAMGCN(图卷积家族,动态/自适应图) 核心:把电极当图节点,学习自适应邻接,做跨通道结构化建模;常配注意力或门控机制增强边权更新。 优势:对空间结构/功能连接很强; 可能短板:时间建模常需额外模块(RNN/TCN/CNN);图结构设定/学习也会带来归纳偏置与超参敏感。
小结:
- CNN/TCN 系列:时间建模强,空间全局交互相对弱;
- GCN 系列:空间结构强,长程时间依赖要靠别的模块补;
- 我们想要一个同时覆盖“长时间—跨通道全局”的统一机制,并且尽量少手工特征。
1.3 为何转向 Transformer?
把 EEG 看成“序列/片段的集合”(时间片 × 通道),自注意力天然适配以下需求:
- 长程时间依赖:自注意力一次就能让任意两时刻互相“看到”,不用层层堆卷积或循环。
- 跨通道全局关系:注意力权重本质上是数据驱动的“自适应连接”,等价于“动态学图”,不需要固定邻接。
- 并行与可扩展:相比 RNN,注意力计算能高效并行;相比卷积,全局感受野更直接。
- 减少特征工程:直接吃“清洗后的原始 EEG 片段”,通过嵌入+位置编码+多头注意力学习判别特征,弱化对手工频域/连接性特征的依赖。
1.4 这篇 EEG-Transformer 的经验信号(作为动机的证据)
- 直接用(仅清洗/预处理后的)原始 EEG 训练 Transformer,不做传统特征提取;
- 在年龄/性别与 **STEW 心理工作负荷(二/三分类)**任务上,取得与或优于当时 SOTA 的表现;
- 网络采用多头自注意力 + 前馈(堆叠 4 个编码器),小嵌入维度(如 32)、中等隐藏维度(如 64),二/三/六分类只改最后层即可;
- 结果支持了“Transformer 可显著降低 EEG 特征工程依赖”这一命题。
直观对比到你的已学模型:
- 相比 EEGNet / TSception / EEG-TCNet:Transformer 提供真正全局的时域交互(不是局部核堆叠),更擅长捕捉远距离时序关联;
- 相比 DAMGCN:Transformer 的注意力矩阵可视为“数据驱动的动态全连接图”,不需先验邻接,也能跨导联建模;
- 共同点:都可接轻量预处理(带通、ICA、坏段剔除),坚持端到端;不同点是归纳偏置:卷积偏向局部平移不变、GCN 偏向图结构,Transformer 偏向内容驱动的全局加权。这也解释了其在原始片段上“少特征、强表现”的吸引力。
1.5 面向应用与研究的动机归纳
- 工程动机:想要更短的流水线(更少特征工程模块)、更好的跨被试泛化、可复用到不同范式(只改头部)。
- 科学动机:用注意力权重解释“何时×何导联”在关注,为神经机制假设提供可视化线索。
- 方法学动机:把 EEG 建模从“局部卷积/固定图”推进到“内容自适应的全局交互”,并探索EEG 专属位置编码/嵌入等改进方向(例如把频带、导联拓扑、时频原子融入 embedding)。
2、核心创新点总结
端到端:直接用“清洗后的原始EEG”,不做手工特征
- 论文把 Transformer 直接接在预处理后的原始片段上完成分类,不再依赖 DWT/PSD/PLV 等手工特征与复杂特征工程;并在两个任务(年龄/性别与 STEW 心理负荷)上拿到与/优于当时 SOTA 的结果。这一点是相对 EEGNet/TSception/EEG-TCNet(仍以卷积/时频特征为主)和 DAMGCN(常搭配图上手工或学习到的连接)最显著的范式差异。
统一框架,可换头适配多任务
- 同一套编码器堆叠(4 个 Transformer 编码器)+ 轻量分类头,通过改最后层/注意力头数即可从二分类(性别、二级负荷)切到多分类(年龄 6 类、三级负荷),训练配方基本不变。这种“共享主干 + 任务头可插拔”的设计,降低了跨范式迁移成本。
小参数、全局交互:用多头自注意力同时覆盖“长时间—跨通道”
- 相比卷积/TCN 的局部感受野或 GCN 的固定/自适应邻接,自注意力一次性建模任意片段间关系(时序与通道混合编码后进入注意力),以较小的嵌入维度(32)、中等前馈宽度(64)与少量注意力头(4/8)实现全局交互与良好并行性。对比你学过的模型:它相当于把 EEG-TCNet 的长程时间 与 DAMGCN 的跨通道关联统一到一个权重矩阵里。
位置编码 + 输入嵌入的 EEG 化实践
- 明确给每个片段注入位置编码,与嵌入向量同维后相加;虽然作者也指出当前位置编码并非“专为 EEG 设计”,但这套标准做法已经在原始 EEG 上有效,提示未来可沿“EEG 专属位置编码/通道拓扑编码”继续优化。
可解释性与特征可视化的证据链
- 论文提供了嵌入与学习到的特征表征可视化,辅助理解模型关注的“何时×何导联”模式;这为后续把注意力热力图当作可解释线索打了样。
对“单头注意力”方法的经验性超越
- 消融与横向对比显示:多头注意力的 Transformer 在两个数据集上整体优于以往的基于注意力的 BLSTM 等方法;作者将性能提升归因于 multi-head 能更高效地学习多样关系。这从经验层面支撑了“用注意力统一时空建模”相对 RNN/CNN/单头注意的优势。
强基线结果,支撑“少特征工程”的可行性
- 年龄/性别:94.53%(性别,二分类)/87.79%(年龄,六分类);STEW:95.28%(二级)/88.72%(三级)。这些成绩全部基于“未经手工特征提取的原始 EEG”,为端到端范式提供了“可落地”的分数背书。
训练与预处理流程最小化但规范
- 只做必要清洗(带通、分段、坏段/坏道剔除、ICA),然后直接送入 Transformer;这条流水线对实际 BCI/在线部署很友好,也便于与你熟悉的 EEGNet/TSception 等做公平对比。
3、模型的网络结构
3.1 总体框架(图 a → b)
- 用的是“Encoder-only”的 Transformer:原始 Transformer 有“编码器+解码器”,但本文做分类任务,不需要自回归解码,所以只用编码器堆叠(去掉了解码器)。每个编码器都由 多头自注意力(MHA)+ 前馈网络(FFN) 两个子层组成,并在每个子层外有 残差连接 + LayerNorm(“加&归一化”)。
- 编码器堆叠的层数:4 层编码器串联(图 b)。
3.2 输入到编码器之前:两步“打包”
- Embedding(嵌入):把时序×通道切成片段/向量后,先投到32 维的嵌入空间。
- 位置编码(Positional Encoding):给每个输入向量加一个与嵌入同维的位置信号,然后与嵌入相加,提供时序上下文(注意:位置编码在本文被视为“预处理动作”,不是核心结构)。
这样进入编码器的就是:[32 维嵌入 + 位置编码] 的序列。
3.3 单个编码器的“积木规格”
- 多头自注意力(MHA):一次让任意两个片段“互相看到”。
- 前馈网络(FFN):两层全连接,隐藏维 64(论文给出的实现参数)。
- 残差 + LayerNorm:每个子层外包一圈,稳定训练。
- 注意力头数:默认 4 头;在 年龄 6 类任务里把注意力头增到 8,其余不变。
3.4 任务头(Head):两套“收尾工艺”
同一套 4×Encoder 主干后面,接两种不同的分类头(对应你图里的 c 与 d)。
(A) 年龄/性别(Age & Gender,图 c)
- 主干输出 → Flatten;
- Dense(256, ReLU) → Dropout(0.25);
- Dense(128, ReLU) → Dropout(0.25);
- Dense(64, ReLU) → Dense(16, ReLU);
- 输出层:
- 性别:Dense(2, Softmax);
- 年龄:把最后一层改为 Dense(6, Softmax),并把注意力头数调为 8。 这些层级与超参在图注中明示。
(B) 心理工作负荷 STEW(图 d)
- 主干输出 → Global Average Pooling(用全局均值代替 Flatten);
- Dropout(0.1) → Dense(16, ReLU) → Dropout(0.1);
- 输出层:
- 二分类(无任务 vs SIMKAP):Dense(2, Softmax);
- 三分类(SIMKAP 多任务):Dense(3, Softmax)(改最后一层神经元数即可)。 同样维度/层次写在图注。
3.5 一页式“超参备忘录”
- 嵌入维度:32;注意力头:4(年龄 6 类改 8);FFN 隐层:64。
- 编码器层数:4 层。
- 分类头(Age/Gender):Flatten → 256 → 128 → 64 → 16 → Softmax(2 或 6),含 Dropout(0.25)。
- 分类头(STEW):GAP → Dropout(0.1) → 16 → Dropout(0.1) → Softmax(2 或 3)。
- 说明:本文不使用解码器;位置编码在送入编码器前与嵌入相加。
4、模型的不足与限制(来自论文)
泛化性尚未被更广验证
作者在结论中直说:需要在更多数据集上做对比与复现,当前结果还需进一步验证。
位置编码并非为 EEG 量身定制
论文多次指出:本工作沿用通用位置编码,把它当预处理注入嵌入;这种非 EEG 专用的编码可能导致年龄/性别任务表现不够理想。作者也将此列为改进方向(设计EEG专属位置编码/嵌入)。
与更强基线相比,部分任务成绩仍有差距
在年龄/性别数据集上,Transformer 的效果“具有竞争力但并非最优”,作者把差距的一大原因归因于上面的位置编码/特征使用问题。
数据规模与设备配置的限制
两个实验集样本量较小(本地年龄/性别:60 名;STEW:48 名),且均采自14 通道、128 Hz 的 Emotiv 低密度设备。这限制了空间分辨率与跨设备泛化的可证性。
论文也强调 EEG 的固有缺陷(高噪声、个体差异大、空间分辨率低、伪迹多),预处理容易成为性能瓶颈——这些都会放大小样本、低通道设置下的难度。
任务范围相对单一
本文只在年龄/性别(静息态)与STEW 工作负荷两类场景上做了验证,尚未覆盖更广的 BCI/临床任务(如运动想象、癫痫检测、睡眠分期等的系统性评估)。这是论文研究设计的范围而非通用性结论。
训练设置在“小数据”条件下
数据按 70/15/15 划分训练/验证/测试。在总体被试数有限时,这种划分对结果稳定性与外部泛化的说服力带来约束(作者未声称跨数据库/跨设备迁移能力)。
未利用某些“更有效”的特征/策略
作者坦诚:本研究没有采用某些在特定场景下更有效的特征提取方法,可能也是年龄/性别表现不佳的原因之一;未来方向包括构建更稳健的 EEG 嵌入与专用位置编码。