Transformer-DA(2022):基于Transformer网络的机载雷达多目标跟踪方法

Transformer-DA(2022):基于Transformer网络的机载雷达多目标跟踪方法

导出时间:2025/11/24 09:08:18

1、研究背景和动机

1.1、研究背景

1)多目标跟踪的重要性与挑战 机载雷达在空中监视、目标识别与态势感知中扮演关键角色,尤其需要在杂波和干扰环境中对多个高速机动目标进行稳定跟踪。这个任务的核心之一是 数据关联(Data Association, DA) ——即如何正确判断每一帧中观测到的雷达量测点属于哪个目标。
  • 当目标数量较少、环境简单时,传统算法(如 匈牙利算法、JPDA)还能工作。
  • 但在实际空中场景中,杂波密集、检测概率不稳定、目标机动多变且数量未知,传统算法容易出现计算复杂度高、关联错误率高的问题
2)传统方法的局限性
  • 基于极大似然的算法(如 HA):需要穷举匹配组合,容易在目标交叉或杂波多时失效,且复杂度随目标数快速上升。
  • 贝叶斯类算法(MHT/JPDA):虽然能处理一定的不确定性,但需要假设先验(如目标运动模型、杂波密度),在真实任务中很难准确获取;此外,组合爆炸导致计算量巨大

  • 基于深度学习的早期尝试(如 LSTM/Bi-LSTM/DeepDA):能够自动学习部分运动特征并做关联,比传统方法更鲁棒,但仍有明显限制:
    • 需要假设检测概率较高、漏检少;
    • 处理多量测、虚警的能力不足;
    • 序列建模受 LSTM 结构限制,难以捕获长时间依赖和全局特征
3)Transformer 在其他领域的成功启示 Transformer 通过 自注意力机制 能够在序列中捕捉全局依赖关系,并且在自然语言处理、计算机视觉和视觉跟踪等任务上表现卓越
这启发研究者思考:

是否可以用 Transformer 替代 RNN/LSTM 来建模目标运动与量测之间的复杂关系,从而实现更精准、更鲁棒的数据关联?


1.2、研究动机

本工作提出的 Transformer-DA 网络,主要动机是:
  1. 摆脱对先验信息的依赖 传统 JPDA/MHT 在应用前需要准确的目标运动模型、杂波密度等先验参数,但在实际机载雷达任务中,这些信息往往难以及时、准确地获得。Transformer-DA 希望通过端到端训练,直接从数据中学习目标与量测的关联模式,无需人工设定先验
  2. 更好地处理漏检和虚警 真实雷达经常出现检测不到目标(漏检)或检测到杂波(虚警)的情况。为此,Transformer-DA 引入 虚拟量测 (virtual measurement) 的概念,将漏检情形显式纳入关联模型,使网络在训练和推理时都能自然处理这些异常
LSTM 在处理长序列时有遗忘和梯度消失问题,而 Transformer 的自注意力机制可以同时关注所有历史状态与当前量测,实现 多目标、多量测间的全局匹配推理,尤其适合目标交叉或相互靠近时的复杂关联问题
  1. 缓解类别不平衡与复杂关联带来的训练困难 多目标跟踪中,真实匹配样本稀少,杂波样本数量庞大,导致训练偏向于“预测杂波”。为此,Transformer-DA 设计了 MCD(掩蔽交叉熵 + Dice)损失函数,在损失层面让模型更加关注真实的目标匹配,从而提升对真实轨迹的学习效果

简单总结(通俗解释)

以前的算法像是要先写好一堆规则:目标怎么飞、环境多吵杂,然后再去做数学推理。而 DeepDA 开始尝试用神经网络学习这些规则,但它像记忆力有限的学生——只能看见短期的信息,对漏检和杂波处理得不好。 这篇工作用 Transformer,就像换了一个有“全局视野”的大脑,可以同时看到所有历史状态和当前所有量测;再加上“虚拟量测”去处理漏检,和特别设计的损失函数来关注真实匹配,使得在复杂的雷达场景中也能更好地完成多目标跟踪。


2、总体创新概述

该方法的最大亮点是:

用 Transformer 网络替代传统 LSTM/概率模型来做雷达多目标数据关联,并在网络设计上针对雷达场景中最关键的问题——杂波、漏检、数据不平衡——进行了系统性改进,使得模型能端到端学习复杂的目标-量测匹配关系。

核心创新可以概括为 四大关键点

创新点 1:引入 Transformer 自注意力机制进行全局数据关联

  • 问题:LSTM 只能顺序地处理历史信息,长时间依赖衰减严重;目标数量多、交叉频繁时难以捕获全局关系。
  • 改进:模型采用 Transformer 编码器,用 自注意力 (Self-Attention) 同时分析所有目标历史状态与当前量测之间的关系。
    • 可以一次性考虑目标间、测量点间的全局交互,尤其在目标接近或轨迹交叉时保持高关联精度。
    • 注意力机制可自动聚焦与每个目标最相关的量测,而不必穷举组合。

🔍 直观理解: 以前的 LSTM 像一个按顺序读历史的“记事本”,而 Transformer 像一个可以同时看全局的“指挥官”,能并行关注所有目标和测量之间的关系。


创新点 2:显式建模漏检与杂波 —— 引入虚拟量测 (Virtual Measurement)

  • 问题:实际雷达常有漏检(目标没被检测到)和杂波(检测到的点无对应目标),传统一一匹配模型处理困难。
  • 改进:在输入关联矩阵时,专门加入一类“虚拟量测”,表示目标可以没有对应量测。
    • 这样网络训练时就能学习到 1-0(目标无匹配)0-1(杂波) 的真实场景。
    • 推理时也能自然输出“这个目标当前没有检测到”的判断。

🔍 直观理解: 以前匹配必须“强行配对”,现在允许目标“暂时没舞伴”或量测是“路人甲”,更符合雷达实际工作情况。


创新点 3:设计专门适合数据不平衡的损失函数(MCD Loss)

  • 问题:在多目标跟踪中,真实匹配样本稀少,而虚警/杂波样本大量存在,导致网络训练时容易偏向预测“没有匹配”,从而关联性能下降。
  • 改进:提出 MCD(Mask Cross Entropy + Dice)损失
    • 掩蔽交叉熵:忽略无效位置,避免噪声对训练的干扰;
    • Dice 系数:平衡类别不均衡,让网络更关注真实目标匹配。
    • 结合两者,增强模型在杂波密集和真实目标稀疏时的学习能力。

🔍 直观理解: 像考试时给对的题更高权重,忽略那些根本不该算分的“干扰题”,让网络把精力放在关键的匹配上。


创新点 4:端到端训练,弱化对先验参数依赖

  • 问题:传统 JPDA、MHT 必须提前知道杂波密度、检测概率、门控阈值等;LSTM 方法也常需要手动构造特征。
  • 改进:Transformer-DA 直接用 预测目标状态 + 量测特征(位置、速度等)构造输入序列,网络端到端学习关联策略。
    • 不再需要人工建模杂波统计或调节检测概率参数;
    • 对传感器变化或环境不确定性更有适应性。

🔍 直观理解: 不用先做复杂的数学假设,网络直接通过数据自己学会“怎么在乱糟糟的雷达回波里找出正确匹配”。


辅助设计亮点

  • 输入特征扩展:不只用欧氏距离,还可以融合雷达的速度、多普勒信息等特征,让网络获得更丰富的匹配线索。
  • Transformer 多头注意力 (Multi-Head Attention):能从不同角度(位置差、速度差、历史轨迹)分别学习匹配关系,再综合判断。
  • 高效推理:虽然 Transformer 理论上复杂度较高,但通过掩蔽无效量测和稀疏化注意力,可在机载实时任务中保持较高速度。

与 DeepDA 的对比

对比点
DeepDA (LSTM)
本文 Transformer-DA
序列建模
LSTM,长时间依赖有限
Transformer,全局注意力
漏检/虚警
支持但不显式建模
显式虚拟量测,更自然鲁棒
损失函数
普通交叉熵
MCD Loss,解决样本不平衡
先验依赖
仍需一定假设
端到端弱化先验依赖
场景适应
较受限
更灵活,适合复杂雷达场景

Transformer-DA 的核心创新在于:Transformer 自注意力 替代 LSTM 来进行全局数据关联,显式建模漏检/虚警,并通过 MCD 损失解决类别不平衡,实现了一个端到端、少依赖先验、在杂波和复杂机动条件下仍鲁棒的多目标雷达跟踪方法。



3、模型结构与工作流程

整体框架可以分成 四大部分
  1. 历史轨迹编码(上半部分)
  2. 当前量测编码(下半部分)
  3. Transformer-DA 解码与关联概率输出
  4. 轨迹状态更新(卡尔曼滤波器)
image.png

(1) 历史轨迹输入与编码 —— 利用时序信息

  • 图中左上角展示了过去连续 k−4,k−3,k−2,k−1k-4, k-3, k-2, k-1k−4,k−3,k−2,k−1 帧的目标状态。
  • 每个小圆点代表某一时刻的目标位置或状态(可以包含位置、速度、多普勒等)。
  • 这些历史状态首先被 展开 (Flatten):把过去每帧中所有目标的状态信息按序列拼接成一个向量序列,作为 Transformer 的输入。
  • 目的:为后续关联提供目标的运动轨迹上下文,帮助模型理解目标的动态趋势。

🔍 直观理解: 就像把过去几秒钟飞机的飞行轨迹记录打包给模型,让它“先复习一下”每个目标的运动习惯。


(2) 当前时刻的量测输入与编码 —— 捕捉实时观测

  • 左下角的方框是当前时刻 kkk 雷达检测到的所有量测点(黑点、红点、白点表示不同状态:真实目标、可能虚警、未确定)。
  • 这些量测数据(位置、速度、雷达反射特征等)会被送入下方的 Transformer-DA 解码器进行处理。
  • 目的:提取当前帧中每个量测的关键特征,为与历史目标进行匹配做准备。

🔍 直观理解: 这是“实时拍的照片”,模型要把当前观测的信息和历史轨迹结合起来推理匹配关系。


(3) Transformer-DA 解码与数据关联概率输出 —— 核心模块

整个框架的核心是 Transformer-DA 网络(图中黄色的两个模块):

3.1 上方 Transformer-DA —— 历史轨迹特征提取器

  • 接收 Flatten 后的历史轨迹序列,用 多头自注意力 (Multi-Head Self-Attention) 学习:
    • 目标之间的交互关系(如轨迹交叉、相对速度变化);
    • 每个目标历史状态的长时依赖。
  • 输出一组富含运动模式和目标间关系的 编码特征向量

3.2 下方 Transformer-DA —— 数据关联解码器

  • 接收两部分信息:
    1. 当前量测的特征;
    2. 上方输出的历史轨迹编码结果。
  • 通过 解码器的交叉注意力 (Cross-Attention)
    • 将当前量测与历史目标状态一一对比;
    • 计算匹配强度,同时考虑漏检和杂波(这里显式包含“虚拟量测”作为额外一类输出)。
  • 最终输出 关联概率矩阵
    • 行对应历史目标;
    • 列对应当前量测 + 一列“未匹配/虚拟量测”选项。

🔍 直观理解: 上半部分是“复习历史”,下半部分是“对比当前观测”,解码器就像一个能看全局的调度员,决定每个旧目标和当前量测的匹配概率。


(4) 状态更新与轨迹维护

  • 输出的 关联概率矩阵 会传入 卡尔曼滤波器
    • 概率最高的匹配被用于更新目标状态(位置、速度等);
    • 没有匹配到的目标会暂时保留并继续预测;
    • 没有被匹配的量测点可能被初始化为新的目标轨迹。
  • 卡尔曼滤波器在这里提供稳定的状态估计和噪声抑制,使得整个系统具备 实时性与稳健性

🔍 直观理解: 最终的更新像一个“航迹管控员”,根据 Transformer 的匹配建议更新每个目标的最新位置,如果出现新点则创建新航迹。


工作流程总结

  1. 轨迹预测:先收集过去几帧的目标状态,预测其当前位置。
  2. 特征编码:历史轨迹由上方 Transformer 编码,当前量测由下方 Transformer 处理。
  3. 自注意力匹配:解码器用注意力机制计算每个历史目标和每个量测的匹配概率,并允许虚拟匹配处理漏检/杂波。
  4. 卡尔曼更新:根据概率结果更新各目标状态,并维护轨迹生命周期。

与 DeepDA 的区别(结构上)

对比点
DeepDA
Transformer-DA
序列特征
LSTM 单向序列
Transformer 全局自注意力
输入组织
逐帧距离矩阵
历史轨迹序列 + 当前量测联合编码
漏检处理
Softmax 最后一列
显式虚拟量测
输出
关联概率矩阵
关联概率矩阵(结合虚拟量测 + MCD Loss)
状态更新
卡尔曼
卡尔曼(类似,但数据输入更鲁棒)

4、模型的核心不足与局限

  1. 对训练数据依赖强,泛化能力有限
  • 原因:Transformer-DA 完全依赖端到端监督训练,模型效果依赖大量高质量的带标签数据。
  • 问题:机载雷达场景差异很大(平台高度、姿态变化、杂波类型、信噪比、天气等),一旦部署环境和训练环境差别较大,模型性能可能明显下降。
  • 对比:传统 JPDA/MHT 有显式统计模型,只需调整参数即可适应新场景;而 Transformer-DA 需要重新训练或微调。

🔍 通俗理解:就像一个在晴天机场学会引导飞机的工作人员,如果被派到暴风雪的军用机场可能就不适应了。


  1. 计算与存储开销较大,实时性受限
  • 原因:Transformer 的自注意力计算复杂度是 O(n2)O(n^2)O(n2),当历史轨迹长度大、目标/量测数量多时计算开销显著增加。
  • 影响:在机载实时任务中,目标数和帧率可能较高,模型推理速度和内存消耗都可能成为瓶颈。
  • 对比:DeepDA(LSTM) 的复杂度较低,虽然信息表达不如 Transformer 全局,但在低算力平台上更易部署。

🔍 通俗理解:Transformer-DA 很聪明,但也很“费脑子”,在目标多、更新快的场景下可能算不过来。


  1. 缺少显式的不确定性建模,置信度难解释
  • 原因:模型虽然输出关联概率,但这些概率是神经网络学习的“经验值”,并没有严格的概率统计基础。
  • 影响:当观测噪声大或目标机动剧烈时,输出的概率可能过于自信或不稳定;安全关键领域难以直接使用。
  • 对比:JPDA/MHT 在概率推断上有数学解释,可以提供明确的置信度和可解释性。

🔍 通俗理解:模型会“拍胸脯”告诉你匹配很确定,但其实有时候它的置信度并不可靠。


  1. 对动态环境和在线适应性差
  • 原因:模型在训练后参数固定,无法实时适应杂波密度、检测概率、传感器工作状态等变化。
  • 影响:需要频繁重新训练才能适应新环境,缺乏在线增量学习能力。
  • 对比:一些概率图模型可在跟踪过程中动态估计检测率、杂波参数,适应环境变化。

🔍 通俗理解:像一个死记硬背的飞行管控员,环境变化后不会自己调整,需要重新培训。


  1. 对极端稀疏 / 密集目标场景支持不足
  • 原因:Transformer-DA 假设目标与量测数量在合理范围内。当目标非常密集或雷达只检测到极少点时,匹配矩阵会非常稀疏或过于庞大,导致模型预测不稳定。
  • 影响:在高动态空战场景或海量杂波背景中,可能出现轨迹漂移或漏检严重。

  1. 外观/多模态信息融合有限
  • 原因:当前方法主要使用几何/运动特征(位置、速度、多普勒),对视觉特征、信号微结构等外观信息利用不足。
  • 影响:当目标轨迹交叉且运动模式相似时,模型区分不同目标的能力减弱。
  • 改进方向:可引入视觉相机、毫米波点云等多模态特征。

  1. 工程部署难度较高
  • 原因:需要大量标注、模型较重、缺少解释性;在航空、军事等关键场景中验证和认证周期长。
  • 影响:虽然性能优越,但短期内难以完全替代成熟的概率跟踪算法。

5、后续改进方向

5.1 提升模型泛化能力 —— 迁移学习与域自适应

  • 问题:当前模型对训练数据依赖强,在平台、雷达工作模式或杂波条件变化时易退化。
  • 改进思路
    • 域自适应 (Domain Adaptation):通过对抗训练、特征对齐,使模型在不同场景下保持一致表示。
    • 迁移学习 / 少样本学习:在已有模型上快速适应新环境,减少重新标注和大规模训练的成本。
    • 数据增强:构造模拟杂波、机动轨迹、不同信噪比的虚拟数据,增强模型鲁棒性。

5.2 提高实时性与可扩展性 —— 轻量化与高效注意力机制

  • 问题:Transformer 在多目标、大量量测时计算开销高,不易在机载实时平台上部署。
  • 改进思路
    • 轻量化 Transformer:模型剪枝、量化、蒸馏等方式减少参数量。
    • 稀疏/局部注意力:限制注意力计算在时空邻域内,降低 O(n2)O(n^2)O(n2) 的复杂度。
    • 分层结构:先粗匹配,再局部精细化关联;或动态选择计算资源用于关键目标。

5.3 增强不确定性建模与可解释性

  • 问题:当前输出概率缺乏统计意义,置信度难以解释。
  • 改进思路
    • 贝叶斯 Transformer概率注意力:输出匹配分布和不确定性区间,提升置信度可用性。
    • 可解释性模块:用注意力可视化或轨迹回溯分析解释关联决策。
    • 混合模型:结合概率图模型(如 JPDA)提供理论解释,与深度网络互补。

5.4 在线增量学习与自适应更新

  • 问题:训练后模型参数固定,无法适应实时变化的杂波、检测概率。
  • 改进思路
    • 在线微调 (Online Fine-tuning):用最近几帧数据或人工校正结果更新模型。
    • 持续学习 (Continual Learning):避免灾难性遗忘的增量更新方法。
    • 自监督辅助损失:利用轨迹平滑性、前后向一致性等无标签信号做在线优化。

5.5 引入多模态信息融合

  • 问题:当前模型主要基于几何与运动特征,缺少外观/信号层信息。
  • 改进思路
    • 融合 视觉信息(红外/可见光图像)、毫米波点云或雷达回波微多普勒特征。
    • 利用跨模态 Transformer,将不同传感器信息统一到一个特征空间,提升交叉和拥挤场景下的区分度。
    • 实现 雷达-相机/激光雷达协同跟踪,提高定位与识别精度。

5.6 面向极端场景的鲁棒增强

  • 问题:在目标极稀疏或极密集、强干扰背景下性能下降。
  • 改进思路
    • 多级关联策略:先在全局上做粗筛选,再局部高精度匹配。
    • 难例挖掘与对抗训练:让模型在训练中重点适应极端条件。
    • 动态目标管理:在极端密集场景中做轨迹聚合或分裂管理,减轻模型压力。

5.7 与滤波/状态估计深度融合

  • 问题:目前状态更新仍依赖传统卡尔曼滤波,与深度关联网络是解耦的。
  • 改进思路
    • 开发 端到端的“关联 + 状态预测/更新”一体化模型,让网络同时学习数据关联和轨迹动态。
    • 借鉴 DeepAF、Graph Neural Network + Kalman Hybrid 等设计,把滤波器内嵌到深度结构中,使误差传播更平滑。