跳到主要内容

TrackNet

用于高速微小目标追踪的深度学习网络

TrackNet 是一个专门设计的深度学习架构,用于在广播体育视频中追踪高速且微小的目标。这些目标(如网球或羽毛球)通常很小、模糊,有时甚至由于快门速度和剧烈运动而变为不可见。

问题定义

特性TrackNet 策略
小目标基于热力图(Heatmap)的像素级坐标检测
运动模糊从连续帧中学习运动模式(时空信息)
可见性即便球体被部分遮挡,也能回归 (x, y) 坐标
核心架构

该网络不仅被训练从单帧中识别球体,还被训练从连续帧中学习飞行模式,充分利用了时空特征。

TrackNet vs. TSM (Temporal Shift Module)

两者的设计理念因任务目标的不同而有显著差异:

  • TrackNet: 目标是估计瞬时速度 max((x,y,t)/t)\max(\partial(x, y, t)/\partial t)。这是一个回归任务,需要精确的像素坐标。
  • TSM: 目标是分类动作 P(Action_f(tk,t+k))P(\text{Action\_} \mid f(t-k, t+k))。这是一个分类任务,局部像素精度对分类结果影响较小。

对比矩阵

特性TrackNetTSM
任务目标max((x,y,t))/t\max(\partial (x, y, t))/ \partial tP(Action_f(tk,t+k))P(\text{Action\_}\mid f(t-k, t+k))
损失函数HeatmappredHeatmapgt\| \text{Heatmap}_{\text{pred}} - \text{Heatmap}_{\text{gt}} \|CE(Action_pred,Action_gt)\text{CE}(\text{Action\_}_{\text{pred}}, \text{Action\_}_{\text{gt}})
输入侧重局部空间特征 + 时序全局时序上下文

版本演进

TrackNetV1 (AVSS 2019)

📄 论文: AVSS 2019

TrackNetV1

  • 输入: W×H×(3 帧×RGB)W \times H \times (3 \text{ 帧} \times \text{RGB})
  • 输出: W×H×1W \times H \times 1 热力图。
  • 方法: 基于 VGG 的编码器-解码器。通过 Circle Hough 变换处理二进制热力图。

TrackNetV2 (ICPAI 2020)

📄 论文: ICPAI 2020

TracknetV2

相比 V1 的关键改进:

  • U-Net 跳跃连接 (Skip Connections):取代 VGG 结构,减少误报(False Positives)和轨迹抖动。
  • 多帧输出:输出从 W×H×1W \times H \times 1 变为 W×H×InputFramesW \times H \times \text{InputFrames},使轨迹预测更平滑。
  • 软高斯热力图:使用平滑的高斯热力图(软标签)取代硬二进制标签,以更好处理运动模糊。

TrackNetV3

📄 论文: TrackNetV3

TrackNetV3

  • 背景集成:将背景图像作为输入,以增强辨识度。
  • Mixup 训练:应用 Mixup 数据增强。
  • 校正模块 (Rectification Module):引入校正模块,用于修复遮挡或重叠时的轨迹偏差。
性能假设

TrackNetV3 在重度遮挡场景下的表现显著优于 V2,但需要背景帧进行最佳初始化。