TrackNet

用于高速微小目标追踪的深度学习网络

TrackNet 是一个专门设计的深度学习架构，用于在广播体育视频中追踪高速且微小的目标。这些目标（如网球或羽毛球）通常很小、模糊，有时甚至由于快门速度和剧烈运动而变为不可见。

问题定义

核心架构

该网络不仅被训练从单帧中识别球体，还被训练从连续帧中学习飞行模式，充分利用了时空特征。

两者的设计理念因任务目标的不同而有显著差异：

TrackNet: 目标是估计瞬时速度 $\max(\partial(x, y, t)/\partial t)$ 。这是一个回归任务，需要精确的像素坐标。
TSM: 目标是分类动作 $P(\text{Action\_} \mid f(t-k, t+k))$ 。这是一个分类任务，局部像素精度对分类结果影响较小。

特性	TrackNet	TSM
任务目标	$\max(\partial (x, y, t))/ \partial t$	$P(\text{Action\_}\mid f(t-k, t+k))$
损失函数	$\\| \text{Heatmap}_{\text{pred}} - \text{Heatmap}_{\text{gt}} \\|$	$\text{CE}(\text{Action\_}_{\text{pred}}, \text{Action\_}_{\text{gt}})$
输入侧重	局部空间特征 + 时序	全局时序上下文

TrackNetV1

TracknetV2

相比 V1 的关键改进：

U-Net 跳跃连接 (Skip Connections)：取代 VGG 结构，减少误报（False Positives）和轨迹抖动。
多帧输出：输出从 $W \times H \times 1$ 变为 $W \times H \times \text{InputFrames}$ ，使轨迹预测更平滑。
软高斯热力图：使用平滑的高斯热力图（软标签）取代硬二进制标签，以更好处理运动模糊。

TrackNetV3

性能假设

TrackNetV3 在重度遮挡场景下的表现显著优于 V2，但需要背景帧进行最佳初始化。