TrackNet

用於高速微小目標追蹤的深度學習網絡

TrackNet 是一個專門設計的深度學習架構，用於在廣播體育視頻中追蹤高速且微小的目標。這些目標（如網球或羽毛球）通常很小、模糊，有時甚至由於快門速度和劇烈運動而變為不可見。

問題定義

核心架構

該網絡不僅被訓練從單幀中識別球體，還被訓練從連續幀中學習飛行模式，充分利用了時空特徵。

兩者的設計理念因任務目標的不同而有顯著差異：

TrackNet: 目標是估計瞬時速度 $\max(\partial(x, y, t)/\partial t)$ 。這是一個回歸任務，需要精確的像素坐標。
TSM: 目標是分類動作 $P(\text{Action\_} \mid f(t-k, t+k))$ 。這是一個分類任務，局部像素精度對分類結果影響較小。

特性	TrackNet	TSM
任務目標	$\max(\partial (x, y, t))/ \partial t$	$P(\text{Action\_}\mid f(t-k, t+k))$
損失函數	$\\| \text{Heatmap}_{\text{pred}} - \text{Heatmap}_{\text{gt}} \\|$	$\text{CE}(\text{Action\_}_{\text{pred}}, \text{Action\_}_{\text{gt}})$
輸入側重	局部空間特徵 + 時序	全局時序上下文

TrackNetV1

TracknetV2

相比 V1 的關鍵改進：

U-Net 跳躍連接 (Skip Connections)：取代 VGG 結構，減少誤報（False Positives）和軌跡抖動。
多幀輸出：輸出從 $W \times H \times 1$ 變為 $W \times H \times \text{InputFrames}$ ，使軌跡預測更平滑。
軟高斯熱力圖：使用平滑的高斯熱力图（軟標籤）取代硬二進制標籤，以更好處理運動模糊。

TrackNetV3

性能假設

TrackNetV3 在重度遮擋場景下的表現顯著優于 V2，但需要背景幀進行最佳初始化。