개요

DeepSORT 라고 알고 있는 Simple Online and Realtime Tracking with a Deep Association Metric 논문의 얕은 리뷰. SORT 알고리즘에 이어 읽는 객체 추적 및 re-id 관련 논문이다.

방법론

  • 객체 추적의 시나리오에서 객체의 상태를 8차원 상태공간으로 표현한다. 바운딩 박스의 중심위치 ($u, v$), 바운딩 박스의 종횡비 $\gamma$, 높이 $h$, 그리고 각 4가지의 속도를 표현하는 $(\dot{u}, \dot{v}, \dot{\gamma}, \dot{h})$ 로 구성한다.
  • 트랙(추적)은 $k$로 표현하고, 최초 측정 값 이후의 $a_k$ 프레임 수 만큼의 연관 프레임을 계산한다. 이러한 추적 객체의 수명을 $A_{max}$로 표현한다.
  • 칼만 필터와 헝가리안 알고리즘의 사용을 통해 연관 문제를 정의하면서 동작 및 외형 정보를 적절히 결합한 새로운 문제정의를 한다. 동작 정보를 위해 메트릭으로 마할라노비스 거리를 사용한다. 95%(94.877) 신뢰 구간 내로 떨어진 객체에 대해서 유효한 연관 객체로 지정한다.
  • 카메라가 자주 움직이거나 예상치 않게 움직인다면 마할라노비스 거리를 이용한 추적이 적절하지 않을 수 있다. 이 때, 객체의 외형정보를 통합한 메트릭을 적용한다. 이러한 외형정보는 CNN 네트워크를 타고 피쳐맵을 추출하고 탐지된 트랙들 간의 코사인 거리를 계산하여 가장 작은 것을 기준으로 연관 여부를 확인한다.
  • 결론은 마할라노비스 거리를 활용한 객체의 동작 메트릭 및 외형정보를 활용한 CNN과 코사인 거리 메트릭을 활용하여 객체 추적을 해결하기 위한 메트릭을 가중치 $\lambda$를 이용하여 조정한다.
  • 객체가 일정 시간 가려지면 칼만 필터는 불확실성을 증가시키고, 마할라노비스 거리는 더 큰 불확실성을 선호하는 결과를 내며, 이는 예측의 관점에서 정확하지 않는 방향일 수 있다. 이에 매칭 알고리즘을 개량하여 더 자주 관찰된 객체가 우선적으로 할당 받을 수 있도록 연관 알고리즘을 개선한다.

실험

  • MOT 16 벤치마크 데이터셋을 통해 객체 추적 알고리즘을 평가한다.
  • 기존에 있던 SORT, POI 등의 온라인 객체추적 알고리즘, 배치 단위 객체 추적 알고리즘 등을 같이 비교 평가한다.
  • 이 때, $\lambda$는 0으로 설정되고, $A_{max}$는 30으로 설정되어 테스트 되었다.
    • 람다가 0으로 설정되었다는 말은 마할라노비스 거리를 활용한 동작 메트릭을 평가 알고리즘에 반영하지 않았단 것이고, 이는 카메라가 같이 상당히 움직일 때 적용할 법하다. MOT16 의 테스트 데이터 셋이 카메라 촬영자도 같이 움직여서 그런 것으로 유추 된다.
  • SORT와 비교하여 ID 스위치는 감소하고, 트래킹 단편화 증가를 볼 수 있었다. 유의미한 MT의 증가와 ML의 감소도 확인하였고, 오랜 시간의 폐색에도 강하게 대응함을 확인하였다.

결론

본 논문이 제시한 DeepSORT 알고리즘은 기존의 운동 방향 및 칼만 필터만으로 판단하던 객체 추적기에 딥러닝을 통한 외형 정보를 통합하여 객체 추적 과정에서 생기는 ID Switch 문제를 줄이는데 기여하였다. 그럼에도 여전히 실시간으로 처리하기에 좋은 효율성을 유지하였다.

번역

Abstract

단순 온라인 및 실시간 추적(SORT)은 간단하고 효과적인 알고리즘에 초점을 맞춘 다중 객체 추적에 대한 실용적인 접근법입니다. 본 논문에서는 SORT의 성능을 개선하기 위해 외형 정보를 통합했습니다. 이러한 확장 덕분에 우리는 더 긴 시간 동안 가려짐(occlusion)을 겪는 객체를 추적할 수 있게 되었으며, 이는 정체성 전환(identity switches)의 수를 효과적으로 줄였습니다. 원래 프레임워크의 정신에 따라, 우리는 계산 복잡도의 대부분을 대규모 인물 재식별 데이터셋(person re-identification dataset)에서 딥 어소시에이션 메트릭을 학습하는 오프라인 사전 학습 단계에 배치했습니다. 온라인 응용 단계에서는 시각적 외형 공간에서 최근접 이웃 쿼리(nearest neighbor queries)를 사용하여 측정값과 추적값 간의 연관성을 설정합니다. 실험적 평가 결과, 우리의 확장은 정체성 전환의 수를 45% 줄여 높은 프레임 속도에서 전반적으로 경쟁력 있는 성능을 달성했음을 보여줍니다.

Index Terms

컴퓨터 비전, 다중 객체 추적, 데이터 연관성

1. INTRODUCTION

그림 1. MOT 챌린지 데이터셋 [15]에서 일반적인 빈번한 가려짐이 있는 추적 상황에서 본 방법의 예시 출력.

객체 탐지(Object Detection)의 최근 발전으로 인해, 탐지를 기반으로 한 추적(tracking-by-detection)이 다중 객체 추적의 주요 패러다임이 되었습니다. 이 패러다임 내에서, 객체 궤적은 일반적으로 전체 비디오 배치를 한 번에 처리하는 전역 최적화 문제에서 발견됩니다. 예를 들어, 플로우 네트워크(flow network) 공식화 [1, 2, 3]와 확률 그래프 모델(probabilistic graphical model) [4, 5, 6, 7]이 이러한 유형의 인기 있는 프레임워크가 되었습니다. 그러나 배치 처리가 필요하기 때문에, 이러한 방법들은 매 시간 단계에서 타겟 식별자가 요구되는 온라인 시나리오에서는 적용할 수 없습니다. 보다 전통적인 방법으로는 다중 가설 추적(Multiple Hypothesis Tracking, MHT) [8]와 공동 확률 데이터 연관 필터(Joint Probabilistic Data Association Filter, JPDAF) [9]가 있습니다. 이러한 방법들은 프레임 단위로 데이터를 연관합니다. JPDAF에서는 연관 가능성을 가중치로 사용하여 단일 상태 가설을 생성합니다. 반면 MHT는 모든 가능한 가설을 추적하지만 계산 효율성을 위해 가지치기(pruning) 방식을 적용해야 합니다. 두 방법 모두 최근 탐지를 기반으로 한 추적 시나리오 [10, 11]에서 재조명되었고, 유망한 결과를 보였습니다. 그러나 이러한 방법들은 계산 및 구현 복잡성이 증가하는 대가를 수반합니다.
단순 온라인 및 실시간 추적(SORT) [12]은 이미지 공간에서 칼만 필터링을 수행하고, 프레임 단위로 헝가리안 알고리즘을 사용하여 바운딩 박스 겹침을 측정하는 연관 메트릭을 사용하여 데이터를 연관하는 훨씬 더 단순한 프레임워크입니다. 이 간단한 접근 방식은 높은 프레임 속도에서 유리한 성능을 달성합니다. MOT 챌린지 데이터셋 [13]에서, 최신 사람 탐지기를 적용한 SORT [14]는 표준 탐지 기준으로 MHT보다 평균적으로 더 높은 순위를 기록합니다. 이는 객체 탐지기의 성능이 전체 추적 결과에 미치는 영향을 강조할 뿐만 아니라 실무자 관점에서 중요한 통찰력을 제공합니다.
SORT는 추적 정밀도와 정확성 측면에서 전반적으로 좋은 성능을 달성했지만, 비교적 높은 정체성 전환 횟수를 반환합니다. 이는 사용된 연관 메트릭이 상태 추정 불확실성이 낮을 때만 정확하기 때문입니다. 따라서 SORT는 일반적으로 정면 카메라 장면에서 나타나는 가려짐(occlusion)을 통한 추적에 결함이 있습니다. 우리는 연관 메트릭을 동작 및 외형 정보를 결합한 더 정보에 기반한 메트릭으로 교체하여 이 문제를 해결했습니다. 특히, 대규모 사람 재식별 데이터셋(person re-identification dataset)에서 보행자를 구별하도록 훈련된 CNN을 적용했습니다. 이 네트워크의 통합을 통해 놓친 탐지 및 가려짐에 대한 강인성을 높이면서 시스템을 쉽게 구현 가능하고 효율적이며, 온라인 시나리오에 적용할 수 있도록 유지했습니다. 우리의 코드와 사전 학습된 CNN 모델은 연구 실험 및 실제 응용 프로그램 개발을 용이하게 하기 위해 공개되었습니다.

2. SORT WITH DEEP ASSOCIATION METRIC

우리는 재귀적 칼만 필터링(recursive Kalman filtering)과 프레임별 데이터 연관을 사용하는 전통적인 단일 가설 추적(single hypothesis tracking) 방법론을 채택합니다. 다음 섹션에서는 이 시스템의 핵심 구성 요소를 더 자세히 설명합니다.

2.1. Track Handling and State Estimation

트랙 처리 및 칼만 필터링 프레임워크는 [12]에서의 원래 공식과 대부분 동일합니다. 우리는 카메라가 보정되지 않았으며, 자가-모션(ego-motion) 정보가 제공되지 않는 매우 일반적인 추적 시나리오를 가정합니다. 이러한 상황은 필터링 프레임워크에 도전 과제가 될 수 있지만, 이는 최근 다중 객체 추적 벤치마크 [15]에서 가장 일반적으로 고려되는 설정입니다. 따라서 우리의 추적 시나리오는 바운딩 박스 중심 위치 $(u,v)$, 종횡비 $γ$, 높이 $h$, 그리고 이미지 좌표계에서의 해당 속도를 포함하는 8차원 상태 공간 $(u,v,γ,h, \dot{x}, \dot{y}, \dot{γ}, \dot{h})$ 으로 정의됩니다. 우리는 상수 속도 동작 및 선형 관찰 모델을 가진 표준 칼만 필터를 사용하며, 바운딩 좌표 $(u,v,γ,h)$ 를 객체 상태의 직접 관찰값으로 사용합니다.
각 트랙 $k$ 에 대해, 마지막으로 성공적으로 측정값과 연관된 이후 경과한 프레임 수 $a_k$ 를 계산합니다. 이 카운터는 칼만 필터 예측 중에 증가하며, 트랙이 측정값과 연관될 때 0으로 초기화됩니다. 미리 정의된 최대 수명 $A_{max}$ 을 초과하는 트랙은 장면을 벗어난 것으로 간주되어 트랙 세트에서 삭제됩니다. 기존 트랙과 연관될 수 없는 각 탐지를 위해 새로운 트랙 가설이 생성됩니다. 이러한 새로운 트랙은 처음 세 프레임 동안 임시로 분류됩니다. 이 기간 동안, 우리는 매 시간 단계에서 성공적인 측정값 연관을 기대합니다. 첫 세 프레임 내에 측정값과 성공적으로 연관되지 않는 트랙은 삭제됩니다.

2.2. Assignment Problem

예측된 칼만 상태와 새로 들어온 측정값 간의 연관 문제를 해결하는 전통적인 방법은 헝가리안 알고리즘을 사용해 해결할 수 있는 연관 문제를 구축하는 것입니다. 이 문제 공식에 동작 정보와 외형 정보를 두 가지 적절한 메트릭의 결합을 통해 통합합니다.
동작 정보를 통합하기 위해, 예측된 칼만 상태와 새로 들어온 측정값 간의 (제곱) 마할라노비스 거리(Mahalanobis distance)를 사용합니다:

\[\begin{equation} d^{(1)}(i,j) = (d_j-y_i)^TS_I^{-1}(d_j-y_i) \end{equation}\]

여기서 $i$-번째 트랙 분포를 측정 공간으로 투영한 것을 $(y_i,S_i)$, $j$-번째 바운딩 박스 탐지를 $d_j$ 로 나타냅니다. 마할라노비스 거리는 탐지된 값이 평균 트랙 위치에서 몇 표준편차 떨어져 있는지를 측정하여 상태 추정 불확실성을 고려합니다. 또한, 이 메트릭을 사용하여 역 $χ^2$ 분포에서 계산된 95% 신뢰 구간을 기준으로 마할라노비스 거리를 임계값으로 제한하여 가능성이 낮은 연관성을 제외할 수 있습니다. 이를 나타내는 지표는 다음과 같습니다:

\[\begin{equation} b^{(1)}_{i,j} = \mathbf{1}[d^{(1)}(i,j) \leq t^{(1)}] \end{equation}\]

이 지표는 $i$-번째 트랙과 $j$-번째 탐지 간의 연관이 허용 가능한 경우 1로 평가됩니다. 4차원 측정 공간에서 대응하는 마할라노비스 임계값은 $t^{(1)}=9.4877$ 입니다.
마할라노비스 거리는 동작 불확실성이 낮을 때 적합한 연관 메트릭이지만, 이미지 공간 문제에서 칼만 필터링 프레임워크에서 얻은 예측 상태 분포는 객체 위치의 대략적인 추정을 제공할 뿐입니다. 특히, 고려되지 않은 카메라 움직임은 이미지 평면에서 급격한 변위를 유발할 수 있어 마할라노비스 거리를 가려짐(occlusion)을 통한 추적에 적합하지 않은 메트릭으로 만듭니다. 따라서 연관 문제에 두 번째 메트릭을 통합합니다. 각 바운딩 박스 탐지 $d_j$ 에 대해, 외형 설명자(descriptor) $r_j(\Vert r_j\Vert=1)$ 를 계산합니다. 또한, 각 트랙 $k$ 에 대해 마지막 $L_k=100$ 개의 연관된 외형 설명자의 갤러리 $\mathcal{R}_k={r_k^{(i)}​}_{k=1}^{L_k}$ 를 유지합니다. 그런 다음, 두 번째 메트릭은 외형 공간에서 $i$-번째 트랙과 $j$-번째 탐지 간의 가장 작은 코사인 거리를 측정합니다:

\[\begin{equation} d^{(2)}(i,j) = min\{1-r_j^Tr_k^{(1)}|r_k^{(i)} \in \mathcal{R_i}\} \end{equation}\]

마찬가지로, 이 메트릭에 따라 연관이 허용 가능한지를 나타내는 이진 변수를 도입합니다:

\[\begin{equation} d^{(2)}_{i,j} = \mathbf{1}[d^{(2)}(i,j) \leq t^{(2)} ] \end{equation}\]

그리고 우리는 이 지표에 적합한 임계값을 별도의 학습 데이터셋에서 찾습니다. 실제로, 우리는 사전 학습된 CNN을 적용하여 바운딩 박스 외형 설명자를 계산합니다. 이 네트워크의 구조는 섹션 2.4에서 설명됩니다.
두 메트릭은 연관 문제의 다른 측면을 보완하면서 상호 보완적으로 작용합니다. 한편으로, 마할라노비스 거리는 동작에 기반한 가능한 객체 위치에 대한 정보를 제공하며, 이는 단기 예측에 특히 유용합니다. 다른 한편으로, 코사인 거리는 동작이 덜 구별적인 경우 긴 시간 동안 가려짐(occlusion) 후에 정체성을 회복하는 데 특히 유용한 외형 정보를 고려합니다. 연관 문제를 구성하기 위해 두 메트릭을 가중 합으로 결합합니다:

\[\begin{equation} c_{i,j} = \lambda d^{(1)}(i, j) + (1-\lambda)d^{(2)}(i,j) \end{equation}\]

여기서, 두 메트릭의 게이팅 영역(gating region) 내에 있는 경우 연관이 허용 가능하다고 판단합니다:

\[\begin{equation} b_{i,j}=\prod_{m=1}^2 b_{i,j}^{(m)} \end{equation}\]

결합된 연관 비용에서 각 메트릭의 영향을 하이퍼파라미터 $λ$ 를 통해 제어할 수 있습니다. 실험 중에 우리는 $λ=0$ 으로 설정하는 것이 상당한 카메라 움직임이 있을 때 합리적인 선택임을 발견했습니다. 이 설정에서는 연관 비용 항목에 외형 정보만 사용됩니다. 그러나 마할라노비스 게이트는 여전히 칼만 필터가 추론한 가능한 객체 위치를 기반으로 실행 불가능한 할당을 제외하는 데 사용됩니다.

2.3. Matching Cascade

매칭 캐스케이드

전역 연관 문제에서 측정값과 트랙 간의 연관성을 해결하는 대신, 우리는 일련의 하위 문제를 해결하는 캐스케이드를 도입합니다. 이 접근 방식을 동기 부여하기 위해 다음 상황을 고려해 보세요. 객체가 오랜 시간 동안 가려지면, 이후의 칼만 필터 예측은 객체 위치와 관련된 불확실성을 증가시킵니다. 결과적으로, 상태 공간에서 확률 분포가 퍼지며, 관측 가능성이 덜 뚜렷해집니다. 직관적으로, 연관 메트릭은 확률 분포의 확산을 고려하여 측정값과 트랙 간의 거리를 증가시켜야 합니다. 그러나, 두 트랙이 동일한 탐지값을 놓고 경쟁하는 경우, 마할라노비스 거리는 더 큰 불확실성을 선호합니다. 이는 탐지가 예상 트랙 평균에 더 가까워지도록 표준 편차 거리를 효과적으로 줄이기 때문입니다. 이 행동은 바람직하지 않으며, 트랙 단편화 및 불안정한 트랙을 증가시킬 수 있습니다. 따라서, 우리는 연관 가능성에서 확률 분포의 개념을 인코딩하기 위해 더 자주 관찰된 객체에 우선순위를 부여하는 매칭 캐스케이드를 도입합니다.
리스트 1은 우리의 매칭 알고리즘을 개략적으로 설명합니다. 입력으로 트랙 $\mathcal{T}$ 와 탐지 $\mathcal{D}$ 인덱스 세트 및 최대 수명 $A_{max}$ 을 제공합니다. 1번과 2번 줄에서 연관 비용 행렬과 허용 가능한 연관 행렬을 계산합니다. 그런 다음, 트랙 나이를 $n$ 으로 반복하면서 나이가 증가하는 트랙에 대한 선형 할당 문제를 해결합니다. 6번 줄에서는 마지막 $n$ 프레임 동안 탐지값과 연관되지 않은 트랙 $\mathcal{T}_n$ 의 부분집합을 선택합니다. 7번 줄에서는 $\mathcal{T}_n$ 에 있는 트랙과 매칭되지 않은 탐지값 $\mathcal{U}$ 간의 선형 할당 문제를 해결합니다.
8번과 9번 줄에서는 매칭된 세트와 매칭되지 않은 탐지값을 업데이트하며, 11번 줄에서 완료 후 이를 반환합니다. 이 매칭 캐스케이드는 더 작은 나이의 트랙, 즉 더 최근에 관찰된 트랙에 우선순위를 부여한다는 점에 유의하세요.
최종 매칭 단계에서는 나이가 $n=1$ 인 확인되지 않은 트랙과 매칭되지 않은 트랙 세트에서 원래 SORT 알고리즘 [12]에서 제안된 교집합 대비 합집합(intersection over union) 연관을 실행합니다. 이는 정적 장면 기하학과의 부분적 가려짐으로 인해 발생하는 갑작스러운 외형 변화 등을 고려하고, 잘못된 초기화에 대한 강인성을 증가시키는 데 도움이 됩니다.

2.4. Deep Appearance Descriptor

표 1. CNN 아키텍처 개요. 최종 배치 및 $l_2$ 정규화는 특징들을 단위 초구(unit hypersphere)로 투영합니다.

추가적인 메트릭 학습 없이 단순한 최근접 이웃 쿼리를 사용함으로써, 본 방법을 성공적으로 적용하려면 실제 온라인 추적 응용 전에 잘 구분된 특징 임베딩(feature embedding)을 오프라인에서 학습해야 합니다. 이를 위해, 우리는 1,261명의 보행자에 대한 1,100,000장 이상의 이미지를 포함하는 대규모 인물 재식별 데이터셋(person re-identification dataset) [21]에서 학습된 CNN을 사용합니다. 이는 사람 추적 맥락에서 딥 메트릭 학습에 적합합니다.
우리 네트워크의 CNN 아키텍처는 테이블 1에 표시되어 있습니다. 요약하면, 우리는 두 개의 합성곱(convolutional) 층과 여섯 개의 잔차(residual) 블록이 뒤따르는 넓은 잔차 네트워크(wide residual network) [22]를 사용합니다. 차원이 128인 전역 특징 맵(global feature map)은 Dense Layer 10에서 계산됩니다. 최종 배치 및 $ℓ_2$ 정규화는 특징들을 단위 초구(unit hypersphere)로 투영하여 코사인 외형 메트릭과 호환되도록 합니다. 전체적으로, 네트워크는 2,800,864개의 매개변수를 가지며, 32개의 바운딩 박스에 대한 한 번의 순방향 전달(forward pass)은 Nvidia GeForce GTX 1050 모바일 GPU에서 약 30ms가 소요됩니다. 따라서 이 네트워크는 최신 GPU가 제공된다면 온라인 추적에 적합합니다. 학습 절차의 세부 사항은 본 논문의 범위를 벗어나지만, 우리는 특징 생성을 위한 스크립트와 함께 사전 학습된 모델을 GitHub 저장소에 제공합니다.

3. EXPERIMENTS

표 2. MOT16 [15] 챌린지의 추적 결과. 비표준 탐지값을 사용하는 다른 발표된 방법들과 비교했습니다. 결과의 전체 표는 챌린지 웹사이트에서 확인할 수 있습니다. \*로 표시된 방법은 [16]에서 제공된 탐지값을 사용합니다.

우리는 MOT16 벤치마크 [15]에서 추적기의 성능을 평가합니다. 이 벤치마크는 이동하는 카메라가 있는 정면 뷰 장면과 탑다운 감시 환경을 포함한 7개의 도전적인 테스트 시퀀스에서 추적 성능을 평가합니다. 추적기의 입력으로 Yu 등 [16]이 제공한 탐지값을 사용했습니다. 이들은 Faster RCNN을 공공 및 비공공 데이터셋에서 학습하여 우수한 성능을 제공했습니다. 공정한 비교를 위해, 동일한 탐지값에서 SORT를 다시 실행했습니다.
테스트 시퀀스에서의 평가는 $λ=0$ 및 $A_{max}=30$ 프레임 설정으로 수행되었습니다. [16]에서와 같이, 탐지값은 신뢰도 점수 0.3에서 임계값 처리가 이루어졌습니다. 나머지 매개변수는 벤치마크에서 제공한 별도의 학습 시퀀스에서 결정되었습니다. 평가는 다음 메트릭에 따라 수행되었습니다:

  • 다중 객체 추적 정확도(MOTA): 오탐(false positive), 미탐(false negative), 정체성 전환(identity switches)과 관련된 전체 추적 정확도의 요약 [23].
  • 다중 객체 추적 정밀도(MOTP): 실제값(ground-truth)과 보고된 위치 간의 바운딩 박스 겹침 관점에서의 전체 추적 정밀도의 요약 [23].
  • 대부분 추적(MT): 수명 중 적어도 80% 동안 동일한 라벨을 유지한 실제값 트랙의 비율.
  • 대부분 소실(ML): 수명 중 최대 20% 동안만 추적된 실제값 트랙의 비율.
  • 정체성 전환(ID): 실제값 트랙의 보고된 정체성이 변경된 횟수.
  • 단편화(FM): 탐지 누락으로 인해 트랙이 중단된 횟수.

평가 결과는 테이블 2에 나와 있습니다. 우리의 수정 사항은 정체성 전환 횟수를 성공적으로 줄였습니다. SORT와 비교했을 때, ID 전환 횟수는 1423에서 781로 감소했습니다. 이는 약 45% 감소입니다. 동시에, 객체 정체성을 유지함에 따라 트랙 단편화가 약간 증가했습니다. 우리는 대부분 추적된 객체 수의 유의미한 증가와 대부분 소실된 객체 수의 감소도 확인했습니다. 전반적으로, 외형 정보를 통합함으로써 더 긴 가려짐 기간 동안 정체성을 성공적으로 유지했습니다. 이는 부가 자료에 제공된 추적 출력의 질적 분석에서도 확인할 수 있습니다. 우리의 추적기의 예시 출력은 그림 1에 나와 있습니다.
우리 방법은 다른 온라인 추적 프레임워크에 비해 강력한 경쟁력을 가집니다. 특히, 우리의 접근 방식은 모든 온라인 방법 중 가장 적은 정체성 전환 수를 반환하면서도 경쟁력 있는 MOTA 점수, 트랙 단편화, 미탐 수를 유지합니다. 보고된 추적 정확도는 주로 더 많은 오탐 수로 인해 손상됩니다. MOTA 점수에 대한 전반적인 영향을 고려할 때, 탐지값에 더 높은 신뢰도 임계값을 적용하면 알고리즘 성능을 크게 향상시킬 수 있습니다. 그러나 추적 출력의 시각적 검사는 이러한 오탐이 대부분 정적 장면 기하학에서 발생하는 산발적인 탐지기 응답에서 생성된 것임을 보여줍니다. 비교적 큰 최대 허용 트랙 나이로 인해 이러한 오탐은 객체 궤적에 더 자주 연결됩니다. 동시에, 잘못된 경보 사이에서 트랙이 자주 이동하는 것은 관찰되지 않았습니다. 대신, 추적기는 보고된 객체 위치에서 비교적 안정적이고 정적인 트랙을 생성했습니다.
우리의 구현은 약 20Hz로 실행되며, 이 중 절반 정도가 특징 생성에 사용됩니다. 따라서 현대 GPU가 제공된다면 시스템은 계산적으로 효율적이며 실시간으로 작동합니다.

4. CONCLUSION

우리는 사전 학습된 연관 메트릭을 통해 외형 정보를 통합한 SORT의 확장 버전을 제시했습니다. 이 확장을 통해 우리는 더 긴 가려짐(occlusion) 기간 동안 추적할 수 있었으며, SORT를 최첨단 온라인 추적 알고리즘에 대한 강력한 경쟁자로 만들었습니다. 그럼에도 불구하고 이 알고리즘은 구현이 간단하며 실시간으로 실행됩니다.


Nicolai Wojke, Alex Bewley, Dietrich Paulus Simple Online and Realtime Tracking with a Deep Association Metric

댓글남기기