Processing math: 100%
본문 바로가기

논문리뷰

[Neurocomputing 2025] A lightweight video anomaly detection model with weak supervision and adaptive instance selection

https://www.sciencedirect.com/science/article/pii/S0925231224014693   Neurocomputing (IF: 5.5, Q1)

 

A lightweight video anomaly detection model with weak supervision and adaptive instance selection

Video anomaly detection is to determine whether there are any abnormal events, behaviors or objects in a given video, which enables effective and inte…

www.sciencedirect.com

 

Abstract

Weakly supervised video anomaly detection(weakly supervised VAD)은 주어진 비디오에 이상이 포함되어 있는지는 label이 존재하지만, 프레임 단위의 label은 존재하지 않음. 이러한 label 데이터의 불확실성은 실제환경, 특히 edge computing과 같은 제한적인 환경에서 사용되는데 한계가 존재함. 이를 해결하기 위해 본 연구에서는 weakly supervised VAD 환경에서 경량화된 모델을 제안함.

Adaptive instance selection strategy를 제안함으로써 비디오에서 신뢰할 수 있는 instance를 선택함으로써 weakly labeled data의 불확실성을 완화하고 모델 성능을 향상시킴. 또한, multi-level temporal correlation attention module과 hourglass-shaped fully connected layer를 설계하여 모델의 파라미터를 기존 method(RTFM)의 0.56% 수준으로 절감시킴.

3가지 public dataset(UCF-Crime, ShanghaiTech, XD-Violence)에서의 실험 결과, 제안 모델은 기존 경량화 모델과 비슷하거나 더 좋은 성능을 보였으며, 모델 파라미터는 대폭 감소시킴. 또한, 본 논문의 제안방식과 VadCLIP을 통합하여 UCF-Crime과 XD-Violence 데이터셋에서 SOTA를 달성함

 

Introduction & Motivation

비디오 이상탐지 (VAD: Video Anomaly Detection)은 비디오 내 이상 행동이나 사건 혹은 객체를 탐지하는 작업임. 이러한 작업을 위한 데이터 labeling은 시간과 비용이 매우 많이 소요되기 떄문에 기존 VAD는 un-supervised 혹은 weakly supervised 방식을 사용함. Weakly supervised 환경에서는 비디오에 이상현상이 포함되어 있는지 여부만 labeling 되고, 특정 프레임이나 이상행동의 수와 같은 정보는 제공되지 않음.

 

Weakly supervised VAD는 두가지 주요 한계를 가지고 있음.

 

1) 구체적인 이상정보가 부족하기 때문에 모델 성능이 제한됨

2) 대부분의 기존모델은 매우 크고 복잡하며, 엣지 컴퓨팅 환경에서 활용이 어려움

 

이를 해결하기 위해 본 논문에서는 경량화된 VAD 모델을 제안함

 

Contributions

1) Adaptive Instance Selection (AIS) 제안
    ▶weakly supervised 환경에서 신뢰가능한 instance만 선택하여 효율적으로 학습성능을 개선하는 방안 제시
    적은 연산, 적은 자원으로 이상행동 판단

    ▶약 0.56%파라미터 절감, 기존 경량모델들과 비교 시 SOTA

 

2) Multi-level Temporal Correlation Attention (MTA) 제안
    ▶다양한 시간적 상관관계에서 중요한 instance에 집중

 

3) Hourglass-shaped Fully Conneted Layer (HFC) 제안
    ▶모래시계형 구조를 통해 계산량 절감

 

 

Method

method overview

 

비디오 정보는 I3D(Inflated 3D Convolution)을 통해 feature extraction 되며 정상비디오는 negative bag에, anomaly 비디오는 positive bag으로 들어감.
여기서 핵심은 negative bag들의 모든 instace들은 normal한 정보들이지만, positive bag에는 normal한 instace와 anomaly instace가 섞여있으며, anomaly instance가 극히 일부이기 때문에 anomaly instance를 효과적으로 골라내는 것이 매우 중요함.

 

MTA 단계

 

가장 먼저 MTA단계에서는 비디오 프레임간의 시간적 변화를 포착하기 위해 ID CNN을 통해 각 instace에 대한 특성을 추출함. 여기서 사용되는 k는 묶어서 볼 instance의 갯수로 k가 3일 경우 3개의 instance를 묶어서 반영하고, k가 5면 5개의 instance 단위로 묶어서 반영하는 것임. k는 실험적으로 결정하였으며 k=5일 때 가장 성능이 좋았다고 논문에서 아래 표와 같이 언급함.

 

 

HFC 단계

 

다음단계로 HFC단계는 anomaly score가 추출되는 단계임. 본 논문에서는 이 단계에서 중간 레이어의 확장 순서를 변경시켜 파라미터 수를 대폭 감소시킬 수 있다고 함.

 

(a)기존 방식 (b)제안 방식

 

기존 방식에서 파라미터 수는 2048 * 128 + 128*64 = 270,366개라면,

제안 방식은 2048 * 64 + 64 * 128 =139,264개로 절반이 넘는 parameter 수를 절감함.

 

이 부분이 매우 간단하지만 모델 경량화에 핵심적인 역할을 함.

 

 

AIS 단계

 

AIS 단계에서는 HFC단계에서 추출된 anomaly score를 기반으로 신뢰도 w를 추출함. (높은 값일수록 좋은 신뢰도이며, 안정적인 학습이 진행되었음을 의미함)신뢰도 w를 추출하는 방식은 아래 수식과 같음

 

 

w는 1에서부터 값들을 깎아내리는 식으로 산정함. 첫 번째 summation은 negative bag의 평균 anomaly score임. 이 값들은 negative bag(normal)값들이기 때문에 낮을수록 모델이 학습이 잘되었음을 의미함. 따라서, 모델이 잘 학습되었으면 이 값들에서 신뢰도 점수가 조금만 깎이게 됨.두 번째 수식은 각 bag들에서 인접한 instance 간의 유사성(점수 차이)을 기반으로 산출됨. 같은 bag들에 있는 instace들은 학습이 잘되었다면 비슷한 anomaly score를 가져야 함. 특히 positive (anomaly) 프레임은 일관되게 높은 anomaly score를 가져야 하며, negative(normal) 프레임들은 일관되게 낮은 값을 가져야 함. 이러한 특성을 활용하여 신뢰도 값을 계산함.

최종적으로 사용되는 instance는 위 수식과 같이 Top-K를 통해 결정되며, 이때 계산된 k는 소수점이 나올 경우 내림하여 사용됨 (ex. k=3.6 → k=3) 수식의 SP는 positive instance의 anomaly score에 해당하며, 논문에서는 anomaly score가 0.9 이상인 instance만 사용했다고 함.

 

 

Experimental Result

 

 

 

실험결과를 분석해 보면, 현재까지 weakly supervised VAD에서 전문 경량화 기법 (ex. Quantization, Knowledge distillation, pruning 등)을 활용한 연구는 거의 없음을 확인하였으며, 경량화 기법을 사용하기보다 method를 변경하여 경량화된 새로운 model을 구축하는 연구가 진행되고 있음.

 

(경량화 기법을 활용한 Weakly supervised VAD는 `24 arXiv 논문 1건 확인)

 

실험결과를 분석하면. 노란색 highlight 된 제안모델은 기존 경량 모델과 동일하거나 더 높은 AUC성능을 도출함.

 

 

모델 size 측면에서도 기존 RTFM모델에 비해 파라미터수가 매우 효과적으로 절감되었음을 확인할 수 있음.

 

 

Conclusion

본 논문은 weakly supervised VAD에서 경량화 모델을 제안하며, 첫 번째로 약한 label 데이터의 불확실성을 완화하기 위한 방식을 도입함. 두 번째로 모래시계 형태의 fully connected layer와 MTA를 통해 모델의 크기를 대폭 줄이면서 성능을 유지함. 제안 모델은 UCF-Crime, ShanghaiTech, XD-Violence 데이터셋에서 효율성과 성능 측면에서 우수한 결과를 보였으며, 제안 모듈을 최신 모델 (VadCLIP)과 통합했을 때 STOA를 달성함. 이를 통해 컴퓨팅 자원이 제한된 환경에서 효고적으로 적용할 수 있는 새로운 연구방향을 제시하며, weakly supervised VAD의 실용성을 높이는 데 기여함.

 

 

Review & Limitation

1) 논문에서 제안하는 방식은 VadCLIP에서 제한적인 task만 적용가능한 것으로 보임. 따라서 실험결과에서도 VadCLIP에서는 AIS만 적용한 것으로 보이며, 이는 논문에서 제안하는 전체 method가 아니라 일부 method에 해당함. 현재 SOTA method인 VadCLIP에  제안된 method가 제한적으로만 적용만 가능하다는 점은,  제안된 method가 근본적으로 구조적 limitation을 가질 수 있음을 의미함.

 

2) VadCLIP에 AIS를 적용했을 때 0.1의 AUC밖에 향상되지 않았는데 성능적으로 의미 있는 결과인지 의문이라 더 세부적인 ablation study가 있었으면 좋았을 것 같음.