저자: Chen Wei
소속: Facbook AI Research and Johns Hopkins University.
학회: CVPR2022
인용: 2023.04.28일 기준 228회
BaseLine
hand-crafted feature descriptor
- Image, Video에서 기초적인 특징(Color, shape, texture, motion)을 묘사하는 방법. (ex HOG, SIFT)
Histogram of Oriented Gradient (HOG)
- 지정된 이미지 pixel의 magnitude와 direction을 계산한 후, 더 큰 영역에 대해 계산하며 feature descriptor로써 동작한다.
- 본문에 나오는 Figure 1. Middle 부분처럼 Original image를 변환시키는게 HOG feature descriptor라고 보면 된다.
Problem
- NLP task는 pre-existing vocabulary가 존재하지만, Vision task는 그렇지 않다. BEiT가 DALL-E를 visual vocabulary로
활용하였지만, video domain에서는 Compute-intensive하다.
Abstract
- video task에서의 single-model self-supervised pre-training 방법인 Masked Feature prediction (MaskFeat) 제안.
- 5가지 타입의 특징을 연구하고 hand-crafted feature descriptor 방식인 HOG가 성능 및 효율적이라는 것을 보여준다.
- 충분한 visual knowledge를 학습 가능하며 Large-scale의 Transformer-base Model에 전달 가능하다.
Introduction.
- Text에 Mask를 씌우고 Mask를 예측하는 Mask-and-predict 방식은 간단하면서 효과적인 성능을 보여준다. (BERT)
- Video domain처럼 visual information이 충분한 상황에서 어떤 방식의 Mask predict 방식이 효율적인지 보여줄 것.
- 따라서 mask의 특징을 regress 후, 예측하는 MaskFeat 방식을 제시한다.
- pixel colors, hand-crafted feature descriptors, to discrete visual tokens, activations of deep networks, pseudo-label 등
다양한 feature type에 대한 연구를 진행하였다.
1) visual recognition에서 10년 이상 우세했던 HOG, SIFT가 성능 및 효율성에서 뛰어나다는 것을 보여줌.
2) masked visual prediction에서 discretization(tokenization)이 필요하지 않으며, feature regression(MaskFeat)이 좋다.
3) 사람이 labeling한 정보는 degraded될 때가 있지만, Local pattern은 중요하다.
- 2개의 모델을 사용하는 Contrastive Learning과 다르게 Single Model만 사용. Data Augmentation 설계가 중요하다.
- 사용 Model은 MViTv2-L
2. Method
2.1. Masked Feature Prediction
- 인간은 Figure 1의 Masked input image를 보고, masked된 부분을 알 수 있다는 것에서 영감을 받아 시작하였다.
- 아래 이미지 Figure 5를 보고, Model이 물체를 어떻게 인식하는지, missing area에서 어떻게 움직이는지 알 수 있다.
- Masked area의 feature를 학습하기 위해, label은 원본 이미지에서 추출된 feature를 학습한다.
- video는 space-time cube로 나눠지고, Sequence token으로 projected(Convolved)되며, 일부 Token은 Random하게 Learable 한 [Mask] Token으로 변환되게 된 후, Positional Embedding을 Token에 더해준다.
- Prediction 결과는 space-time cube에서의 중간값이다.
2.2. Target Features
- 5가지의 target feature를 고려하였는데, single-stage target과 two-stage target(teacher method)으로 나누어 고려하였다.
1) RGB value: L2 distance사용, pixel 자체가 target으로 밝기 및 대비에 의해 지역적으로 Overfitting 발생이 가능하다.
또한 여기서는 High-frequency detail은 visual content 해석에서 중요하지 않다고 여기므로 사용하지 않았다.
2) HOG: feature descriptor로써 지역 내의 edge 방향 및 gradient의 분포 묘사. 변화가 적다면 모양, 외형은 바뀌지 않는다. 또한 이미지의 밝기 변화로 인한 변화에도 변하지 않는다.
- 또한 HOG의 연산 비용은 매우 cheap하며, neglible overhead를 보여준다.
- 따라서, HOG를 MaskFeat에 적용하였으며, 성능또한 RGB에 비해 약간 상승한 모습을 보였다. (L1-norm 사용)
3) Discrete variational autoencoder (dVAE): 사전 학습을 통해 각 패치가 8192개의 값 추정이 가능한 Token으로 Encoding.
- 하지만, dVAE를 훈련하기 위한 추가적인 Cost가 들어간다.
4) Deep features: deep network의 feature를 target으로 설정하였다. 아래 링크의 그림과 같이 모델의 출력값을 비교한다.
Teacher Model의 Target값(CNN은 last layer, ViT는 Output Token)과 MSE, L2 Norm을 사용하여 비교한다.
- 다양한 visual detail을 supervised model에 비해 보존할 수 있다. (supervised model은 annotation에만 집중하므로)
- dVAE와 동일하게 Teacher model을 훈련시키기 위한 추가적인 비용이 들어가므로 Pass.
하지만 최근 추세는 이 deep feature를 예측하여 SOTA를 달성하였다.
5) Pseudo-label: Mask patch에 의해 예측된 label사용.
3. Study: Target Features for MaskFeat
- 아래 Table은 Kinetics-400에서의 MaskFeat과 다른 모델들과의 비교. Base Model은 MViT-S 300epoch의 변형.
- ViT-B를 DINO방식으로 사용하여 학습하였을 때, K400 그리고 IN-1k에서 HOG보다 더 좋은 성능을 보였습니다.
- unsupervised feature방식의 단점으론 1. unsupervised feature extractor가 필요하며, 2. unsupvervised feature는 target
데이터(Raw level target - RGB)에서 학습될 필요가 있다. 를 주장한다. 그래도 MaskFeat이 괜찮은 성능을 보여줬다.
+ MaskFeat은 수렴이 빠르다!
저의 개인적인 생각은 deep feature 방식에서 필요없는 정보를 제거하고, 더 넓은 receptive field를 보며, 비선형성이 추가된 feature map에서 비교하는 것도 좋다고 생각한다. 1번은 cost 이유와 video domain이라는 점을 고려하여 동의하나, 2번은 설득력이 부족하다 생각한다.
- raw level에서의 학습과 HOG를 사용한 Model의 학습 능력차이. (오른쪽)