본문 바로가기
Deep Learning (Computer Vision)/Masked Image Modeling

논문 읽기 - MaskFeat: Masked Feature Prediction for Self-Supervised Visual Pre-Training

by 187cm 2023. 4. 29.
반응형

저자: Chen Wei

소속: Facbook AI Research and Johns Hopkins University.

학회: CVPR2022

인용: 2023.04.28일 기준 228회

 

BaseLine

hand-crafted feature descriptor

- Image, Video에서 기초적인 특징(Color, shape, texture, motion)을 묘사하는 방법.  (ex HOG, SIFT)

Histogram of Oriented Gradient (HOG)

- 지정된 이미지 pixel의 magnitude와 direction을 계산한 후, 더 큰 영역에 대해 계산하며 feature descriptor로써 동작한다.

- 본문에 나오는 Figure 1. Middle 부분처럼 Original image를 변환시키는게 HOG feature descriptor라고 보면 된다.

 

Problem 

- NLP task는 pre-existing vocabulary가 존재하지만, Vision task는 그렇지 않다. BEiT가 DALL-E를 visual vocabulary로

활용하였지만, video domain에서는 Compute-intensive하다.

Abstract

- video task에서의 single-model self-supervised pre-training 방법인 Masked Feature prediction (MaskFeat) 제안.

- 5가지 타입의 특징을 연구하고 hand-crafted feature descriptor 방식인 HOG가 성능 및 효율적이라는 것을 보여준다.

- 충분한 visual knowledge를 학습 가능하며 Large-scale의 Transformer-base Model에 전달 가능하다.

Introduction.

- Text에 Mask를 씌우고 Mask를 예측하는 Mask-and-predict 방식은 간단하면서 효과적인 성능을 보여준다. (BERT)

- Video domain처럼 visual information이 충분한 상황에서 어떤 방식의 Mask predict 방식이 효율적인지 보여줄 것.

- 따라서 mask의 특징을 regress 후, 예측하는 MaskFeat 방식을 제시한다.

- pixel colors, hand-crafted feature descriptors, to discrete visual tokens, activations of deep networks, pseudo-label 등 

다양한 feature type에 대한 연구를 진행하였다.

 

1) visual recognition에서 10년 이상 우세했던 HOG, SIFT가 성능 및 효율성에서 뛰어나다는 것을 보여줌.

2) masked visual prediction에서 discretization(tokenization)이 필요하지 않으며, feature regression(MaskFeat)이 좋다.

3) 사람이 labeling한 정보는 degraded될 때가 있지만, Local pattern은 중요하다. 

 

- 2개의 모델을 사용하는 Contrastive Learning과 다르게 Single Model만 사용. Data Augmentation 설계가 중요하다.

- 사용 Model은 MViTv2-L

2. Method

2.1. Masked Feature Prediction

- 인간은 Figure 1의 Masked input image를 보고, masked된 부분을 알 수 있다는 것에서 영감을 받아 시작하였다.
- 아래 이미지 Figure 5를 보고, Model이 물체를 어떻게 인식하는지, missing area에서 어떻게 움직이는지 알 수 있다.

- Masked area의 feature를 학습하기 위해, label은 원본 이미지에서 추출된 feature를 학습한다.

Figure 5

- video는 space-time cube로 나눠지고, Sequence token으로 projected(Convolved)되며, 일부 Token은 Random하게 Learable 한 [Mask] Token으로 변환되게 된 후, Positional Embedding을 Token에 더해준다.

- Prediction 결과는 space-time cube에서의 중간값이다. 

2.2. Target Features

- 5가지의 target feature를 고려하였는데, single-stage targettwo-stage target(teacher method)으로 나누어 고려하였다.

 

1) RGB value: L2 distance사용, pixel 자체가 target으로 밝기 및 대비에 의해 지역적으로 Overfitting 발생이 가능하다.

또한 여기서는 High-frequency detail은 visual content 해석에서 중요하지 않다고 여기므로 사용하지 않았다.

 

2) HOG: feature descriptor로써 지역 내의 edge 방향 및 gradient의 분포 묘사. 변화가 적다면 모양, 외형은 바뀌지 않는다. 또한 이미지의 밝기 변화로 인한 변화에도 변하지 않는다.

- 또한 HOG의 연산 비용은 매우 cheap하며, neglible overhead를 보여준다.

- 따라서, HOG를 MaskFeat에 적용하였으며, 성능또한 RGB에 비해 약간 상승한 모습을 보였다. (L1-norm 사용)

 

3) Discrete variational autoencoder (dVAE): 사전 학습을 통해 각 패치가 8192개의 값 추정이 가능한 Token으로 Encoding.

- 하지만, dVAE를 훈련하기 위한 추가적인 Cost가 들어간다.

 

4) Deep features: deep network의 feature를 target으로 설정하였다. 아래 링크의 그림과 같이 모델의 출력값을 비교한다.

Teacher Model의 Target값(CNN은 last layer, ViT는 Output Token)과 MSE, L2 Norm을 사용하여 비교한다.

- 다양한 visual detail을 supervised model에 비해 보존할 수 있다. (supervised model은 annotation에만 집중하므로)

- dVAE와 동일하게 Teacher model을 훈련시키기 위한 추가적인 비용이 들어가므로 Pass.

하지만 최근 추세는 이 deep feature를 예측하여 SOTA를 달성하였다.

 

논문 읽기 - Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders

저자: Heng Pan 소속: Zhejiang Univ 출판: 2023.04.27 Arxiv 기초 개념 Masked Image Modeling(MIM)은 pre-training 단계에서 입력 이미지는 masked되어, unmasked부분을 바탕으로 original 이미지를 복원한다. 원본 이미지로

187cm.tistory.com

5) Pseudo-label: Mask patch에 의해 예측된 label사용.

3. Study: Target Features for MaskFeat

- 아래 Table은 Kinetics-400에서의 MaskFeat과 다른 모델들과의 비교. Base Model은 MViT-S 300epoch의 변형.

Table 1. Kinetics-400 Video Domain 데이터 셋의 성능. 오른쪽 Table2 ImageNet에 대한 성능 비교 평가. Pseudo label은 IN-1k 에만 적용

- ViT-B를 DINO방식으로 사용하여 학습하였을 때, K400 그리고 IN-1k에서 HOG보다 더 좋은 성능을 보였습니다. 

- unsupervised feature방식의 단점으론 1. unsupervised feature extractor가 필요하며, 2. unsupvervised feature는 target

데이터(Raw level target - RGB)에서 학습될 필요가 있다. 를 주장한다. 그래도 MaskFeat이 괜찮은 성능을 보여줬다.

+ MaskFeat은 수렴이 빠르다!

 

저의 개인적인 생각은 deep feature 방식에서 필요없는 정보를 제거하고, 더 넓은 receptive field를 보며, 비선형성이 추가된 feature map에서 비교하는 것도 좋다고 생각한다. 1번은 cost 이유와 video domain이라는 점을 고려하여 동의하나, 2번은 설득력이 부족하다 생각한다.

 

- raw level에서의 학습과 HOG를 사용한 Model의 학습 능력차이. (오른쪽)

 

반응형