저자: Harsh Maheshwari
소속: Georgia Institute of Technology
발행일자: 2023년 4월 24일 Arxiv에 올라온 논문이다.
최근 추세인 Masked Autoencoder를 Segmentation에서의 multi modalities에 적용시킨 논문이 올라와 관심이 생겨 읽어보았다.
Problem
- Sementic Segmentation은 labeling cost가 많이 듬. -> Semi supervised 상황에서 label이 누락된 상황이라 가정.
- semi-supervised 에서의 semantic segmentation은 대부분 uni-modal.
- 기존 multi-modal을 사용한 경우 fully supervised -> semi or un supervised에서 잘 동작하지 않을 것
- medical 분야에서는 신호 고장 등으로 Test time에 어려움을 겪을 수 있음.
- missing modelity 상황에서 robustness가 줄어드는 상황을 해결하고자 함.
Purpose
1. Label이 부족한 상황에서도 Label efficiency 향상시키는 효율적인 방법 제시
2. robustness를 향상시켜 real-world 시나리오에 적용이 가능한 모델을 만드는 것이 목표
3. multi-modalities를 사용한 semi-supervised framework를 만들어 real world scenario에 적용가능한 모델을 만든다.
(label 부족, 학습 데이터가 부족하게 들어오는 문제)
Real world scenario에서 modality가 없어지는 상황에서의 문제를 지적하며, Linear Fusion 방법을 사용하여 SOTA를 달성 M3L (Multi-modal Teacher for Masked Modality Learning)를 제안하였다.
위에서 언급한 내용을 바탕으로 Figure 1은 자신들의 Model이 missing modality 상황에서 Robust하다는 것을 보여줌.
또한 Test time에서 기존의 모델들이 modality를 제공받지 못할 경우 성능이 급격하게 떨어지는 상황을 지적함.
1. Introduce
- RGB, depth, infrrared와 같은 multiple modalities가 semantic segmentation에서 자주 등장.
- multi-modal은 효과적으로 더 많은 여분의 정보를 fusing 가능.
- Linear Fusion: 별도의 학습 parameter 없이 2개의 modalities가 제공하는 token을 합치는 역할 (Cross-modal interaction)
아래 Method3의 Linear Fusion, M3L 그림참조
- M3L: semi-supervised framework이며, mean teacher, EMA, Linear Fusion을 섞었다. 이 그림만 보고 어떤 내용인지 이해한 사람은 modality에 대한 weight를 조절하는 부분만 알고 나가도 될거같다. (유행하는거 다 때려박은거 같은 느낌)
2. Related Work
Multi-modal semantic segmentation
- RGB, depth, infrrared와 같은 multiple modalities는 얻기 쉬움.
- 이전에는 Conventional model이 지배적, 요즘은 Transformer가 흥미로움.
Semi-supervised semantic segmentation
- 분류 labeling하는 것보다 semantic segmentation labeling이 cost가 25배 더 많이든다.
- mean teacher가 효과적 (weight-ensemble 해서 pseudo label 만듬)
Missing modality robustness
- 의료 논문에서 missing modality 합성 혹은 latent space를 공유 혹은 knowledge distilation으로 접근하는 논문이 있음.
- modality drop Method도 존재. 하지만 semi-supervised에서 사용하기엔 충분하지 않음.
따라서 M3L은 Knowledge Distilation 사용
Robustness in segmentation.
- multiple modalities를 사용하여 Robustness를 증가시킨 case 존재하지만, M3L은 Missing modality (sensor 오작동, 혹은 무응답 상태)에 초점을 두고 할 것.
3. Method
여기서는 rgb, depth 총 2개의 modality 사용. Ds는 label samples set. Du는 unlabeled sample set. N붙은건 샘플 수
따라서 위의 3개와 같은 상황을 정의하고 P(performance)를 구한다.
1) missing modality없음. 둘다 사용
2) RGB만 사용 (depth modality 소실)
3) depth만 사용(RGB modality 소실)
(1) TokenFusion. (2) Segformer. (3) M3L
elm은 l-th layer의 m번째 modality입니다. (1)은 Transformer를 사용하여 modality를 계산하고, (2)는 weight를 추가하는 방법을, (3)은 희소 행렬과 L1 Loss를 사용하여 cross modal interaction을 통해 현재 modality를 계산합니다. (1)번과 같이 계산 Transformer통과 후 (3)을 진행한다고 생각하면 됩니다. 아래 Linear Fusion 참조.
위의 Fusion은 2개가 나오게 되는데 이 Fusion을 위해 왼쪽 아래와 같이 EMA 방식 사용.
Teacher와 student는 mean-teacher이므로 동일한 모델, 하지만 weight 공유는 하지 않음. Missing modality 상황을 대비하여 learnable token을 가지고 있음. 나중에 문제 생겼을 때 사용 가능.
결론.
1. semi supervised에서 label 누락이라는 문제를 맞이 했을 때, 효과적인 방법인 Linear fusion과 M3L 제안
2. real world scenario에 강한 model framework 제안.