본문 바로가기
반응형

Deep Learning (Computer Vision)/Masked Image Modeling6

[MFF 논문 정리] Improving Pixel-based MIM by Reducing Wasted Modeling Capability 논문 링크: https://arxiv.org/abs/2308.00261 제목 : Improving Pixel-based MIM by ReducingWasted Modeling Capability 저자 : Yuan Liu et al. 소속 : Shanghai AI Laboratory 학회 : ICCV2023 인용 : 3 (2023.12.14 기준) Abstract Masked Image modeling (MIM) 은 크게 2개의 그룹으로 나눌 수 있다. 1. Pixel-based - SimMIM, Masked AutoEncoder(MAE)와 같이 Raw pixel을 예측하는 방법이다. - 이 Pixel-based 방법론의 장점은 MAE를 보면 잘 알 수 있다. 1. Simple pipeline 2. Low.. 2023. 12. 18.
논문 요약 - Understanding Masked Image Modeling via Learning Occlusion Invariant Feature 오늘 가볍게 요약한 논문은 CVPR2023에 올라온 Masked Image Modeling 분야의 논문이다. Masked Image Modeling(MIM) 방식을 siamese form으로 변형하여 특징을 이해해보는 논문이다. 제목: Understanding Masked Image Modeling via Learning Occlusion Invariant Feature 저자: Xiangwen Kong 소속: MEGVII Technology china 학회: CVPR2023 등재: 2022/8/8 Arxiv, CVPR에 올라온 논문과 Figure 차이가 있으니 더 보고싶다면 Arxiv 참조. 인용: 14 링크: CVPR2023, Arxiv 0. Abstract - MIM에 대한 관심은 증가했지만, 여전히.. 2023. 8. 19.
논문 읽기 [MAE] : Masked Autoencoders Are Scalable Vision Learners 논문 링크 : https://arxiv.org/abs/2111.06377 저자 : Kamming He 인용 : 2170 (2023.06.22) 소속 : FaceBookAI Research (MetaAI) 학회 : CVPR2022 Summarize - 아래의 왼쪽 이미지가 이 논문의 처음이자 끝이다. 이미지를 일정한 크기의 Patch로 자른 후, 손상되지 않은 부분만 입력으로 넣어, 원본 이미지로 복구 시키는 방법을 사용한 Pre-train model을 만든다. 그 후 Downstram task에 적용한다. 하단의 우측 이미지가 이 논문의 결과이다. 왼쪽이 masking 된 이미지, 중간이 이 논문이 복구한 이미지, 오른쪽이 원본. Abstract - Masked Autoencoders (MAE)를 Sel.. 2023. 6. 24.
논문 읽기 - BEIT: BERT Pre-Training of Image Transformers 저자: Hangbo Bao 소속: Harbin Institute of Technology(하얼빈 공대) and Micrisoft research 학회: ICLR2022 Oral 인용: 991 (2023.04.30 기준) BaseLine - Bidirectional Encoder Representation from Transformers (BERT)는 NLP분야에서 뛰어난 성능을 보인 논문 중 하나 - BERT는 Masked Language Modeling 분야에서, 단어를 Masking 후, Mask된 단어를 예측하는 방식의 Pre-train 방법사용. - Masked Image Modeling (MIM) 분야는 이미지를 Patch 단위로 쪼개 입력으로 넣고, Mask된 Patch를 복구하는 방식 - B.. 2023. 5. 1.
논문 읽기 - MaskFeat: Masked Feature Prediction for Self-Supervised Visual Pre-Training 저자: Chen Wei 소속: Facbook AI Research and Johns Hopkins University. 학회: CVPR2022 인용: 2023.04.28일 기준 228회 BaseLine hand-crafted feature descriptor - Image, Video에서 기초적인 특징(Color, shape, texture, motion)을 묘사하는 방법. (ex HOG, SIFT) Histogram of Oriented Gradient (HOG) - 지정된 이미지 pixel의 magnitude와 direction을 계산한 후, 더 큰 영역에 대해 계산하며 feature descriptor로써 동작한다. - 본문에 나오는 Figure 1. Middle 부분처럼 Original image.. 2023. 4. 29.
논문 읽기 - Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders 저자: Heng Pan 소속: Zhejiang Univ 출판: 2023.04.27 Arxiv 기초 개념 Masked Image Modeling(MIM)은 pre-training 단계에서 입력 이미지는 masked되어, unmasked부분을 바탕으로 original 이미지를 복원한다. 원본 이미지로 잘 복원시키는 모델은 downstream task에서 잘 동작할 것이라 믿어짐. Problem - 어떤 type의 deep feature가 MIM에서 적절한지 알아보기 위해 잘 훈련된 model을 feature extractor (teacher)로 사용 - 이미지의 특징을 생성하는 teacher model이 가벼울수록 성능이 더 좋은 현상 발견 - 기존의 Knowledge Distilation(KD)에서 Tea.. 2023. 4. 28.
반응형