본문 바로가기

Deep Learning (Computer Vision)/Vision Transformer Architecture5

논문 정리 [DeiT III] DeiT III: Revenge of the ViT Original DeiT에 이어 DeiT III를 리뷰해보려고 한다. MMCV에 올라온 Figure를 보고 DeiT III를 읽어야겠다 다짐했는데, DeiT III를 BootMAE로 잘못 올려뒀다. (매우 화가난다) DeiT III는 실제로도 별 내용이 없기에 간단하게 리뷰해보려고 한다. DeiT에서 등장한 aggrasive한 augmentation 기법에을 바탕으로 self-supervised learning과, Supervised learning의 ImageNet 정확도가 왔다갔다 하는 상황에서, 기본적인 ViT만으로도 DeiT와 유사한 Augmentaiton, 더욱 강한 augmentation을 적용한다고 보면 될 것 같다. 저자 : Hugo Touvron 소속 : MetaAI, Sorbonne U.. 2023. 10. 3.

논문 정리 [LeViT] a Vision Transformer in ConvNet’s Clothingfor Faster Inference 저자 : Benjamin Graham 제목 : LeViT: a Vision Transformer in ConvNet’s Clothing for Faster Inference 학회 : ICCV2021 소속 : Facebook research Team 링크 : https://arxiv.org/abs/2104.01136 인용 : 305 (2023.10.02기준) Summarization of the LeViT. What is the throughput? - Throughput refers to the number of images processed per second. Why it called LeViT? - We adopted a pyramid structure using pooling layers, aki.. 2023. 10. 2.

논문 톺아보기 및 코드 구현 [ViT-1] - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR 2021) 필자가 이 논문을 처음 봤을 때가 2022.11.14일인데, 이 때 기준 인용 수가 8829이다. 현재 2023.09.22기준 21446회.. 그 당시에도 한달마다 몇백회씩 인용수가 늘어나는 것이 놀라웠는데, 이젠 그 이상으로 유명해진 것 같다. 그리고 미루고 미루다 DeiT, DeiT-III, FlexiViT 등 다양한 ViT를 발표해야할 것만 같아서 미뤄왔던 정리를 해야만 할 것 같다. 그 당시에 Image classification 분야에서 가장 좋은 성능을 보여주는 모델은 무엇일까? 라는 질문에서 시작하여, 가장 좋은 성능을 보여주는 transformer 계열의 모델에 대해 궁금증이 생겼고, Computer vision 분야의 기본인 transformer가 적용된 VIT에 대해 정리하는 것을 목표.. 2023. 9. 23.

논문 톺아보기 [DeiT] - Training data-efficient image transformers & Distillation through attention 제목 : Training Data-efficient image Transformers & Distillation through attention [DeiT] 저자 : Hugo Touvron, Matthijs Douze, Alexandre Sablayrolles, Herv´e J´egou 소속 : Facebook AI, Sorbonne University (프랑스 파리) 인용 : 3958 (2023.09.22 기준) 링크 : https://proceedings.mlr.press/v139/touvron21a 학회 : ICML2021 돌고 돌아 돌아온 오타와 세미나 발표.. 1주밖에 안남았는데 교수님께서 할당해주신 논문을 다른 걸로 바꿨다. 원래 논문은 When to Prune? A Policy towards.. 2023. 9. 22.

논문 분석 [FlexiViT] - FlexiViT: One Model for All Patch Size. FlexiViT 논문을 오타와 대학과의 저널 클럽에서 발표하기 전 미리 자세하게 포스팅을 해보는 시간을 가져보려고 한다. 지난 6월달에 열린 CVPR2023때문에 요즘 전부 CVPR2023 논문만 발표를 하고 있어서, 나는 아직 학부생이지만.. 열심히 따라가보려고 한다.. 후 논문 제목: FlexiViT: One Model for All Patch Size. 저자: Lucas Beyer at al. 소속: Google Research 인용: 14 (2023.08.05 기준) 링크: https://arxiv.org/abs/2212.08013 학회: CVPR 2023 코드: https://github.com/google-research/big_vision Baseline. Q1. 왜 FlexiViT인가요? .. 2023. 8. 7.

이전 1 다음

티스토리툴바