본문 바로가기
반응형

Deep Learning (Computer Vision)40

논문 톺아보기 및 코드 구현 [ViT-1] - An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR 2021) 필자가 이 논문을 처음 봤을 때가 2022.11.14일인데, 이 때 기준 인용 수가 8829이다. 현재 2023.09.22기준 21446회.. 그 당시에도 한달마다 몇백회씩 인용수가 늘어나는 것이 놀라웠는데, 이젠 그 이상으로 유명해진 것 같다. 그리고 미루고 미루다 DeiT, DeiT-III, FlexiViT 등 다양한 ViT를 발표해야할 것만 같아서 미뤄왔던 정리를 해야만 할 것 같다. 그 당시에 Image classification 분야에서 가장 좋은 성능을 보여주는 모델은 무엇일까? 라는 질문에서 시작하여, 가장 좋은 성능을 보여주는 transformer 계열의 모델에 대해 궁금증이 생겼고, Computer vision 분야의 기본인 transformer가 적용된 VIT에 대해 정리하는 것을 목표.. 2023. 9. 23.
논문 톺아보기 [DeiT] - Training data-efficient image transformers & Distillation through attention 제목 : Training Data-efficient image Transformers & Distillation through attention [DeiT] 저자 : Hugo Touvron, Matthijs Douze, Alexandre Sablayrolles, Herv´e J´egou 소속 : Facebook AI, Sorbonne University (프랑스 파리) 인용 : 3958 (2023.09.22 기준) 링크 : https://proceedings.mlr.press/v139/touvron21a 학회 : ICML2021 돌고 돌아 돌아온 오타와 세미나 발표.. 1주밖에 안남았는데 교수님께서 할당해주신 논문을 다른 걸로 바꿨다. 원래 논문은 When to Prune? A Policy towards.. 2023. 9. 22.
[DenseNet] 논문 톺아보기 - Densely Connected Convolutional Networks 제목: Densely Connected Convolutional Networks 저자: Gao Huang et al. 소속: Cornell, Tsinghua University, Facebook AI 학회: CVPR2017 (Best Paper Award*) 인용: 38142 (2023.09.10 기준) 링크 : https://arxiv.org/pdf/1608.06993.pdf 영상 : https://www.youtube.com/watch?v=-W6y8xnd--U 오늘은 대학원 수업에서 DenseNet paper를 발표하게 되었다. 첫 발표는 2015-2018 사이의 큼직한 논문들이 있었는데 ResNet, LeNet, Efficientnet 등 다른 논문은 읽어본 적이 있는데, DenseNet은 잘 몰라.. 2023. 9. 11.
TensorRT설치하기 우선 Python 3.10.12 기준으로 설치할 예정이며, CUDA 버전은 nvcc -V를 했을 때 아래와 같다. 혹시 모르니 nvidia-smi를 했을 때의 환경 또한 첨부하자면 아래와 같다. 근데 지금 확인했는데 왜.. nvidia-smi에 12.1로 잡히는거지...어쨌든 11.8 CUDA를 기준으로 설치했다. 파이토치에서 TensorRT를 그냥 대충 설치하고 실행하면 되겠지 하고 안일한 마음으로 실행하다가 3일을 날려먹은 나레기 혹시 나와 같은 실수를 하는 사람이 있을지 모르기 때문에, 일단 기록용으로 적어두려고 한다. RuntimeError: forward() expected at most 1 argument(s) but received 2 argument(s). Declaration: forwa.. 2023. 8. 31.
논문 요약 - Understanding Masked Image Modeling via Learning Occlusion Invariant Feature 오늘 가볍게 요약한 논문은 CVPR2023에 올라온 Masked Image Modeling 분야의 논문이다. Masked Image Modeling(MIM) 방식을 siamese form으로 변형하여 특징을 이해해보는 논문이다. 제목: Understanding Masked Image Modeling via Learning Occlusion Invariant Feature 저자: Xiangwen Kong 소속: MEGVII Technology china 학회: CVPR2023 등재: 2022/8/8 Arxiv, CVPR에 올라온 논문과 Figure 차이가 있으니 더 보고싶다면 Arxiv 참조. 인용: 14 링크: CVPR2023, Arxiv 0. Abstract - MIM에 대한 관심은 증가했지만, 여전히.. 2023. 8. 19.
논문 요약[SiameseIM] - Siamese Image Modeling for Self-Supervised Vision Representation Learning 오늘은 CVPR 2023 Contrastive Learning / Self-Supervised Learning 관련 논문을 찾아보다가 인용 수가 많은 논문이 있길래 간단하게 정리해보려고 한다. 저자: Chenxin Tao 소속: Tsinghua University(칭화대) 학회: CVPR2023 인용: 36 (2023.08.18 기준) 2022년 11에 Arxiv에 올라왔으니 꽤 오래되긴 했으나, 그래도 CVPR Contrastive/Self-Suervised Learning 코너에서 인용수가 가장 높았다. 링크: https://arxiv.org/abs/2206.01204 Github: https://github.com/OpenGVLab/Siamese-Image-Modeling/tree/main Tabl.. 2023. 8. 19.
Deep Learning & Computer Vision & NLP 용어 정리 오늘은 논문을 읽으면서 등장하는 전문적인? 용어들을 내가 기억하기 좋게 정리하기 위해 글을 써보려고 한다. 글로만 명확하게 설명하는 것도 좋지만, 기억에 잘 남는 것은 이미지를 활용하는 것이기에, 이미지와 글을 활용해보려고 한다. 아마 논문을 읽을 때 마다 모르는 용어가 등장하면 업데이트를 할 것 같다. 2023.09.02 Receptive Field: 우리의 model이, 특히 한 layer 혹은 하나의 뉴런이 보는/담당하는 특정 입력 이미지의 크기이다. 위의 그림을 예시로 들면, 파란색이 우리의 모델, 빨간색이 입력 이미지라고하면, Receptive Field는 중간의 빨간 네모이다. 주로 CNN 모델에서 한 layer의 Receptive Field는 Kernel size와 같다. Inductive .. 2023. 8. 18.
논문 분석 [FlexiViT] - FlexiViT: One Model for All Patch Size. FlexiViT 논문을 오타와 대학과의 저널 클럽에서 발표하기 전 미리 자세하게 포스팅을 해보는 시간을 가져보려고 한다. 지난 6월달에 열린 CVPR2023때문에 요즘 전부 CVPR2023 논문만 발표를 하고 있어서, 나는 아직 학부생이지만.. 열심히 따라가보려고 한다.. 후 논문 제목: FlexiViT: One Model for All Patch Size. 저자: Lucas Beyer at al. 소속: Google Research 인용: 14 (2023.08.05 기준) 링크: https://arxiv.org/abs/2212.08013 학회: CVPR 2023 코드: https://github.com/google-research/big_vision Baseline. Q1. 왜 FlexiViT인가요? .. 2023. 8. 7.
논문 읽기 [DirectCLR] - Understanding Dimension Collapse in Contrastive self-supervised learning 오늘은 Dimension collapse에 대해서 알아보고자 한다. 특히 Contrastive Learning에서도 일어나는 Dimension Collapse에 초점을 둘 것이다. 제목 : Understanding Dimension Collapse in Contrastive self-supervised learning 학회 : ICLR 2022 저자 : Li Jing, Pascal Vincent, Yann LeCun, Yuandong Tian 인용 : 164회 (2023.07.24 기준) 링크 : https://arxiv.org/abs/2110.09348 - 시작에 앞서서 (a)는 joint embedding 방식에서의 embedding space에 대해 설명을 한 것인데, 같은 이미지가 다른 augme.. 2023. 7. 31.
논문 읽기[CMC] - Contrastive Multiview Coding 오랜만에 돌아온 논문 리뷰. 오타와 대학과 함께 진행하는 논문 세미나에서 발표할 PPT의 Figure로 넣을 예정인데 혹시 몰라서 읽어볼 예정이다. 발표할 논문은 아래의 What do self-supervised Vision Transformer learn? 이라는 논문인데, 나도 나중에 이런 논문을 쓰고싶다고 느끼게 해준 논문이다. 가볍게 정리 후, 아직 업데이트를 안했는데, 조만간 조금 더 구체적으로 포스팅을 해야겠다. 논문 읽기 - What Do Self-Supervised Vision Transformers Learn? 저자: Namuk park 소속: Prescient Design Genentech, NAVER AI Lab 날짜: 2023.05.01 Arxiv 등재 학회: ICLR 2023 Pr.. 2023. 7. 17.
반응형