본문 바로가기
반응형

Deep Learning (Computer Vision)40

논문 읽기 - MaskFeat: Masked Feature Prediction for Self-Supervised Visual Pre-Training 저자: Chen Wei 소속: Facbook AI Research and Johns Hopkins University. 학회: CVPR2022 인용: 2023.04.28일 기준 228회 BaseLine hand-crafted feature descriptor - Image, Video에서 기초적인 특징(Color, shape, texture, motion)을 묘사하는 방법. (ex HOG, SIFT) Histogram of Oriented Gradient (HOG) - 지정된 이미지 pixel의 magnitude와 direction을 계산한 후, 더 큰 영역에 대해 계산하며 feature descriptor로써 동작한다. - 본문에 나오는 Figure 1. Middle 부분처럼 Original image.. 2023. 4. 29.
논문 읽기 - Img2Vec: A Teacher of High Token-Diversity Helps Masked AutoEncoders 저자: Heng Pan 소속: Zhejiang Univ 출판: 2023.04.27 Arxiv 기초 개념 Masked Image Modeling(MIM)은 pre-training 단계에서 입력 이미지는 masked되어, unmasked부분을 바탕으로 original 이미지를 복원한다. 원본 이미지로 잘 복원시키는 모델은 downstream task에서 잘 동작할 것이라 믿어짐. Problem - 어떤 type의 deep feature가 MIM에서 적절한지 알아보기 위해 잘 훈련된 model을 feature extractor (teacher)로 사용 - 이미지의 특징을 생성하는 teacher model이 가벼울수록 성능이 더 좋은 현상 발견 - 기존의 Knowledge Distilation(KD)에서 Tea.. 2023. 4. 28.
논문 읽기 - Missing Modality Robustness in Semi-Supervised Multi-ModalSemantic Segmentation 저자: Harsh Maheshwari 소속: Georgia Institute of Technology 발행일자: 2023년 4월 24일 Arxiv에 올라온 논문이다. 최근 추세인 Masked Autoencoder를 Segmentation에서의 multi modalities에 적용시킨 논문이 올라와 관심이 생겨 읽어보았다. Problem - Sementic Segmentation은 labeling cost가 많이 듬. -> Semi supervised 상황에서 label이 누락된 상황이라 가정. - semi-supervised 에서의 semantic segmentation은 대부분 uni-modal. - 기존 multi-modal을 사용한 경우 fully supervised -> semi or un sup.. 2023. 4. 26.
Contrastive Learning (2) MoCo (Momentum Constrastive for Unsupervised Visual Representation Learning) Contrastive learning의 대표적인 논문 중 하나인 MoCo에 대해서 소개하도록 하겠습니다. FaceBook, 현재 Meta인 Facebook AI research에서 Kaimming He께서 작성한 논문입니다. (ResNet 만드신 분) MoCo에 대한 개념 설명 및 동작원리에 조금 더 초점을 맞추고 설명을 하도록 하겠습니다. MoCo의 sudo코드와 실제 동작원리가 와닫지 않을 수 있어서 그림 및 차원을 통해 설명하도록 하겠습니다. + MoCo그림에서 x^key_i, k0 과 같은 부분이 와닿지 않을 수 있어서 그부분을 조금 더 풀어보았습니다. BackGround. 배경지식으론, Representation Learning과, Contrastive Learning에 대해서 알고 넘어가야 합.. 2023. 4. 24.
논문으로 알아보는 Contrastive Learning (1) - DrLIM (Dimensionality Reduction by Learning an Invariant Mapping) MoCo Review를 하기 전, MoCo에서 많이 언급되며, Contrastive Loss를 처음으로 사용한 논문으로 소개되는 Hadsell - Dimensionality Reduction by Learning an Invariant Mapping (DrLIM) in 2006 CVPR 논문에 대해서 먼저 정리하고 넘어가려고 한다. 처음부터 MoCo를 들어 갈 수 있지만, Contrastive Learning이라는 개념이 와닿지 않아 이 논문부터 시작했다. 내용도 짧고 어렵지 않아 가볍게 소개하고 넘어가겠다. (HadSell이 구글 소속인 것과, 논문의 지도 교수님으로 얀 르쿤 교수님이 들어가 있어서 호기심이 컸던 것도 있다) 논문의 주요 Keypoint는 1. 2개의 입력 데이터를 space에 매핑하는.. 2023. 4. 4.
YOLOv5 Custom Model 만들기(2) - Custom Model 학습 YOLO 커스텀 모델을 만들기 2번째 단계 -> Custom Model 만들기! 1번째 단계인 라벨링 작업은 하단 링크를 참조하세요 YOLOv5 Custom Model 만들기(1) - LabelImg 사용법 우선 version 별 YOLO 모델의 특징을 간단하게 요약 YOLOv1 : "one-stage Detector", 실시간 탐지 가능, Loss Function 을 통해 바운딩 박스의 크기, 위치, Class 종류까지 학습. YOLOv2 - v1에 마지막에 들어가.. 187cm.tistory.com 프로젝트를 진행하며 좌석 상태를 탐지하는 Custom Model 1, 좌석 모양을 탐지하는 Custom Model 2를 만들어야 했다. 학습 데이터 라벨링이 끝났다면 다음과 같이 만들어준다. 1. 데이터 .. 2022. 9. 12.
YOLOv5 Custom Model 만들기(1) - LabelImg 사용법 You Only Look Once (YOLO) 의 특징 - 대표적인 One-Stage Detector로써 빠르고 정확한 Object Detection Model이다. - 실시간 물체/객체 탐지가 가능하다. 우선 version 별 YOLO 모델의 특징을 간단하게 요약 YOLOv1 - "One-Stage Detector"를 사용하여 실시간 탐지 가능, - One-Stage Detector 구현을 위해 Loss Function에서 바운딩 박스의 크기, 위치, Class 종류까지 학습. YOLOv2 - v1에 마지막에 들어가는 FC Layer대신 앵커박스 개념 도입 -> 바운딩 박스의 위치 정보를 살리기 위함 - 416으로 이미지 크기를 늘려 작은 물체도 감지하기 쉽게 (224 -> 416), - BatchNo.. 2022. 8. 20.
YOLOv1 논문리뷰 처음 읽어보는 논문입니다. 또한 학부생이기 때문에 틀린부분이 있을 수 있습니다. 틀린 부분이 있다면 지적해주시면 감사하겠습니다. 어떤 부분은 번역이, 어떤부분은 의역이, 어떤 부분은 저의 생각이 들어가 있습니다. 양해 부탁드립니다. YOLO는 You Look Only Once의 줄임말로 대표적인 Real-Time Object Detection을 가능하게 하는 새로운 접근 방법의 Object Detection 이다. Object Detection이란 컴퓨터가 시각적 세계를 이해하고 학습하도록 하는 인공지능 분야인 Computer Vision의 한 분야로 Multiple objects Classification + Localization을 수행하는 것이 Object Detection이라 보면 된다. 시작에 .. 2022. 7. 15.
Backpropagation 에서 전치의 발생. 마크다운에서 수식 이미지 넣는 법 우선 이 수식은 왜 있는지 이해를 못했다. Loss값에 대해 X를 편미분 -> 근데 왜 하는거지..? 따라서 밑의 수식이 왜 나오게 되는지 Backpropagation에서 전치를 하는 이유를 알아보겠다. 우선 다음과 같은 Vector X,W,Y가 있다고 할 때. Loss에 대해 W를 편미분하게 되면 Chain Rule에 의해 다음과 같이 만들 수 있다. 이걸 풀어서 쓰게 되면 2022. 5. 2.
MLP에서의 Forward pass, Layer shape 맞추기. 우선 Feed forward neural network의 forward layer 쌓기. shape 끼어 맞추기. i번째 Layer의 출력물 𝑎^[i] 는 다음 Layer i+1 번째 Layer의 Input으로 들어간다. W : Weight로 간선을 생각하면 된다. 크기는 (이전 Layer의 노드 수 x 다음 Layer의 노드 수) b : bias 편향 -> y = ax + b에서 b역할을 맡음. 크기 : (1 x 출력 Layer의 노드 수) Z : Layer 통과 후 Activation Fuction을 거치기 전 단계. Activation Fuction을 넣어주는 이유 : 비선형 함수를 넣지 않는 다면 XOR 문제를 해결할 수 없기 때문. 조건 input feature map size = 400. ou.. 2022. 4. 28.
반응형