Deep Learning & Computer Vision & NLP 용어 정리

오늘은 논문을 읽으면서 등장하는 전문적인? 용어들을 내가 기억하기 좋게 정리하기 위해 글을 써보려고 한다. 글로만 명확하게 설명하는 것도 좋지만, 기억에 잘 남는 것은 이미지를 활용하는 것이기에, 이미지와 글을 활용해보려고 한다.

아마 논문을 읽을 때 마다 모르는 용어가 등장하면 업데이트를 할 것 같다.

2023.09.02

Receptive Field: 우리의 model이, 특히 한 layer 혹은 하나의 뉴런이 보는/담당하는 특정 입력 이미지의 크기이다. 위의 그림을 예시로 들면, 파란색이 우리의 모델, 빨간색이 입력 이미지라고하면, Receptive Field는 중간의 빨간 네모이다. 주로 CNN 모델에서 한 layer의 Receptive Field는 Kernel size와 같다.

Inductive Bias: 학습 알고리즘이 데이터에서 본 적 없는 새로운 상황이나 예제에 어떻게 반응할 것인지를 가이드하는 데 도움을 주는 implicit assumption or bias. 조금 더 풀어서 설명하면, CNN같은 전통적인 컴퓨터 비전 모델은 spatial location에 대한 bias가 내장되어 있다. 이러한 Inductive bias (내장된 편향) 정보는 CNN이 이미지 분야에서 잘 동작하게 만드는 이유가 된다. 하지만 Vision Transformer에서는 Self-Attention을 사용하기에 이러한 특징이 없다.

spatial bias : 아래의 3가지 특징을 가지는 것.

- Parameter sharing: 이미지에 대해 학습한 특징이, 이미지에 다른 부분에서 재사용 가능.

- Translation Invariance: 어떤 특징이 이미지의 어느 위치에서 발견되더라도 동일하게 인식 가능. (Augmentation에 좋다)

- Local Connectivity): CNN의 핵심 원리는 전체 이미지가 아닌, local하게 filter를 가져다 대고 보는 것.

Self-supervised Learning: 자기 자신, 즉 입력 이미지를 통해 내부의 표현과 같은 특징을 배우도록 하는 Unsupervised Leanring 방법론 중 하나.

Masked Image Modeling (MIM)

Local Structure: 이미지 내부의 texture, pattern 등과 관련된 세부 정보를 의미한다.

Spatial sensitivity: 공간적 민감성 = 모델이 이미지의 특정 공간적 위치나, 패턴에 얼마나 민감하게 반응하는지

공간적으로 민감한 feature로는 texture, 내부적인 이미지의 pattern과 같은 특성이 있으며, 반대의 특징으로는 이미지의 전체적인 형태나 모양과 같은 특징이 있다.

Occlusion-invariant features: Masked Image modeling의 경우 Patch Token을 마스킹 후, Encoder-Decoder 구조를 통해 이를 복원하는데, MIM은 이러한 가림현상 (Occlusion)에도 불구하고, 해당 특징(Occlusion-invariant feature)를 잘 인식한다는 말.

Intra-image structure: 이미지 내부의 구조나 특징 설명을 잘 하는 Network. MIM은 local structure를 잘 보기에 위와 같은 intra-image structure라고도 불린다.

Contrastive Learning

Semantic alignment: 말 그대로 semantice=정보의 의미를 정렬 하는 것, 주로 같은 특징을 가지고 있는 representation을 비슷한 공간에 mapping하는 것이다. 다른 정보는 다른 공간에 mapping 하는 것.

Pretext tasks: self-supervised learning에서 주로 사용되는 용어로, 레이블이 없는 데이터로부터 레이블을 생성하여 모델을 학습시키기 위한 보조적인 작업을 의미합니다.

ex) Contrastive Learning에서 Positive samples와 Negative samples를 정의하는 것

왼쪽 이미지 출처: https://mengliuz.medium.com/paper-reading-do-vision-transformers-see-like-convolutional-neural-networks-94d4fdd85ff3

Attention Distance: Attention distance = pixel distance x attention weight.

위의 그림에서 pixel distance는 단어 사이 떨어진 거리이며 attention weight은 QxkT이다. 따라서 Attention distance가 클수록 조금 더 모델이 Global하게, 멀게 본다는 것을 의미하며, 반대로 작은 수치는 근처에 있는걸 위주로 본다 = localized하게 본다라고 해석할 수 있다.

Centered Kernel Alignment (CKA): K는 X⋅X^T, L = Y⋅Y^T이다. HSIC는 Hilbert-Schmidt Independence Criterion이다. XY가 유사할수록 CKA는 더 증가하며, 낮을수록 낮아진다.

아래 그림은 CKA Value를 모든 layer끼리 비교하며 ViT와 Resnet50을 시각화한 그림이다.

Upper bound & Lower bound : 아래의 그림으로 대체. 어떤 집합이 있을 때, 그 집합에서 가장 큰 수와 같거나 큰 수가 존재할 때, Upper bound라고 함. 반대는 Lower bound.

NLP

static vector representation: Word embedding 시, 이 주어진 단어에 대해 항상 같은 vector 값을 반환하는 것을 의미한다.

GloVe, Word2Vec과 같은 논문에서 사용이 되었다.

'Deep Learning (Computer Vision)' 카테고리의 다른 글

[DenseNet] 논문 톺아보기 - Densely Connected Convolutional Networks (0)	2023.09.11
Backpropagation 에서 전치의 발생. (0)	2022.05.02
MLP에서의 Forward pass, Layer shape 맞추기. (0)	2022.04.28

Deep Learning Post

Deep Learning & Computer Vision & NLP 용어 정리

Masked Image Modeling (MIM)

NLP

'Deep Learning (Computer Vision)' 카테고리의 다른 글

티스토리툴바

Deep Learning & Computer Vision & NLP 용어 정리

Masked Image Modeling (MIM)

NLP

'Deep Learning (Computer Vision)' 카테고리의 다른 글

관련글

티스토리툴바