저자: Konstantinos Kontras et al
소속: KU Leuven University
학회: IEEE TRANSACTIONS 2023
BaseLine
- 수면 단계 분류를 하기 위해선 다양한 신호 데이터를 수집하는데 EEG, EOG, ECG, EMG와 같은 정보를 수집한다.
- 30초 단위로 수면 단계를 분류하며, SHHS 데이터셋은 AASM scoring 방식을 채택하였다.
- 수면 단계에는 Wake, RAM(Rapid Eye Movement), Non-RAM1, Non-RAM2, Non-RAM3가 있다.
Problem
- 기존의 방법은 EEG signal에만 의존하는 경향이 있었다. 하지만, 다양한 신호가 더 다양한 정보를 제공하며, EEG 신호에 Noise, missing value와 같은 문제가 일어났을 때 해결할 수 있게 도와준다.
- noisy signals는 데이터는 유지되지만, 유용한 정보의 양에 대해선 모호성이 있을 수 있다.
- Early Fusion 방식을 통해 다른 특성의 신호 데이터 정보를 녹여서 넣을 수 있지만 Data의 dimensionality 혹은 sampling rate의 다름으로 인해 어려움이 존재한다. (ex SHHS EEG - 125Hz, EOG - 50Hz)
Abstract
- Multi-Modal Fusion Network로써 imperfect한 데이터에 대해 Robustness를 가지는 CoRe-Net을 제시한다.
- Multi-modal, Uni-modal network 두가지를 제시하며, Multi-modal의 경우 SHHS에서 SOTA를 달성하였다.
I. INTRODUCTION
- 수면 단계 분류는 Time-consuming하며, 따라서 최근 연구는 자동화에 초점을 두고 있다.
- Previous Research로 single modality EEG, handcrafted feature, Neural Net (CNN, RNN, TF) 등 다양한 연구가 진행.
- EEG, EOG, EMG 신호를 활용하여 서로 보완이 가능하고, 성능 상승을 보여주는 Multi-modal 사용하려는 시도가 있었다.
- 하지만 Multi-Modal input에 대해 최적화를 하는 연구는 아직 활발하지 않다.
- multi-modal은 단일 EEG Input이 noisy하거나 missing 상태일 때의 Robustness는 당연히 Multi-modal이 좋다.
- Imputing missing values로는 few missing values, higher himensional data, learnable embedding 방식이 있다.
(나중에 읽어봐야지)
- Early Fusion 방식을 보완하기 위해 Late Fusion, Mid-Late fusion 등이 나왔으며, 본 논문에서 소개하는 CoRe-SleepNet의 경우 Late/Mid-Late 방식을 사용하였다.
II. DATA & METHODS
A. Data
- SHHS는 심혈관계 혹은 수면 중 무호흡질병을 진단하는 데이터 셋이다.
- SHHS-1을 사용하여 5791명의 환자가 39-90세로 이루어져 있다.
- EEG (C4-A1, 125Hz), EOG(L-R, 50Hz) 를 사용하였으며, R&K방식으로 labeling이 되어있기에 N3와 N4를 통합한다.
- window labeling이 없는 환자를 제거하며, Wake stage가 많은 경우(다른 stage보다 많은 경우)에도 앞 뒤로 잘라 주었다.
- EEG 신호를 125Hz -> 100Hz로, EOG 신호를 50Hz -> 100 Hz로 변환하며, bandpass FIR [0.3, 40], [0.3 23]을 각각 EEG, EOG에 적용해주었다.
- STFT를 통해 2초당 1초가 overlap되게 하여 256개의 hamming window가 128 차원으로 바뀌게 된다. (equation 참조)
- 그 다음 30초 단위로 non-overlap되게 자른 후, 7:3으로 Train-test split 후 진행. validation 수는 환자 100명.
B. Transformer Backbone
- Self-Attention을 통해 모든 vector 간의 similarity를 측정하고, re-weight를 통해 greater similarity를 찾아낸다.
- Multi-Head Attention을 통해 여러가지 sequence 사이의 다양한 상호작용을 찾을 수 있다.
- 위의 수식 (1) ~ (5)는 기존의 Transformer와 같다.
C. CoRe-Sleep Architecture
- CoRe-SleepNet은 TF backborn을 활용하여 "coordinated representation"을 학습하는 multi-modal fusion model.
- coordinated representation: mid-late fusion방법으로, 각각의 modality가 Network에서 나와서 서로 communicate하는 것.
- Transformer를 inner, outer로 나누어 inner transformer는 8-layer로 이루어져 있다. 초반 4개의 layer는 (inner-sequence) STFT를 사용해 추출된 30초 간격 window사이의 상호작용을 찾는다. 그 다음 aggregated된다.
- 후반 4개의 layer (outer-sequence)는 최대 21개의 window를 사용하여 aggreated된 feature끼리 상호작용한다.
- 4개의 Transformer Block 사용.
- learnable embedding인 [CLS] 토큰을 활용하여 inner-sequence끼리의 feature를 aggregate한다.
- absolute sinusoidal Positional Embedding이 아닌 learnable relative positional embedding을 사용한다. Attention에 의해 통합되기 때문에 learnable한 PE가 feature sequence 위치 의존성 학습이 더 쉽다.
- 각의 modality에 대한 inner, outer sequence의 feature representation을 Encoder에서 학습 후, multi-modal encoder에 넣는다.
- 각각의 Encoder와 Multi-modal encoder는 weight를 공유하는 동일한 모델
- additional Cross-attention(CA)를 통해 한 modality가 다른 modality에 영향을 끼칠 수 있게 한다.
D. Training Objectives
- 공동으로 optimize를 진행한다. 2개의 Cross-Entropy Loss(unimodal and multi-modal)와, Alignment(AL) loss를 사용.
- Alignment Loss를 통해 각의 window의 uni-modal representation을 다른 modality의 uni-modal representation과 비교함으로써 짝을 예측할 수 있게 한다.
- final training objective L은 아래와 같다. lambdaA 0.1이다. 최적의 값이 뭔진 모르겠지만 민감히지 않으므로 0.1을 썼다.
III. RESULTS & DISCUSSION