제목: Neural network analysis of sleep stages enables efficient diagnosis of narcolepsy
저자: Jens B. Stephansen et al.
링크: https://www.nature.com/articles/s41467-018-07229-3
소속: Center for Sleep Science and Medicine, Stanford University, Stanford 94304 CA, USA.
인용: 178(2024.04.09 기준)
출판: Nature Communication 2018 (IF 14.92)
Abstract:
- Type-1 Narcolepsy (T1N)의 진단은 visual inspection of polysomnography를 필요로 함, 이 논문에서는 이를 딥러닝을 통해 약 3,000개의 수면 기록 분석으로 수면 단계 채점을 자동화하고, 전통적인 수면 도표보다 정보를 더 많이 담은 hypnodensity graph를 생성.
- 이 방법은 기존 평가자보다 높은 정확도로, 더 짧은 시간 단위까지 신뢰성 있게 수면을 평가할 수 있었으며, 특히 T1N 진단에 있어 높은 특이도와 민감도를 보였습니다.
Introduction:
Sleep disorder & Sleep dysregulation → cardiovascula/metabolic/psychiatric disorders: over 100m Americans
~90 kind of sleep disorders: insomnia (20%), obstructive and central sleep apnea (10%), restless legs syndrome (4%), rapid eye movement (REM) sleep behavior disorder (RBD) and hypersomnia syndromes like type 1 narcolepsy (T1N)
그렇다면 T1N이란?
T1N: Type-1 Narcolepsy 이란 시상하부의 hypocretin neuron의 파괴로 인해 나타나며, 이는 CSF의 hypocretin-1 혹은 orexin-A의 농도로 반영. 이 농도가 110pg/ml아래일 때, Narcolepsy라고 함. 한국/미국/유럽/중국 인구의 0.03% 가 영향.
1형 나르콜레시(T1N: Type 1 Narcolepsy)는 유전적 마커인 HLADQB1*06:02와 매우 강한 연관성(97% vs 25%)을 가지며, 짧은 수면 잠복기, REM 수면으로의 빠른 전환, 밤 시간의 수면 유지 능력 저하와 같은 잘 정의된 수면 장애 세트를 포함. 또한, 환자가 깨어 있는 동안에 반은 REM 수면 상태에 있게 되는 “sleep/wake dissociation” 에피소드도 포함되며, 이는 수면 중 근육 마비(수면 마비(paralysis), 캐타플렉시(cataplexy)) 또는 깨어 있는 동안 꿈을 꾸는 현상(hypnagogic hallucinations)을 경험하는 것을 포함
수면단계분류의 특징.
N1 - EEG 감속, 후두부 alpha wave 소실, EMG 감소, 느린 눈 운동
N2 - Sleep Spindle 및 K-complex 연관
N3 - 느리고 큰 진폭 파동(>20%) 우세
REM - 낮은 전압, 비동기화 EEG, 가끔 톱니 모양 파동, 낮은 근육 톤, REM 운동
수면 주기/수면 장애/Diagnosis narcolpsy
수면 주기: N1부터 N3을 거쳐 REM으로 진행되며, 이 주기가 약 90분마다 반복.
수면 장애: 폐쇄성 수면 무호흡증(OSA)에서는 N3에서 덜 심각하고 REM 수면에서 더 심각한 비정상적 호흡 이벤트가 발생
나르콜레시 진단: PSG 후에 수행되는 다중 수면 잠복기 테스트(MSLT)를 통해 진단. MSLT는 낮 동안 2시간마다 20분간 총 4-5회 낮잠을 자면서 수면 잠복기와 REM 수면의 존재를 기록. 평균 수면 잠복기가 8분 미만이고, 수면 개시 REM 기간(SOREMPs)이 MSLT 중 최소 2회 또는 야간 PSG 동안 1회 발생하면 나르콜레시로 진단할 수 있다.
MSLT를 사용해 TIN을 진단한 이전 연구.
- T1N 환자 516명 vs controls 516명: 특이도(Specificity)는 98.6%, 민감도(Sensitivity)는 92.9%.
⇒ 이는 MSLT가 1형 T1N 환자를 매우 정확하게 구분할 수 있음을 의미.
⇒ 민감도 Sensitivity = (TP/(TP+FN)), // 민감도 Specificity = (TP/(TP+FP))
- T1N 환자 122명 vs hypersomnia 132명: 특이도는 71.2%, 민감도는 93.4%. ⇒ 1형 T1N과 다른 hypersomnia 사이의 구분이 더 어려움을 보여주지만, 여전히 높은 민감도를 유지
- 요약: MSLT가 T1N 를 진단하는 데 매우 유용, 특히 일반 대조군과는 Sensitivity&Specificity를 보임. 그러나 hypersomnia 케이스와의 비교에서는 특이도가 다소 낮아지는데, 이는 T1N과 유사한 증상을 보이는 다른 수면 장애와의 구분이 더 어려울 수 있음을 의미.
수면 기록의 수동 검사 문제점
문제점: 시간 소모적, 비용이 많이 들고, 일관성이 없으며, 주관적이고, 대체로 오프라인에서 수행되어야 함.
신뢰도: 수면 단계 채점, 평가자 간 신뢰도는 82.6%로, N1과 N3 단계에서는 각각 63%와 67%로 낮음, 유용성에 제약
딥러닝을 통한 대안 탐색
목표: 빠르고, 저렴하며, 객관적이고, 재현 가능한 수면 단계 채점의 수동 방법에 대한 대안을 제공
기술: 딥러닝은 복잡한 신경망 모델을 사용하며, 이미지 라벨링, 음성 이해, 언어 번역 등 복잡한 문제에서 인간의 성능을 능가. 의료 분야에서는, diabetic retinopathy, digital pathology, radiology 분야에서 딥러닝 알고리즘의 효과가 입증
hypnodensity graph???
hypnodensity graph: Instead traditional hypnogram, 각 수면 단계에 대한 membership function을 제공하여 수면 경향에 대한 더 많은 정보를 전달 가능.
응용: hypnodensity 특징을 이용하여 T1N 진단에 딥러닝을 적용, 단일 PSG 분석이 24시간 지속되는 PSG-MSLT 만큼 잘 수행됨을 이번 논문에서 보여줄 예정.
Results
biased: 한 평가자의 평가 점수가 포함된 채로 계산이 됨.
Unbiasd: 한 평가자의 평가 점수가 포함이 되지 않은 채로 점수 계산.
Overall: 전체적으로 계산. 모든 참가자들의 평가 결과가 될 것.
Model __ on concensus: 말 그대로 모델의 성능
SSC+KHC의 성능이 가장 낮고, IS-RC의 성능이 가장 높음.
- SSC+KHC의 환자들은 주로 잠을 쪼개서 잔다, 즉 fragmented sleeping pattern을 더 많이 가지고 있다라고 보면 된다.
- IS-RC의 경우, 잘못된 erroneous scoring을 줄였기에 성능이 높다고 저자는 이야기한다.
a. N scorers vs. best model
- 수면 단계를 평가하는 데 있어서,N scorers간의 consensus vs best model 비교
- N은 평가에 참여한 scorer 수
- Accuracy는 해당 평가자의 consensus에 비례하여 모델이 얼마나 정확하게 수면 단계를 분류했는지를 나타냄.
- 당연하게도 N이 올라가면 성능이 향상됨, 더 많은 전문가가 참여할 수록 더 정확한 'Golden standard'를 형성하기 때문.
++ 더 많은 전문가의 의견이 반영될수록, 알고리즘에 의한 수면 단계 채점의 정확성을 평가하는 데 있어 더 강력한 기준점이 되므로, 모델의 성능 평가가 더 엄격+정확.
b. Accuracy vs. resolution (정확도 대 해상도)
- Resolution은 각 수면 단계를 평가하는 데 사용되는 시간 간격. 여기서는 5초 ~ 30초
- Accuracy는 각각의 해상도에서 모델이 수면 단계를 얼마나 정확하게 분류했는지를 나타냄.
- 시간 간격이 길어질수록, 수면 패턴의 상세한 변화를 포착하는 능력이 낮아질 수 있음, 반대로 너무 짧아도 찾기 힘들 수 있음, 이 그래프에서는 해상도가 증가함에 따라 정확도가 증가하는 경향을 볼 수 있음.
우선 수식 2는 epoch-specific weight wn을 의미하고 수식 3의 aw(i)는 weighed accuracy를 의미한다.
수식 2에서의 l**2는 scorer에 의해 얻어진 (Z) 두번째로 가장 그럴 듯한 n-th번째 stage를 의미한다.
- 이러한 수식? weighed performance를 넣었을 때, 성능이 87% → 94%로 크게 상승하는 모습을 보였다.
- 그리고 우리의 모델도 scorer와 마찬가지로 인접한 단계들 사이를 예측하는데 가장 큰 어려움을 겪었다. N1-N2 or N2-N3
P(w|x): 주어진 데이터 x에 대해 수면 단계 w의 확률을 의미. 확률이 1에 가까울수록 해당 단계가 될 확률이 높음
흰색: Wake || 빨간색: N1 || 밝은 파랑: N2 || 진한 파랑: N3 || 까만색: REM
- hypnodensity graph에 나타난 모델과 평가자의 추정치는 서로 유사한 결과를 보이며, 실제 수면 패턴을 반영.
- w/ memory vs w/o memory model:
w/ memory: 이전의 상황이나 맥락을 기반으로 추정을 하므로 변동이 적지만,
w/o memory: w/o 모델은 맥락 정보가 부족하여 Wake 동안에 REM 수면에 더 높은 확률을 할당하는 경향 높음
hypnodensity graph는 단계가 모호한 데이터에 대해 평가자와 모델 모두 두 단계 중 하나를 선택해야 하는 상황에서 유용. 단순히 하나의 단계를 선택하는 것이 아니라, 각 수면 단계에 대한 확률 분포를 제공함으로써 수면 패턴에 대한 더 풍부한 정보를 제공하고, 평가의 모호함을 완화 가능.
T1N 환자의 수면단계 분류는 다음과 같이 hypnodensity graph로 나타낼 수 있다.
Summerization
목적(Goal):
단일 밤의 다원수면검사(PSG)를 사용하여 T1N을 진단할 수 있는 Deep leanring hypnodensity의 특징를 활용하여, 일반적으로 24시간 절차(PSG에 이어 여러 차례의 수면 잠복기 검사를 포함)를 필요로 하는 진단 과정을 단순화.
방법(Methods):
약 3,000개의 수면 기록을 사용하여 자동 수면 단계 채점 진행. 이 모델들은 CNN + RNN 구조를 활용하여 수면 패턴을 분석하고 학습. 정확도를 향상시키고 불확실성을 정량화하기 위해 다양한 파라미터를 가진 모델 앙상블을 사용.
한계(Limitations):
논문은 기계 학습이 의학 분야에서 유망하지만, 자동 수면 단계 분류를 위한 기술 적용이 완전히 새로운 것은 아니며, 소수의 수면 연구에서만 효과가 입증되었다고 언급. T1N 같은 수면 질병의 존재로 인해 인간과 기계 모두에게 채점이 더 어려울 수 있으며, 개인 및 채점자간 차이로 인해 성능 변동성이 있을 수 있음.