AI 모델은 77% 정확도로 자연스러운 대화에서 우울증을 감지합니다.
- MIT 연구원들은 사전 정의된 질문 없이 원시 오디오 및 텍스트에서 우울 패턴을 자동으로 식별하는 신경망을 개발했습니다.
- 이 모델은 '컨텍스트 프리' 모델입니다. 즉, 일상적인 대화를 분석하고 우울증과 관련된 언어적, 청각적 단서를 추출할 수 있습니다.
- 검증 연구에서 전체 정확도 77%를 달성하여 기존 Q&A 기반 AI 도구보다 뛰어난 성능을 보였습니다.
전통적으로 환자 건강 설문지(PHQ-9)는 우울증 검사의 표준입니다. 기분, 수면, 식욕, 에너지 수준에 대한 9가지 고정 질문을 통해 0~27점의 점수를 계산하며, 20점 이상이면 심각한 우울증을 의미합니다.
지난 몇 년 동안 기계 학습 접근 방식은 억양, 말하는 속도, 특정 어휘 선택 등 우울증 상태를 암시하는 숨길 수 없는 지표에 대한 음성을 성공적으로 마이닝했습니다. 그러나 이러한 모델의 대부분은 PHQ‑9 또는 유사한 구조화된 인터뷰에 대한 응답에 의존하므로 실제 환경에서의 적용 가능성이 제한됩니다.
MIT의 새로운 신경망은 이러한 제약을 제거합니다. 자유로운 형식의 인터뷰 녹음을 제공함으로써 시스템은 "다운", "낮은" 또는 "슬픈"과 같은 단어의 빈번한 사용과 단조롭거나 단조로운 음성 품질 및 느린 말하기 속도와 같은 우울증과 밀접한 관련이 있는 미묘한 패턴을 인식하는 방법을 학습합니다.
모델 작동 방식
알고리즘은 음성을 타임스탬프가 지정된 오디오 프레임과 기록된 단어의 시퀀스로 처리합니다. 음향 특징(음조, 에너지, 말하는 속도)과 언어 콘텐츠를 공동으로 분석하는 심층 시퀀스 모델링 아키텍처를 사용합니다. 고정된 설문지에 의존하지 않기 때문에 임상면접부터 일상적인 전화통화까지 모든 대화자료에 적용이 가능합니다.
저자는 이를 "컨텍스트 프리 모델링"이라고 부릅니다. 왜냐하면 이는 질문된 특정 질문과 관계없이 우울증 지표를 포착하기 때문입니다.
교육, 검증 및 성과
이 모델은 DAIC(Distress Analysis Interview Corpus)에서 추출한 142개의 상호 작용에 대해 훈련되었으며, 여기에는 건강한 참가자와 정신 장애 진단을 받은 개인 모두와의 오디오, 비디오, 대화 텍스트가 포함되어 있습니다.
각 피험자의 우울증 심각도는 PHQ‑9 점수(0~27)를 사용하여 정량화되었습니다. 연구에서 28명의 참가자는 우울증으로 분류되었습니다(점수 ≥20). 네트워크는 정밀도와 재현율에 대해 평가되었습니다. 정밀도 71%와 재현율 83%를 달성하여 전체 정확도 77%를 산출했습니다. 이는 일반적으로 정확도가 60~65% 정도였던 이전 AI 접근 방식에 비해 눈에 띄게 향상된 것입니다.
향후 작업에서는 네트워크를 치매와 같은 다른 질환으로 확장하고 예측을 주도하는 특정 음향 언어 패턴을 탐구할 것입니다.
장기적으로는 이 기술을 모바일 앱에 통합하여 사용자의 음성과 문자에서 고통의 징후가 있는지 수동적으로 모니터링하고 정신 건강 치료를 받기 어려운 사람들에게 조기 경고를 제공할 수 있습니다.

참고자료:Interspeech Conference | CSAIL/MIT
읽기:뇌 자극은 폭력 행위를 저지르려는 의도를 감소시킬 수 있습니다