Google의 새로운 AI는 혼잡한 환경에서 개인의 목소리를 정확히 찾아냅니다.

Google은 혼잡한 공간에서 특정 목소리에 집중할 수 있는 새로운 AI를 개발합니다.
시각적 신호와 청각적 신호를 조합하여 음성을 분리합니다.
이 기술은 또한 음성 인식을 사전 처리하여 겹치는 화자에 대해 더 나은 동영상 캡션 시스템을 제공할 수 있는 잠재력을 가지고 있습니다.

인간은 혼잡한 지역에서 특정 목소리를 선택하고 다른 모든 소리를 음소거하는 데 매우 능숙합니다. 그러나 이는 기계에게는 여전히 어려운 과제로 남아 있습니다. 두 명 이상의 사람이 이야기할 때나 배경 소음이 있는 환경에서는 여전히 개별 음성을 분리하는 데 능숙하지 않습니다.

이제 Google은 음성과 배경 소음이 혼합된 단일 오디오 신호에 집중할 수 있는 딥 러닝 기반 시청각 모델을 개발했습니다. AI는 영상을 분석하고 특정 사람의 목소리를 향상시키는 동시에 다른 모든 소리를 억제할 수 있습니다.

특별한 오디오나 비디오 형식이 필요하지 않습니다. 하나의 오디오 트랙으로 모든 일반적인 비디오 형식에서 작동합니다. 사용자는 듣고 싶은 동영상에서 특정 얼굴을 선택하거나 알고리즘이 상황에 따라 선택하도록 할 수 있습니다.

이 기술은 영상의 시각 신호와 청각 신호를 조합하여 음성을 분리하는 기술입니다. 알고리즘은 입의 움직임을 기반으로 현재 누가 말하고 있는지 식별할 수 있습니다. 이러한 시각적 신호는 혼합 음성의 음성 분리 품질을 크게 향상시키고 사운드 트랙을 눈에 보이는 스피커와 연결합니다.

어떻게 만들어지나요?

엔지니어들은 교육 샘플을 제작하기 위해 토크쇼 및 강의에 대한 방대한 양의 고품질 YouTube 동영상을 수집했습니다. 그런 다음 이 비디오에서 2,000시간 분량의 클립을 필터링했습니다. 깨끗한 목소리를 지닌 필터링된 동영상 - 청중의 소음, 혼합된 음악 및 배경 간섭이 없습니다.

그런 다음 이 콘텐츠를 사용하여 다양한 소스의 관련 음성 및 배경 소음이 포함된 얼굴 비디오의 조합을 만들었습니다. 그들은 다중 스트림 컨볼루셔널 신경망을 훈련시켰습니다. 혼합 음성 비디오에서 개별 화자의 음성을 분리합니다.

사운드트랙의 스펙트로그램 표현과 각 프레임의 화자의 얼굴 썸네일(비디오에서 추출)이 모두 신경망에 삽입됩니다. 네트워크는 청각 및 시각 신호를 인코딩하고 융합하여 하나의 시청각 콘텐츠를 만드는 방법을 점진적으로 학습(훈련 기간)합니다.

그 동안 네트워크는 개별 화자에게 시간-주파수 마스크를 제공하는 방법도 학습합니다. 그런 다음 간섭과 잡음을 제거하면서 깨끗한 음성을 출력하기 위해 잡음이 있는 입력 스펙트로그램을 마스크에 곱합니다.

구현 세부정보

네트워크는 TensorFlow(오픈 소스 기계 학습 프레임워크)에서 구현되며 해당 작업은 파형 및 단시간 푸리에 변환을 수행하는 데 사용됩니다. 마스크 레이어를 제외한 모든 네트워크 레이어 뒤에는 Rectified Linear Unit 활성화가 이어집니다.

모든 Convolutional Layer에 대해 일괄 정규화가 수행됩니다. 이를 위해 그들은 6개 샘플의 배치 크기를 사용하고 500만 개의 배치(단계)에 대해 훈련했습니다. 오디오는 16KHz로 리샘플링되고 스테레오 오디오는 모노로 변환되어 단시간 푸리에 변환을 계산합니다.

참조: arXiv:1804.03619 | 구글 리서치

모든 얼굴 임베딩은 훈련 전에 초당 25프레임으로 리샘플링되어 75개의 얼굴 임베딩으로 구성된 입력 시각적 스트림이 생성되었습니다. 특정 샘플에서 누락된 프레임이 발견되면 제로 벡터를 사용했습니다.

애플리케이션

이 기술은 특히 여러 사람이 말하는 경우 비디오의 오디오 인식부터 음성 향상에 이르기까지 수많은 응용 분야를 가질 수 있습니다. 다양한 오디오 환경에서 사용할 수 있는 마이크의 종류가 더욱 넓어질 것입니다. 하지만 현재로서는 YouTube와 행아웃이 시작하기 쉬운 두 가지 장소처럼 보입니다. 궁극적으로는 음성 증폭 이어버드나 구글 안경에 적용될 수도 있습니다.

읽기:Google, 인간과 구별할 수 없는 음성 AI 개발 | 타코트론 2

또한 이 기술은 음성 인식을 전처리하여 겹치는 화자에 대해 더 나은 비디오 캡션 시스템을 제공할 수 있는 잠재력을 가지고 있습니다. 이 기능을 사용하면 청각 장애인이 더욱 쉽게 원격 회의에 참여하고 영화 비디오를 즐길 수 있습니다.

양자 생성 난수로 새로운 정확도 표준 설정 PRISM 기술은 공간과 시간에서 라이브 세포 이미징을 위한 빛 회절 한계를 깨뜨립니다.

산업기술