Facebook, 전례 없는 정확도로 모든 사람의 목소리를 복사할 수 있는 AI 개발

MelNet이라는 새로운 딥 러닝 모델은 놀라운 정확도로 인간의 억양을 생성할 수 있습니다.
한 번 훈련되면 몇 초에 걸쳐 누구의 목소리도 재생성할 수 있습니다.
연구원들은 이것이 빌 게이츠의 목소리를 얼마나 정확하게 복제할 수 있는지 보여줍니다.

최근 몇 년 동안 기계 학습 기술이 크게 발전했습니다. 이러한 기술은 물체, 얼굴을 인식하고 사실적인 이미지를 생성하는 데 매우 효과적이었습니다.

그러나 오디오의 경우 인공 지능은 실망스러운 부분입니다. 최고의 TTS(텍스트 음성 변환) 시스템조차도 억양의 변화와 같은 기본 기능이 부족합니다. 스티븐 호킹의 기계 목소리를 들어보셨나요? 때로는 그의 문장을 이해하기가 정말 어렵습니다.

이제 Facebook AI Research의 과학자들은 기존 텍스트 음성 변환 시스템의 한계를 극복하는 방법을 개발했습니다. 그들은 놀라운 정확도로 인간의 억양을 생성할 수 있는 MelNet이라는 생성 모델을 구축했습니다. 사실, 누구의 목소리로도 유창하게 말할 수 있습니다.

MelNet은 기존 머신 스피치와 어떻게 다른가요?

대부분의 딥 러닝 알고리즘은 실제 음성 패턴을 재생성하기 위해 대규모 오디오 데이터베이스에서 훈련됩니다. 이 방법론의 주요 문제는 데이터 유형입니다. 일반적으로 이러한 알고리즘은 매우 다양한 시간 척도에서 복잡한 구조를 갖는 오디오 파형 녹음에 대해 훈련됩니다.

이러한 녹음은 소리의 진폭이 시간에 따라 어떻게 변하는지를 나타냅니다. 오디오의 1초에는 수만 개의 시간 단계가 포함됩니다. 이러한 파형은 다양한 스케일의 특정 패턴을 반영합니다.

기존의 파형 생성 모델(예:SampleRNN 및 WaveNet)은 몇 분의 1초 동안만 역전파할 수 있습니다. 따라서 몇 초 단위로 나타나는 상위 수준의 구조를 포착할 수 없습니다.

반면에 MelNet은 딥 러닝 네트워크를 훈련하기 위해 오디오 파형 대신 스펙트로그램을 사용합니다. 스펙트로그램은 오디오 주파수의 전체 스펙트럼과 시간에 따라 어떻게 변하는지 보여주는 2D 시간-주파수 표현입니다.

동일한 4초 오디오 콘텐츠의 스펙트로그램 및 파형 패턴

1D 시간 영역 파형이 한 변수(진폭)의 시간 경과에 따른 변화를 캡처하는 반면 스펙트로그램은 다른 주파수에 대한 변화를 캡처합니다. 따라서 오디오 정보는 스펙트로그램에서 더 조밀하게 압축됩니다.

이를 통해 MelNet은 몇 초 동안 일관되게 무조건적인 음성 및 음악 샘플을 생성할 수 있습니다. 또한 완전히 종단 간 조건부 음성 생성 및 텍스트 음성 변환이 가능합니다.

참조:arXiv:1906.01083 | GitHub

정보 손실을 줄이고 과도한 평활화를 제한하기 위해 고해상도 스펙트로그램을 모델링하고 표현력이 뛰어난 자기회귀 모델을 각각 사용했습니다.

효과적인 결과

연구원들은 수많은 Ted 강연에서 MelNet을 훈련시켰고, 몇 초에 걸쳐 무작위 구를 말하는 화자의 음성을 재생성할 수 있었습니다. 다음은 Bill Gates의 음성을 사용하여 임의의 문구를 말하는 MelNet의 두 가지 예입니다.

<올>

https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

"포트는 스모키한 맛이 나는 강한 와인입니다."

<올>

https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

"상황이 좋지 않을 때 우리는 눈살을 찌푸립니다."

더 많은 예제는 GitHub에서 사용할 수 있습니다.

MelNet은 매우 생생한 오디오 클립을 생성하지만 더 긴 문장이나 단락을 생성할 수는 없습니다. 그럼에도 불구하고 시스템은 컴퓨터와 인간의 상호 작용을 향상시킬 수 있습니다.

많은 고객 관리 대화에는 짧은 문구가 포함됩니다. MelNet을 사용하여 이러한 상호 작용을 자동화하거나 현재의 자동화된 음성 시스템을 대체하여 발신자 경험을 개선할 수 있습니다.

읽기:Facebook AI는 음악을 한 스타일에서 다른 스타일로 변환합니다.

부정적으로 이 기술은 가짜 오디오 콘텐츠의 새로운 시대라는 망령을 불러일으킵니다. 그리고 인공 지능의 다른 발전과 마찬가지로 답보다 더 많은 윤리적 문제를 제기합니다.

인간과 같은 촉각을 가질 수 있는 새로운 전자 피부 과학자들이 화면을 더 밝고 효율적으로 만드는 새로운 방법을 개발하다

산업기술