산업기술
최근 몇 년 동안 기계 학습 기술이 크게 발전했습니다. 이러한 기술은 물체, 얼굴을 인식하고 사실적인 이미지를 생성하는 데 매우 효과적이었습니다.
그러나 오디오의 경우 인공 지능은 실망스러운 부분입니다. 최고의 TTS(텍스트 음성 변환) 시스템조차도 억양의 변화와 같은 기본 기능이 부족합니다. 스티븐 호킹의 기계 목소리를 들어보셨나요? 때로는 그의 문장을 이해하기가 정말 어렵습니다.
이제 Facebook AI Research의 과학자들은 기존 텍스트 음성 변환 시스템의 한계를 극복하는 방법을 개발했습니다. 그들은 놀라운 정확도로 인간의 억양을 생성할 수 있는 MelNet이라는 생성 모델을 구축했습니다. 사실, 누구의 목소리로도 유창하게 말할 수 있습니다.
대부분의 딥 러닝 알고리즘은 실제 음성 패턴을 재생성하기 위해 대규모 오디오 데이터베이스에서 훈련됩니다. 이 방법론의 주요 문제는 데이터 유형입니다. 일반적으로 이러한 알고리즘은 매우 다양한 시간 척도에서 복잡한 구조를 갖는 오디오 파형 녹음에 대해 훈련됩니다.
이러한 녹음은 소리의 진폭이 시간에 따라 어떻게 변하는지를 나타냅니다. 오디오의 1초에는 수만 개의 시간 단계가 포함됩니다. 이러한 파형은 다양한 스케일의 특정 패턴을 반영합니다.
기존의 파형 생성 모델(예:SampleRNN 및 WaveNet)은 몇 분의 1초 동안만 역전파할 수 있습니다. 따라서 몇 초 단위로 나타나는 상위 수준의 구조를 포착할 수 없습니다.
반면에 MelNet은 딥 러닝 네트워크를 훈련하기 위해 오디오 파형 대신 스펙트로그램을 사용합니다. 스펙트로그램은 오디오 주파수의 전체 스펙트럼과 시간에 따라 어떻게 변하는지 보여주는 2D 시간-주파수 표현입니다.
동일한 4초 오디오 콘텐츠의 스펙트로그램 및 파형 패턴
1D 시간 영역 파형이 한 변수(진폭)의 시간 경과에 따른 변화를 캡처하는 반면 스펙트로그램은 다른 주파수에 대한 변화를 캡처합니다. 따라서 오디오 정보는 스펙트로그램에서 더 조밀하게 압축됩니다.
이를 통해 MelNet은 몇 초 동안 일관되게 무조건적인 음성 및 음악 샘플을 생성할 수 있습니다. 또한 완전히 종단 간 조건부 음성 생성 및 텍스트 음성 변환이 가능합니다.
참조:arXiv:1906.01083 | GitHub
정보 손실을 줄이고 과도한 평활화를 제한하기 위해 고해상도 스펙트로그램을 모델링하고 표현력이 뛰어난 자기회귀 모델을 각각 사용했습니다.
연구원들은 수많은 Ted 강연에서 MelNet을 훈련시켰고, 몇 초에 걸쳐 무작위 구를 말하는 화자의 음성을 재생성할 수 있었습니다. 다음은 Bill Gates의 음성을 사용하여 임의의 문구를 말하는 MelNet의 두 가지 예입니다.
<올>"포트는 스모키한 맛이 나는 강한 와인입니다."
<올>"상황이 좋지 않을 때 우리는 눈살을 찌푸립니다."
더 많은 예제는 GitHub에서 사용할 수 있습니다.
MelNet은 매우 생생한 오디오 클립을 생성하지만 더 긴 문장이나 단락을 생성할 수는 없습니다. 그럼에도 불구하고 시스템은 컴퓨터와 인간의 상호 작용을 향상시킬 수 있습니다.
많은 고객 관리 대화에는 짧은 문구가 포함됩니다. MelNet을 사용하여 이러한 상호 작용을 자동화하거나 현재의 자동화된 음성 시스템을 대체하여 발신자 경험을 개선할 수 있습니다.
읽기:Facebook AI는 음악을 한 스타일에서 다른 스타일로 변환합니다.
부정적으로 이 기술은 가짜 오디오 콘텐츠의 새로운 시대라는 망령을 불러일으킵니다. 그리고 인공 지능의 다른 발전과 마찬가지로 답보다 더 많은 윤리적 문제를 제기합니다.
산업기술
정확도는 로봇이나 수동 용접기에 의해 수행되는지 여부에 관계없이 모든 용접 응용 프로그램에서 매우 중요한 부분입니다. 그러나 정확도는 로봇 용접기로 훨씬 쉽게 달성할 수 있으며 이중 Fanuc ARC Mate 120iB/10L 용접 시스템에서 볼 수 있는 것과 같은 두 대의 로봇 용접기로 용접 프로세스의 품질을 저하시키지 않으면서 주기 시간이 크게 감소합니다. RobotWorx에서 제작한 맞춤형 Fanuc ARC Mate 120iB/10L 시스템과 같은 이중 용접 시스템에는 많은 장점이 있지만 가장 큰 장점 중 하나는 정확성입니다
절단 시 정확도는 매우 중요합니다. 수동 절단 응용 프로그램이 너무 많이 또는 너무 적게 제거되면 부품과 제품이 균일하지 않아 제품 무결성이 손상되거나 제품이 손상되거나 파손될 수 있습니다. Motoman 플라즈마 절단 로봇을 사용하면 더 이상 문제가 되지 않습니다. Motoman 플라즈마 절단기는 모든 절단에서 정확한 정확도를 달성할 수 있습니다. 절단은 힘든 작업입니다. 밀리미터가 너무 많거나 적으면 제품이 망가질 수 있습니다. Motoman 플라즈마 절단 로봇에 투자하면 더 이상 문제나 두려움이 없습니다. Motoman 플라