음성 어시스턴트가 얼마나 광범위한 신호 처리 체인을 '그냥 작동'하게 만드는지

Amazon의 Alexa 및 Google의 비서와 같은 음성 비서가 우리의 요청을 점점 더 잘 이해하면서 스마트 스피커와 음성 제어 장치가 점점 더 대중화되고 있습니다.

이러한 종류의 인터페이스의 주요 매력 중 하나는 '그냥 작동'한다는 것입니다. 학습할 사용자 인터페이스가 없으며 점점 더 자연 언어로 가제트에 사람인 것처럼 이야기하고 유용한 응답을 얻을 수 있습니다. 그러나 이 기능을 달성하기 위해 엄청난 양의 정교한 처리가 진행되고 있습니다.

이 기사에서는 음성 제어 솔루션의 아키텍처를 살펴보고 내부에서 일어나는 일, 필요한 하드웨어 및 소프트웨어에 대해 논의합니다.

신호 흐름 및 아키텍처

많은 종류의 음성 제어 장치가 있지만 기본 원리와 신호 흐름은 비슷합니다. Amazon의 Echo와 같은 스마트 스피커와 관련된 주요 신호 처리 하위 시스템 및 모듈을 살펴보겠습니다.

그림 1은 스마트 스피커의 전체 신호 체인을 보여줍니다.

더 큰 이미지를 보려면 클릭하세요.

그림 1:CEVA의 ClearVox 및 WhisPro를 기반으로 한 음성 비서용 신호 체인. (출처:CEVA)

다이어그램의 왼쪽부터 VAD(Voice Activity Detection)를 통해 음성이 감지되면 디지털화되어 여러 신호 처리 단계를 거쳐 원하는 주 화자의 음성에서 음성의 선명도를 향상시키는 것을 볼 수 있습니다. 도착 방향. 그런 다음 디지털화되고 처리된 음성 데이터는 백엔드 음성 처리로 전달되며, 이 작업은 부분적으로는 장치에서, 부분적으로는 클라우드에서 수행될 수 있습니다. 마지막으로 필요한 경우 응답이 생성되어 스피커에서 출력되며, 디코딩 및 디지털-아날로그 변환이 필요합니다.

다른 응용 프로그램의 경우 몇 가지 차이점과 다양한 우선 순위가 있을 수 있습니다. 예를 들어 차량 내 음성 인터페이스는 자동차의 일반적인 배경 소음을 처리하도록 최적화되어야 합니다. 또한 인이어 '히어러블' 및 저가 가전 제품과 같은 소형 기기에 대한 수요로 인해 전력을 낮추고 비용을 절감하려는 전반적인 추세가 있습니다.

프런트엔드 신호 처리

음성이 감지되고 디지털화되면 여러 신호 처리 작업이 필요합니다. 외부 소음뿐만 아니라 음악을 출력하는 스마트 스피커 또는 회선 반대편에서 말하는 사람과의 대화와 같이 청취 장치에서 생성되는 소리도 고려해야 합니다. 이러한 소리를 억제하기 위해 장치는 음향 반향 제거(AEC)를 사용하므로 사용자는 스마트 스피커가 이미 음악을 재생하거나 말하고 있는 경우에도 끼어들어 끼어들 수 있습니다. 이러한 에코가 제거되면 노이즈 억제 알고리즘이 외부 노이즈를 정리하는 데 사용됩니다.

다양한 응용 프로그램이 있지만 음성 제어 장치에 대해 근거리 및 원거리 음성 픽업의 두 그룹으로 일반화할 수 있습니다. 헤드셋, 이어버드, 히어러블, 웨어러블과 같은 근거리 장치는 사용자의 입 근처에 잡거나 착용하는 반면, 스마트 스피커 및 TV와 같은 원거리 장치는 방 건너편에서 사용자의 음성을 들을 수 있도록 설계되었습니다.

근거리 장치는 일반적으로 하나 또는 두 개의 마이크를 사용하지만 원거리 장치는 종종 세 개에서 여덟 개 사이를 사용합니다. 그 이유는 원거리 장치가 근거리 장치보다 더 많은 문제에 직면하기 때문입니다. 사용자가 더 멀리 이동함에 따라 마이크에 도달하는 음성은 점차 작아지고 배경 소음은 동일한 수준으로 유지됩니다. 동시에 장치는 벽 및 기타 표면의 반사(반향이라고도 함)에서 직접적인 음성 신호를 분리해야 합니다.

이러한 문제를 처리하기 위해 원거리 장치는 빔포밍이라는 기술을 사용합니다. 이것은 여러 개의 마이크를 사용하며 각 마이크에 도달하는 사운드 신호 간의 시간 차이를 기반으로 음원의 방향을 계산합니다. 이를 통해 장치는 반사 및 기타 소리를 무시하고 사용자의 말을 들을 뿐만 아니라 움직임을 추적하고 여러 사람이 말하는 곳에서 정확한 음성을 확대할 수 있습니다.

스마트 스피커의 경우 또 다른 핵심 작업은 'Alexa'와 같은 '트리거' 단어를 인식하는 것입니다. 화자가 항상 듣고 있기 때문에 이 트리거 인식은 개인 정보 보호 문제를 제기합니다. 사용자의 오디오가 항상 클라우드에 업로드되는 경우 트리거 단어를 말하지 않아도 Amazon이나 Google이 모든 대화를 듣는 것이 편안합니까? 대신 사용자가 더 복잡한 명령을 시작한 후에만 오디오를 클라우드로 전송하여 스마트 스피커 자체에서 로컬로 "볼륨 업"과 같은 인기 있는 명령뿐만 아니라 트리거 인식을 처리하는 것이 더 나을 수 있습니다.

마지막으로 추가 처리를 위해 최종적으로 클라우드 백엔드로 보내기 전에 깨끗한 음성 샘플을 인코딩해야 합니다.

전문 솔루션

위의 설명에서 프론트 엔드 음성 처리는 많은 작업을 처리할 수 있어야 한다는 것이 분명합니다. 이를 빠르고 정확하게 수행해야 하며, 배터리 구동 장치의 경우 장치가 항상 트리거 단어를 수신 대기하는 경우에도 전력 소비를 최소로 유지해야 합니다.

이러한 요구 사항을 충족하기 위해 비용, 처리 성능, 크기 및 전력 소비 측면에서 범용 DSP(디지털 신호 프로세서) 또는 마이크로프로세서가 적합하지 않을 수 있습니다. 대신 더 나은 솔루션은 전용 오디오 처리 기능과 최적화된 소프트웨어를 갖춘 애플리케이션별 DSP일 가능성이 높습니다. 이미 음성 입력 작업에 최적화된 하드웨어/소프트웨어 솔루션을 선택하면 개발 비용을 줄이고 출시 시간을 크게 단축할 뿐만 아니라 전체 비용도 절감할 수 있습니다.

예를 들어 CEVA의 ClearVox는 음성 입력 처리 알고리즘의 소프트웨어 제품군으로, 화자의 음성 도착 방향, 다중 마이크 빔포밍, 소음 억제 및 음향 반향 제거를 비롯한 다양한 음향 시나리오 및 마이크 구성에 대처할 수 있습니다. ClearVox는 CEVA 사운드 DSP에서 효율적으로 실행되도록 최적화되어 비용 효율적인 저전력 솔루션을 제공합니다.

음성 처리뿐 아니라 에지 장치는 트리거 단어 감지를 처리할 수 있는 기능이 필요합니다. CEVA의 WhisPro와 같은 전문 솔루션은 필요한 정확도와 낮은 전력 소비를 달성하는 탁월한 방법입니다(그림 2 참조). WhisPro는 OEM이 음성 지원 제품에 음성 활성화를 추가할 수 있도록 하는 CEVA의 DSP 전용으로 제공되는 신경망 기반 음성 인식 소프트웨어 패키지입니다. 메인 프로세서가 필요할 때까지 잠자기 상태로 유지되는 동안 필요한 상시 청취를 처리할 수 있으므로 전체 시스템 전력 소비를 크게 줄일 수 있습니다.

더 큰 이미지를 보려면 클릭하세요.

그림 2:음성 활성화를 위한 음성 처리 및 음성 인식 사용. (출처:CEVA)

WhisPro는 95% 이상의 인식률을 달성할 수 있으며 여러 트리거 구문과 맞춤형 트리거 단어를 지원할 수 있습니다. 스마트 스피커를 사용해 본 사람이라면 누구나 증언할 수 있듯이, 시끄러운 환경에서도 알림 메시지에 안정적으로 응답하도록 하는 것은 때때로 실망스러운 경험이 될 수 있습니다. 이 기능을 올바르게 사용하면 소비자가 음성 제어 제품의 품질을 인식하는 방식이 크게 달라질 수 있습니다.

음성 인식:로컬 또는 클라우드

음성이 디지털화되고 처리되면 일종의 자동 음성 인식(ASR) 기능이 필요합니다. ASR 기술은 사용자가 특정 키워드를 말해야 하는 단순한 키워드 감지부터 사용자가 다른 사람에게 말하듯이 정상적으로 말할 수 있는 정교한 자연어 처리(NLP)까지 다양한 기술이 있습니다.

키워드 감지는 어휘가 극히 제한적일지라도 많은 용도가 있습니다. 예를 들어, 전등 스위치나 온도 조절기와 같은 간단한 스마트 홈 장치는 '켜기', '끄기', '더 밝게', '더 어둡게' 등과 같은 몇 가지 명령에 응답할 수 있습니다. 이 수준의 ASR은 인터넷 연결 없이 로컬에서 에지에서 쉽게 처리할 수 있으므로 비용을 절감하고 빠른 응답을 보장하며 보안 및 개인 정보 보호 문제를 피할 수 있습니다.

또 다른 예는 많은 Android 스마트폰이 '치즈' 또는 '미소'라고 말하여 사진을 찍도록 지시할 수 있다는 것입니다. 클라우드에 명령을 보내는 데 너무 오래 걸립니다. 인터넷 연결이 가능하다는 가정하에 스마트워치나 히어러블과 같은 기기의 경우 항상 그런 것은 아닙니다.

반면에 많은 응용 프로그램에는 NLP가 필요합니다. Echo 스피커에게 날씨에 대해 묻고 싶거나 오늘 밤에 묵을 호텔을 찾고 싶다면 다양한 방법으로 질문을 표현할 수 있습니다. 장치는 명령의 가능한 뉘앙스와 구어체를 이해할 수 있어야 하고 요청된 내용을 안정적으로 해결할 수 있어야 합니다. 간단히 말해서 음성을 텍스트로 변환하는 것이 아니라 음성을 의미로 변환할 수 있어야 합니다.

호텔 문의를 예로 들자면 가격, 위치, 리뷰 및 기타 여러 요소에 대해 질문할 수 있는 가능한 요소가 매우 많습니다. NLP 시스템은 이러한 복잡성을 모두 해석해야 하며, 질문이 표현될 수 있는 다양한 방식과 '좋은 가치를 찾아주세요, 중앙 호텔'이라는 요청의 명확성이 부족합니다. 사람들. 정확한 결과를 얻으려면 기기가 질문의 맥락을 고려하고 사용자가 연결된 후속 질문을 하거나 하나의 쿼리 내에서 여러 정보를 요청할 때를 인식해야 합니다.

이것은 일반적으로 인공 지능(AI)과 신경망을 사용하여 엄청난 양의 처리가 필요할 수 있으며, 이는 대부분 에지에서만 처리하는 데 실용적이지 않습니다. 임베디드 프로세서가 있는 저가형 장치는 필요한 작업을 처리하기에 충분한 전력이 없습니다. 이 경우 올바른 옵션은 클라우드에서 처리하기 위해 디지털화된 음성을 보내는 것입니다. 거기에서 해석하고 적절한 응답을 음성 제어 장치로 다시 보낼 수 있습니다.

장치의 에지 처리와 클라우드의 원격 처리 간에 절충점이 있음을 알 수 있습니다. 모든 것을 로컬에서 처리하는 것이 더 빠를 수 있고 인터넷 연결에 의존하지 않지만 더 넓은 범위의 질문과 정보 가져오기를 처리하는 데 어려움을 겪을 것입니다. 즉, 가정의 스마트 스피커와 같은 범용 장치의 경우 최소한 일부 처리를 클라우드로 푸시해야 합니다.

클라우드 처리의 단점을 해결하기 위해 로컬 프로세서의 기능이 개발되고 있으며 가까운 장래에 에지 장치에서 NLP 및 AI의 큰 개선을 기대할 수 있습니다. 새로운 기술은 필요한 메모리의 양을 줄이고 프로세서는 계속해서 더 빨라지고 전력을 덜 소모하게 됩니다.

예를 들어 CEVA의 NeuPro 저전력 AI 프로세서 제품군은 엣지에 정교한 기능을 제공합니다. 컴퓨터 비전용 신경망에 대한 CEVA의 경험을 기반으로 하는 이 제품군은 온디바이스 음성 처리를 위한 유연하고 확장 가능한 솔루션을 제공합니다.

결론

음성 제어 인터페이스는 빠르게 우리 일상 생활의 중요한 부분이 되고 있으며 가까운 장래에 점점 더 많은 제품에 추가될 것입니다. 로컬 및 클라우드 모두에서 향상된 신호 처리 및 음성 인식 기능과 더욱 강력한 컴퓨팅 리소스로 인해 개선이 이루어지고 있습니다.

OEM의 요구 사항을 충족하려면 오디오 처리 및 음성 인식에 사용되는 구성 요소가 성능, 비용 및 전력 측면에서 몇 가지 어려운 문제를 해결해야 합니다. 많은 설계자에게 있어 당면한 작업에 특별히 최적화된 솔루션은 최종 고객의 요구 사항을 충족하고 출시 시간을 단축하는 최상의 접근 방식을 입증할 수 있습니다.

그들이 기반으로 하는 기술이 무엇이든 음성 인터페이스는 보다 정확하고 일상적인 언어로 말하기가 더 쉬워지는 반면 가격 하락은 제조업체에 더 매력적으로 만들 것입니다. 다음에 어떤 용도로 사용되는지 알아보는 흥미로운 여정이 될 것입니다.

프리실리콘 소프트웨어 개발 최적화 Bluetooth Mesh로 설계:칩 또는 모듈?

임베디드

감지기

클라우드 컴퓨팅

사물 인터넷 기술