저전력, 상시 작동 음성 명령 시스템에 대한 설계 고려 사항

음성 비서 및 통합은 시장에 출시된 대부분의 제품, 가전 제품 및 기술에 구현되고 있습니다. 즉, 이러한 유용한 음성 비서는 종종 많은 양의 전력을 사용하는 활성화/깨우기 단어(예:"ok Google" 또는 "Alexa")를 수신 대기한다는 사실은 비밀이 아닙니다. 기술이 빠르게 발전하는 세상에서 이것이 에너지 소비에 미치는 영향을 고려해야 합니다.

이 문서에서는 VAD(음성 활동 감지)를 사용하는 저전력, 상시 작동 음성 명령 시스템에 대한 설계 고려 사항을 제공합니다. 사용하기 쉽고 에너지 효율적인 음성 사용자 인터페이스(VUI)를 만드는 데 필요한 구성 요소를 선택할 때 절충점과 고려 사항을 살펴봅니다.

Th VAD 기능은 깨우기 단어를 듣기 전에 환경에서 사람의 목소리를 감지하므로 집에 아무도 없을 때 음성 도우미가 불필요한 에너지를 낭비하지 않습니다. 전 세계적으로 42억 개의 디지털 음성 비서가 사용되는 것으로 추산되며 이 숫자는 2024년까지 두 배로 증가할 것으로 예상됩니다. 이 기술을 음성 통합에 의존하는 음성 비서 소프트웨어 및 기타 제품에 구현하면 이들의 에너지 소비를 크게 낮출 수 있습니다. 음성 도우미를 사용하는 사람

VUI 시스템을 구현하기 위한 여러 하드웨어 아키텍처가 있습니다. 일반적으로 일반적인 음성 사용자 인터페이스 구현은 단일 마이크 또는 음성 캡처 및 처리를 위해 오디오 프로세서에 연결된 마이크 어레이인 마이크로 구성됩니다.

들어오는 오디오 스트림은 에지 오디오 에지 프로세서, 오디오 에지 프로세서가 내장된 스마트 마이크 또는 표준 애플리케이션 프로세서(AP)에서 처리할 수 있습니다. 에지 오디오 프로세서는 오디오 신호의 저전력 및 저지연 처리에 최적화되어 있습니다. 입력 오디오의 특수 처리를 제공하는 것 외에도 에지 오디오 프로세서는 오디오 출력 신호 후처리에도 사용할 수 있습니다. VUI 시스템이 클라우드에 연결된 경우 오디오 에지 프로세서는 무선 연결을 통해 메인 SoC(System-on-a-Chip)를 통해 클라우드 VUI 인터페이스와 통신할 수도 있습니다. VUI 시스템에 대한 두 가지 다른 구현이 각각의 장단점과 함께 이 백서에 나와 있습니다.

초저전력 VAD(음성 활동 감지)

그림 1에 표시된 아키텍처는 웨이크 트리거를 제공하는 아날로그 마이크 및 아날로그 비교기를 포함하여 아날로그 신호 경로를 사용하는 초저전력 VUI를 지원합니다. 음향 활동이 감지되면 아날로그 신호 체인은 음성 캡처를 위해 오디오 프로세서를 깨우기 위해 인터럽트를 생성합니다. 이 장치에는 사용자가 버튼을 눌러 오디오 프로세서를 깨우는 "푸시 투 토크(push-to-talk)" 기능도 포함될 수 있습니다.

아날로그 웨이크 마이크는 항상 환경에 귀를 기울여야 하므로 이 마이크는 비교기와 함께 매우 적은 전력을 소비해야 합니다. 가장 단순한 웨이크업 트리거 모드에서 전력 소비가 1mW 미만이고 고급 오디오 처리를 위한 1MB 메모리가 있는 효율적인 오디오 프로세서의 예는 Knowles IA8201입니다. 그림 1에 설명된 접근 방식은 원격 제어 및 웨어러블과 같은 장치에서 항상 켜져 있는 VUI를 위한 간단한 저전력 AAD(음향 활동 감지) 접근 방식을 제공하지만 한계가 있습니다. 이 구현은 모든 음향 신호에 대해 오디오 프로세서를 깨우고 시끄러운 상황에서 높은 전체 시스템 전력 소비로 이어질 수 있습니다. 또한 클라우드로 연결된 음성 사용자 인터페이스 시스템은 깨우기 단어 감지의 정확도를 높이기 위해 깨우기 단어 직전에 오디오 데이터를 캡처해야 합니다. 이는 일반적으로 프리롤이라고 하며 Alexa 지원 장치 및 기타 스마트 스피커 장치의 필수 요구 사항입니다.

그림 2는 스마트 스피커와 같은 장치의 프리롤 버퍼링을 지원하는 아키텍처를 보여줍니다. 이러한 장치는 일반적으로 더 큰 배터리를 사용하거나 한 번 충전으로 몇 개월 동안 배터리 수명이 필요하지 않을 수 있습니다. VUI 시스템은 항상 켜져 있고 환경을 듣고 원형 버퍼에 프리롤을 녹화합니다. 프리롤의 길이는 일반적으로 오디오 데이터의 500ms 정도이며 주변 소음 수준을 보정하는 데 사용됩니다.

상시 가동형 프런트 엔드 아키텍처를 설계하는 데에는 몇 가지 다른 접근 방식이 있습니다. 오디오 프로세서의 선택은 사용하는 마이크의 수와 마이크가 아날로그인지 디지털인지에 따라 다릅니다.

위에 표시된 아키텍처는 음성 활동 감지에 Knowles IA611, 빔포밍에 SPH0655LM4H-1 Cornell II 디지털 마이크, 오디오 처리에 Knowles IA8201을 사용합니다. Knowles IA611은 다음 섹션에서 설명하는 것처럼 시스템 설계자에게 이점을 제공하는 스마트 마이크입니다.

마이크 선택

그림 1에 표시된 아키텍처에서 단일 아날로그 마이크와 비교기는 음향 활동이 감지될 때 오디오 프로세서를 깨우기 위한 트리거 입력으로 사용됩니다. 웨이크 마이크는 신호 대 잡음비(SNR)가 62dB 이상인 저전력 아날로그 마이크여야 합니다. Knowles SiSonic MEMS 마이크 포트폴리오는 웨이크 마이크를 위한 몇 가지 선택을 제공합니다. 예를 들어 SPV1840LR5H-B Kaskade 아날로그 마이크는 ON일 때 45µA만 소비하는 좋은 선택입니다. 마이크, 증폭기 및 비교기를 포함하여 항상 켜져 있는 아날로그 경로는 67µA 미만을 소비합니다. 시장에는 매우 낮은 상시 전원(10µA)을 제공하는 압전 마이크가 있지만 일반적으로 시스템 성능에 영향을 줄 수 있는 SNR이 낮습니다.

그림 2에 표시된 프리롤 버퍼링 가능 아키텍처의 경우, Knowles IA611과 같이 내장형 오디오 프로세서와 2초의 순환 버퍼에서 음성 데이터를 지속적으로 캡처하기에 충분한 메모리가 있는 마이크는 상시 작동 음성 활동을 위한 실행 가능한 옵션입니다. 발각. 또한 Amazon의 Alexa와 같은 이식된 음성 트리거 및 명령의 에코시스템과 함께 제공됩니다. 키워드가 감지되면 프리롤 버퍼와 발화된 음성 오디오가 모두 클라우드 자동 음성 인식(ASR) 엔진으로 전송됩니다. IA611의 상시 작동, 음성 깨우기 전력은 배터리 1.8V에서 0.39mA이고 효율은 90%이므로 Bluetooth 스피커와 같이 배터리로 작동되는 장치의 음성 사용자 인터페이스에 적합합니다. 이 장치는 또한 디지털 마이크의 PDM 입력을 받아들이고 시스템이 깨어나면 오디오를 통과하여 호스트 BT-SoC 프로세서에서 빔포밍을 지원하는 데 사용할 수 있습니다.

이 상시 전원은 프리롤 애플리케이션에 적합하지만 그림 1과 같이 프리롤이 아닌 아키텍처에서도 고려할 가치가 있습니다. 앞에서 설명한 것처럼 아날로그 웨이크 마이크는 들어오는 소리에 대해 트리거하고 전원을 켭니다. 오디오 프로세서. 이것은 TV가 켜져 있을 때와 같이 많은 스퓨리어스 웨이크가 발생하여 상당한 전력 낭비를 초래하는 시끄러운 환경에서 문제가 될 수 있습니다. 저전력 아날로그 웨이크 마이크 대신 음성 활동 감지를 사용하면 키워드가 감지될 때만 시스템이 켜집니다. 시끄러운 환경에서 음성 활동 감지 마이크를 사용하는 것이 단순한 아날로그 웨이크 마이크보다 더 효율적인 이유를 보는 것은 논리적입니다.

그림 3은 IA611에서 VAD를 사용하는 일반적인 TV 리모컨의 배터리 수명과 경쟁적인 압전 저전력 AAD 마이크 및 오디오 프로세서의 배터리 수명을 다양한 음향 활동 ON 시간에 대해 비교한 시뮬레이션 데이터를 보여줍니다. TV나 기타 가전 제품이 켜져 있을 때 또는 기타 상황에서 옹알이 등이 있을 때 음향 활동이 있을 수 있습니다. 그림 3에서 볼 수 있듯이 약 3시간에 교차 지점이 있으므로 아날로그 AAD를 사용하는 전력 이점이 있습니다. 경쟁사의 마이크 대 IA611의 음성 활동 감지가 사라집니다.

5시간의 음향 활동 ON 시간에서 음성 활동 감지 솔루션은 경쟁 AAD 기반 솔루션에 비해 8일의 추가 배터리 수명을 제공합니다. 2017년 Nielsen 연구에 따르면 미국 성인은 하루에 거의 8시간 동안 TV를 시청했습니다. 스마트 TV, 게임 콘솔 및 기타 멀티미디어 장치와 같은 인터넷 연결 장치에 대한 수요가 증가함에 따라, 일반적인 미국 가정에서 음향 활동 시간도 계속 증가할 것입니다. 지능형 VAD 기반 웨이크업을 사용하면 시스템 설계자가 보다 전력 효율적인 VUI 시스템을 개발하는 데 도움이 됩니다.

결론

스마트 홈, 호텔, 디지털 작업 공간, 음성 결제, 지능형 에너지 관리, 에지에서의 음성 및 의료, 생산 현장을 변화시키는 산업용 IoT 애플리케이션에 이르기까지 음성은 유연성, 효율성, 지속 가능성 및 신기술에 대한 채택 수용을 추가합니다.

마이크 섹션과 함께 음성 사용자 인터페이스 설계를 위한 다양한 하드웨어 아키텍처는 각각 최종 장치의 응용 프로그램 및 디자이너 기본 설정에 따라 약간 다른 요구 사항을 제공합니다. 예를 들어 Alexa 지원 기기와 스마트 스피커에는 프리롤 버퍼링 가능 아키텍처가 필요합니다.

전자 엔지니어와 설계자는 최종 장치가 음성, 액세스하려는 기능을 활용하는 방법을 신중하게 평가하고 그에 따라 올바른 아키텍처와 마이크 구성 요소를 결정하는 것이 중요합니다.

라지 센구투반 Analog Devices 및 Texas Instruments를 비롯한 기업의 소비자 및 산업 응용 프로그램, 초기 단계 비즈니스 개발 및 프로젝트 관리를 위한 신기술 개발 분야에서 15년 이상의 경력을 보유하고 있습니다. Knowles의 전략 마케팅 이사로서 시스템 수준 개발, 벤처 투자 및 파트너십 추진, IoT 및 오디오 프로세서, 알고리즘, 마이크, 센서 및 수신기를 포함한 소비자 기술에 대한 마케팅 전략을 지휘합니다. Raj는 Cornell University에서 MBA를 취득하고 Georgia Institute of Technology에서 전기 공학 박사 학위를 취득했습니다.

관련 콘텐츠 :

<울>

코딩 없이 마이크로컨트롤러에 음성 추가

맞춤형 음성 에이전트로 전환한 배경은 무엇입니까?

음성 생체 인식 솔루션은 인증을 목표로 합니다.

AI는 오디오 체인에서 목소리를 찾습니다.

음성 비서가 '정상 작동'하게 만드는 광범위한 신호 처리 체인

개발 키트로 Alexa 통합 속도 향상

더 많은 Embedded를 보려면 Embedded의 주간 이메일 뉴스레터를 구독하세요.

비전 기반 운전자 모니터링 시스템이 주목받고 있습니다 Sony, 자동차 라이더용 단일 칩에 SPAD 센서 및 로직 스택

감지기