오디오 에지 프로세서가 IoT 장치에서 음성 통합을 지원하는 방법

오디오 충실도 및 머신 러닝에 최적화된 코어는 고대역폭 인터넷 연결 없이 IoT 장치에 음성 사용자 인터페이스를 제공하는 핵심입니다.
음성 처리 기능은 iOttie Aivo Connect와 같은 소비자 제품에서 빠르게 부상하고 있습니다. (출처:Knowles)

홈 자동화 및 전자 상거래에서 의료 및 자동차에 이르기까지 더 많은 산업에서 IoT 기능을 음성 통합과 결합하여 변화하는 요구 사항을 충족하고 비즈니스 이점을 활용하고 있습니다. 그러나 음성은 아직 채택 초기 단계에 있으며 모바일 장치와 스피커를 넘어 확장되기 시작했습니다. 음성은 사용자와 IoT 장치 간의 표준 상호 작용 방법이 될 것입니다. 음성 우선으로의 이러한 전환은 기술을 통해 소비자의 편안함 수준을 높인다는 아이디어 그 이상에 의해 뒷받침됩니다. 이동 중 음성 검색을 위한 음성 지원 장치의 글로벌 이동성, 자연어 처리(NLP)의 발전, 인공 지능 및 기계 학습의 발전으로 인해 새로운 애플리케이션이 빠르게 발전할 수 있습니다.

즐겁고 매력적인 음성 상호 작용은 소음 및 기타 방해 요소가 있는 경우 일관된 음질로 인해 제한됩니다. 소리를 지능적으로 관리하는 장치의 능력은 의사 소통 능력을 만들거나 없애는 것입니다. 음성 사용자 인터페이스(VUI)는 오디오 및 비디오 장치, 백색 가전 제품을 포함한 더 많은 소비자 제품과 원격 제어, 웨어러블, 블루투스와 같은 광범위한 배터리 구동 장치에서 보편화될 것으로 예상됩니다. 스피커, 보안 및 야외 활동 카메라. 극복해야 할 설계 문제가 있지만 구성 요소 공급업체와 OEMS 모두가 이러한 애플리케이션 요구 사항을 충족하는 제품을 제공할 수 있는 큰 기회가 있습니다.

음성 통합 기회가 성숙함에 따라 최대한 활용하기 위해 더 많은 처리 기술이 클라우드에서 멀리 떨어진 에지로 이동하고 있습니다. 그 결과 비용과 대역폭 면에서 대기 시간이 단축되고 비용이 절감된 개선된 사용자 인터페이스가 나타납니다. 미래를 위한 IoT 지원 CE 솔루션을 설계하는 제조업체는 음성 통합을 제품 기능의 전제 조건으로 고려해야 합니다. 에지에서 전용 음성 처리를 배포할 수 있는 OEM은 이러한 애플리케이션을 확장하고 포트폴리오를 확장할 수 있습니다.

이 문서에서는 IoT 상시 연결/상시 수신 장치용 VUI 구현과 관련된 가장 일반적인 문제에 대해 설명합니다. 이 기사에서는 관련 요구 사항과 제어 인터페이스, 소프트웨어 스택, 알고리즘 개발 및 사용자 공간 응용 프로그램 개발과의 통합을 포함하여 이러한 요구 사항을 효과적으로 해결하는 데 필요한 설계 기능을 검토합니다.

오디오 에지 프로세서를 IoT 장치에 통합

오디오 충실도에 중점을 두고 머신 러닝에 최적화된 코어를 갖춘 전용 오디오 에지 프로세서는 고품질 오디오 통신 장치를 지원하는 열쇠입니다. 이러한 프로세서는 일반 프로세서 에너지의 적은 비율을 사용하면서 기존 및 ML 알고리즘을 사용하여 오디오를 처리하기에 충분한 컴퓨팅 성능을 제공할 수 있습니다. 그리고 처리가 기기에서 이루어지므로 해당 정보를 클라우드로 보내고 다시 보내는 것보다 훨씬 빠릅니다.

IoT 장치는 오디오 프로세서를 통합하여 음성 깨우기와 같은 풍부한 기능을 추가합니다. 클라우드가 몇 가지 큰 이점을 제공할 수 있지만 에지 처리를 통해 사용자는 고대역폭 인터넷 연결 없이도 언제든지 장치의 모든 기능을 활용할 수 있습니다. 예를 들어, 에지 오디오 프로세서는 상황 데이터가 포함된 오디오의 저지연 처리를 통해 가상 통신에서 우수한 사용자 경험을 가능하게 하는 동시에 상황 데이터를 로컬에서 안전하게 유지합니다.

통합 음성과 관련된 과제

음성 통화, 제어 및 상호 작용을 위한 응용 프로그램 기회는 계속 증가하고 있습니다. 그러나 장치가 많을수록 더 많은 단편화가 도입되어 음성을 통합하기가 더 어려워집니다. 블루투스 스피커, 가전제품, 헤드폰, 웨어러블, 엘리베이터 등 각 애플리케이션에 음성 제어를 통합하는 방법은 다를 것입니다. 음성 깨우기 트리거를 추가하는 것은 간단할 수 있지만 엔터프라이즈급 Bluetooth 스피커 및 헤드셋을 설계하는 것은 훨씬 더 복잡합니다. 해당 스피커에 진정한 무선 스테레오(TWS) 통합이 포함되어 있으면 복잡성이 다시 한 번 높아집니다.

또한 다양한 애플리케이션에는 다양한 에코시스템과의 음성 통합이 필요합니다. 예를 들어 대부분의 스마트 TV에서 음성을 구현하려면 Linux 에코시스템에서 작업해야 하지만 가전제품에서 음성을 얻으려면 마이크로컨트롤러(MCU) 에코시스템에서 작업해야 합니다. 이러한 모든 통합에는 일반적으로 권장되는 방법이 있지만 항상 변형이 있기 때문에 복잡성이 가중됩니다.

고품질의 대량 시장 개발 솔루션은 이러한 문제를 극복하고 빠르게 진화하는 작업, 생활 및 의사 소통 방식을 지원하기 위해 새로운 기술을 시장에 신속하게 출시하는 데 매우 중요합니다. 이러한 문제를 해결하려면 다양한 설계 요구 사항을 해결해야 하는 적합한 솔루션이 필요합니다.

주요 디자인 요구 사항 해결

전력 소비

VUI 장치가 명령을 수신하려면 항상 켜져 있거나 명령을 수신 대기해야 합니다. 이러한 장치가 연결되어 있는지 여부, 특히 배터리로 작동되는 경우 전력 소비 제한은 주요 설계 문제가 될 수 있습니다.

음성 명령 시스템에서 적어도 하나의 마이크는 항상 활성 상태여야 하며 깨우기 단어를 인식하는 프로세서도 활성 상태여야 합니다. 독점 아키텍처, 하드웨어 가속기 및 특수 명령어 세트로 설계된 오디오 에지 프로세서는 오디오 및 ML 알고리즘을 최적으로 실행할 수 있습니다. 이러한 최적화는 전력 소비를 줄이는 데 도움이 됩니다.

지연 시간

음성 활성화 장치의 대기 시간은 허용되지 않습니다. 200밀리초 이상의 지연이 감지되더라도 인간은 음성 통화로 서로 대화를 시작하거나 음성 비서에게 명령을 반복합니다. 필요한 소비자 수용을 얻을 수 있는 음성 통합 장치를 개발하려면 엔지니어와 제품 설계자가 업계 사양과 최상의 사용자 경험을 준수하도록 시스템 전체에 최적화된 오디오 체인을 제공해야 합니다. 따라서 에지 프로세서의 저지연 처리는 고품질 음성 통신을 보장하기 위한 중요한 요구 사항입니다.

통합

다양한 VUI 구현을 위한 하드웨어 및 소프트웨어 선택에 있어 많은 옵션이 있기 때문에 통합 단계의 다양한 지점에서 문제가 될 수 있는 요구 사항이 있습니다. 그 과정에서 고려해야 할 몇 가지 주요 설계 고려 사항은 아래에 설명된 사항을 포함합니다.

하드웨어 통합

VUI 시스템을 구현하기 위한 다양한 하드웨어 아키텍처는 장치 사용, 애플리케이션 및 생태계에 따라 다릅니다. 각 VUI 장치에는 오디오 캡처 및 처리를 위해 오디오 프로세서에 연결된 단일 마이크 또는 마이크 어레이의 마이크가 포함됩니다. Knowles의 최근 Embedded 기사에서 제 동료가 VUI 시스템 구현을 위한 하드웨어 아키텍처 고려 사항과 각각의 장단점을 검토했습니다.

호스트 소프트웨어 통합

위에서 언급했듯이 선택할 수 있는 다양한 운영 체제와 드라이버가 있습니다. 이상적으로 오디오 프로세서는 펌웨어 및 호스트 프로세서와 연결하도록 구성된 드라이버 세트와 함께 제공됩니다. Android 또는 Linux와 같은 운영 체제는 일반적으로 호스트 프로세서에서 실행됩니다.

커널 공간에서 실행되는 드라이버 소프트웨어 구성 요소는 제어 인터페이스를 통해 펌웨어와 상호 작용하고 오디오 에지 프로세서의 오디오 데이터는 표준 ALSA(Advanced Linux Sound Architecture) 인터페이스를 통해 사용자 공간에서 읽을 수 있습니다.

소프트웨어를 나머지 호스트 시스템과 통합하려면 소프트웨어 릴리스 패키지에 제공된 오디오 프로세서 드라이버를 커널 이미지에 연결하는 것이 복잡한 작업이 될 수 있습니다. 여기에는 드라이버 소스 코드를 커널 소스 트리에 복사하고, 일부 커널 구성 파일을 업데이트하고, 관련 하드웨어 구성에 따라 장치 트리 항목을 추가하는 작업이 포함됩니다.

이에 대한 솔루션은 정확하거나 유사한 구성으로 사전 통합된 표준 참조 설계를 사용하는 것입니다.

이상적인 상황에서 오디오 에지 프로세서는 통합을 위해 간소화된 소프트웨어 스택을 제공하고 프로세스를 더욱 단순화하기 위해 시스템 수준 솔루션으로 사전 통합되고 검증된 알고리즘과 함께 제공됩니다.

알고리즘 통합

우리는 알고리즘 통합의 주제에 대해 이야기하고 있습니다. 일반적으로 주어진 시간에 서로 다른 사용 사례 간에 전환하기 위해 계단식으로 배열되는 여러 알고리즘이 있습니다. 음성 깨우기의 경우에도 설계에는 다중 마이크 빔포머, 에지 음성 깨우기 엔진 및 클라우드 기반 검증이 필요합니다. 이는 성능을 최적화하기 위해 함께 작동하는 최소 3개의 알고리즘을 의미합니다. Alexa 또는 Google Home 키워드와 통합되는 모든 기기의 경우 하나의 기기에서 함께 최적화되어야 하는 여러 알고리즘이 있어야 하며 종종 다른 공급업체에서 제공됩니다.

한 가지 솔루션은 검증된 알고리즘이 사전 통합되어 있고 호스트 시스템과 독립적으로 개발 및 테스트된 오디오 에지 프로세서를 선택하는 것입니다.

폼 팩터 통합

오늘날 장치가 사용할 수 있는 많은 폼 팩터가 있습니다. 각각에는 설치된 여러 마이크의 고유한 구성이 있습니다. 마이크와 스피커의 거리와 배치는 성능에 큰 역할을 합니다. 성능 조정 및 최적화는 최종 폼 팩터 및 대상 사용 사례에 따라 변경되어야 합니다. 마이크 씰링, 장치의 음향 처리, 진동 감쇠 등과 같이 성능에 영향을 미치는 다양한 제조 방법도 있습니다.

개인정보

많은 오디오 프로세서는 깨우기 단어를 감지한 다음 즉시 정보를 클라우드로 전송하여 해석 및 조치합니다. 큰 문제는 오디오 데이터가 클라우드에 있으면 사용자가 데이터를 제어할 수 없으므로 높은 개인 정보 위험에 노출된다는 것입니다. 이 문제에 대한 해결책은 장치에서 "에지에서" 로컬로 명령 해석 및 응답 논리를 수행할 수 있는 에지 AI 프로세서를 선택하는 것입니다.

이렇게 하면 민감한 개인 오디오 데이터가 우리의 희망에 반해 사용될 수 있는 클라우드로 전송되지 않고 로컬에 머물 수 있습니다. VUI 구현은 이제 훨씬 더 비공개적일 뿐만 아니라 더 빠르게 응답할 수 있어 사용자 상호 작용이 훨씬 더 자연스럽습니다. 이것은 엣지 AI 프로세서가 기존 사용 사례를 발전시켜 우리가 매일 사용하고 신뢰하는 기기의 유용성을 극대화하는 방법을 보여주는 좋은 예입니다.

하드웨어 및 소프트웨어 인터페이스

VUI 구현을 위한 설계 요구 사항은 복잡할 수 있으며 음성 통합 기능이 있는 장치를 시장에 신속하게 출시하는 것이 어려울 수 있습니다. OEM 및 시스템 통합업체는 Knowles AISonic Bluetooth 표준 솔루션 키트와 같은 표준 솔루션 개발 키트를 사용하여 위험을 크게 줄일 수 있습니다. 이러한 키트는 설계자가 위에서 논의한 설계 문제에 대해 걱정할 필요 없이 자체 혁신을 개발할 수 있도록 하는 프로토타입을 위한 사전 구성된 시작점을 제공합니다. 설계자는 사전 통합되고 검증된 알고리즘, 사전 구성된 마이크 및 호스트 프로세서 및 운영 체제와 호환되는 드라이버가 있는 개발 키트를 찾아야 합니다.

아키텍처와 개발 환경을 여는 오디오 에지 프로세서는 오디오 애플리케이션 개발자에게 새로운 장치와 애플리케이션을 생성할 수 있는 도구와 지원을 제공함으로써 혁신을 가속화합니다. 미래의 오디오 장치는 공동 작업이 될 것입니다.

퍼즈 테스트가 IoT 장치 보안을 강화하는 방법 IoT 및 5G의 영향 평가

사물 인터넷 기술