음성 제어의 알고리즘 및 하드웨어 성능 향상

음성 제어 및 음성 인터페이스는 거의 모든 소비자 에지 장치 범주에 거침없이 침투하기 시작했습니다. 음성 인식 알고리즘과 AI 가속기 하드웨어 모두의 발전으로 인해 스마트 홈 장치(심지어 일부 멍청한 장치)와 같이 전력 및 비용이 제한된 응용 프로그램에서도 이 기술에 액세스할 수 있습니다.

사용자 측에서 스마트 홈 장치의 음성 제어 뒤에 있는 동인은 분명합니다.

알리레자 케나사리-안하리(출처:PicoVoice)

PicoVoice의 CEO인 Alireza Kenarsari-Anhari는 EE Times에 "사용 용이성과 편의성이 현재 주요 동인입니다."라고 말했습니다. 커피가 먹고 싶을 때 책상에서 사무실의 커피 메이커에게 소리를 지르거나 젖은 세탁물 바구니를 들고 회전식 건조기에 명령을 내리는 것을 상상하기 쉽습니다.

휴대할 수 없는 이와 같은 스마트 장치는 가정의 WiFi 연결에 영구적으로 액세스할 수 있다고 가정합니다. 따라서 클라우드에서 이 음성 처리를 수행하는 것이 어떻겠습니까?

이러한 상황에서 엣지 AI에 대한 추세는 주로 개인 정보 보호에 의해 주도되며 Kenarsari-Anhari는 소비자의 우려 사항이지만 일부 기업의 필수 요소라고 말합니다. 신뢰성은 또 다른 동인입니다. "WiFi가 작동하지 않으면 세탁기가 작동을 멈추는 것이 말이 됩니까?" 그는 말했다.

특정 상황에서는 대기 시간도 중요합니다. 일부 애플리케이션은 게임과 같은 음성 워크로드 처리를 위해 실시간 보장이 필요합니다.

클라우드에서 이 음성 데이터를 처리하는 데 비용이 들기 때문에 비용은 음성 에지 처리의 또 다른 큰 동인입니다. Cloud API를 사용할 때마다 지불하는 비즈니스 모델은 비용이 저렴하고 하루에 여러 번 사용할 수 있는 가전 제품 및 가전 제품과 같은 사용 사례에서는 작동하지 않습니다.

AI 음성-텍스트 추론 엔진이 1달러 미만의 마이크로컨트롤러에서 클라우드와 독립적으로 실행되도록 설계된 PicoVoice는 다른 방법으로는 가능하지 않은 애플리케이션에서 음성 제어를 가능하게 하는 것을 목표로 합니다. 여기에는 마이크로컨트롤러 기반 음성 솔루션으로 구현될 수 있는 전력 효율성과 비용 효율성이 필요한 교차점에 있는 소비자 웨어러블 및 히어러블이 포함될 수 있습니다. Kenarsari-Anhari는 전력 및 비용에 최적화된 솔루션이 산업, 보안 및 의료 응용 분야에서도 기회를 열어줄 수 있다고 말합니다.

이 회사는 최근 회사의 모델 생성 소프트웨어인 PicoVoice Console과 함께 작동하는 마이크로 컨트롤러에서 음성 애플리케이션을 빌드하기 위한 코드 없는 플랫폼인 Shepherd를 출시했습니다. Shepherd는 ST 및 NXP의 인기 있는 Arm Cortex-M 마이크로컨트롤러를 지원하며 다른 장치도 지원합니다.

"저는 음성을 인터페이스로 생각합니다. 코딩 없이, 아마도 WordPress를 사용하여 GUI나 웹사이트를 구축할 수 있다면 유사한 방식으로 음성 인터페이스를 구축하는 것이 논리적인 다음 단계입니다."라고 Kenarsari-Anhari가 말했습니다. “Shepherd는 제품 관리자와 UX 디자이너가 프로토타입을 만들고 빠르게 반복할 수 있도록 지원하지만 목표 사용자 기반을 넓히는 것을 목표로 합니다. 모두가 자신만의 비서를 만들 수 있다면 어떨까요? Alexa가 아닌 원하는 이름을 지정하십시오! — 그리고 그들이 원하는 개성을 부여하십시오.”

전문 소프트웨어 없이 자연어 처리 모델을 개발하고 구현하는 것이 완벽하게 가능하지만 이 방법이 모든 사람에게 적합한 것은 아닙니다.

그는 "할 수 있다. 애플, 아마존, 구글, 마이크로소프트가 해냈다"고 말했다. "기업에 자원이 있고 조직을 구축하기 위해 최선을 다하고 있으며 몇 년을 기다릴 여유가 있는지 여부가 중요합니다."

미래 동향

음성은 차세대 기술 사용자가 선호하는 인터페이스가 되고 있다고 Syntiant의 CEO인 Kurt Busch는 지난 여름 EE Times와의 인터뷰에서 말했습니다.

커트 부시(출처:Syntiant)

Busch는 읽을 수는 있지만 아직 쓰기와 철자를 쓰기에는 너무 어린 막내 아이가 스마트폰의 음성 인터페이스를 사용하여 친구들과 문자 메시지를 보낼 수 있었던 방법을 설명했습니다.

부시는 “형들이 문자를 보내지만 그의 세대는 그들보다 몇 년 일찍 전화기를 얻었다”고 말했다. "시간이 지남에 따라 그의 세대 이하의 기본 인터페이스는 대화하는 것입니다."

Busch의 견해는 음성이 "미래의 터치 스크린"이 될 것이며, 기기 내 처리를 통해 처음에는 키보드나 마우스가 있는 기기에서 빠르고 반응이 빠른 인터페이스를 제공하고 그 다음에는 백색 가전 제품으로 전환될 것입니다.

Syntiant의 칩은 전력 예산이 낮거나 매우 낮은 소비자 전자 장치의 음성 AI 워크로드를 처리하도록 설계된 전문 AI 가속기입니다. 이 스타트업은 현재까지 전 세계적으로 천만 개 이상의 칩을 출하했으며 대부분은 항상 켜져 있는 키워드 감지를 가능하게 하기 위해 휴대전화에 사용되었습니다. 최신 Syntiant 칩인 NDP120은 "OK Google"과 같은 핫 단어를 인식하여 280µW 미만에서 Google 어시스턴트를 활성화할 수 있습니다.

미래에 Busch는 음성 제어를 통해 모든 사람이 기술에 연결하고 액세스할 수 있을 것으로 기대합니다.

"우리는 음성을 기술의 위대한 민주화자로 보고 있습니다."라고 Busch는 말했습니다. “세상에는 하루 2달러로 살아가는 30억 명의 사람들이 있습니다. 내 가정은 그 사람들이 인터넷에 접속할 수 없고 교육 시스템을 통하지 않았을 수도 있다는 것입니다. 여기에서 자연스러운 인터페이스는 [음성]입니다. 이것이 오늘날 기술과 상호 작용하지 않는 세 번째 세계에 기술을 도입하는 방법입니다. 우리는 비용 측면에서뿐만 아니라 안락한 측면에서도 이전에 액세스할 수 없었던 사회 부분을 확보하기 위해 음성 우선 응용 프로그램에 대해 개발도상국에서 많은 관심을 보였습니다.”

시장 세분화

Knowles의 IoT 수석 이사인 Vikram Shirastava는 음성만큼 빠르게 성장하는 시장의 위험은 급격히 파편화될 수 있다는 점이라고 EE Times에 밝혔습니다.
Vikram Shrivastava(출처:Knowles)

“어떤 음성 인식 엔진을 사용하느냐에 따라 시장이 세분화된다.” 쉬라스타바가 말했다. “TV SoC와 통합하는지 아니면 마이크로웨이브와 같은 내부의 단순한 MCU인지에 따라 시장이 세분화됩니다. 운영 체제 또는 음향 환경을 기반으로 단편화가 발생합니다. 가정에만 해당됩니까? 밖에 초인종인가? 일률적인 해결책은 있을 수 없습니다. 이러한 각 카테고리에서 공통 분모가 무엇인지 찾아보고 그에 따라 음성 통합을 해결하도록 노력해야 합니다.”

Knowles는 DSP 기반 음성 제어 솔루션을 보유하고 있으며, 이는 다양한 버티컬용 버전을 도입할 예정입니다. 그 접근 방식은 시장의 단편을 공통 분모를 가진 것으로 그룹화하는 것입니다. 예를 들어 홈 컨트롤, TV 사운드바 및 리모컨은 동일한 그룹에 속할 수 있습니다. 그런 다음 해당 애플리케이션 그룹에 최적화된 솔루션을 개발합니다. Shirastava는 이 접근 방식을 "턴키보다 한 수준 아래"라고 부르며, 이는 턴키의 확장성을 제공하지만 약간의 유연성이 추가됩니다.

"우리가 추구하고자 하는 분야를 다룰 수 있도록 단편화의 특정 측면을 해결하는 몇 가지 다른 릴리스가 있어야 합니다."라고 그는 말했습니다.

Knowles의 최근 릴리스인 AISonic Bluetooth Standard Solution은 스마트 스피커, 스마트 홈 장치, 웨어러블 및 차량 내 음성 비서와 같은 Bluetooth 연결 장치의 음성 인식을 위한 개발 키트입니다. 이 키트는 애플리케이션 프로세서보다 훨씬 낮은 전력으로 신경망 처리를 위해 특별히 설계된 Knowles의 IA8201 듀얼 코어 DSP 실리콘을 기반으로 합니다. 예를 들어 이 칩은 키워드 스포팅, 소스 분류, 빔 형성, 음향 반향 제거(AEC) 및 소스 방향 추정을 위한 별도의 AI 모델을 50mW 미만에서 동시에 처리할 수 있습니다. 이것은 Tensilica DSP 코어에서 오디오 및 AI 처리를 위한 거의 400개에 달하는 사용자 지정 명령어의 명령어 세트 확장으로 가능하며, 이를 통해 전력을 절약하기 위해 클럭 주파수를 줄일 수 있습니다.

Sugr의 iOttie Aivo Connect 차량용 스마트폰 홀더는 차량 내 음성 기능을 위해 Knowles의 IA8201을 사용합니다. Alexa 음성 비서 기능이 내장되어 있습니다. (출처:Knowles)

음성은 결국 대부분의 소비자 전자 제품에 대한 기본 사용자 인터페이스가 될 것입니까? 확실히 그렇게 보입니다. 고급의 효율적인 AI 음성 제어 알고리즘, 개발자가 음성을 쉽게 통합할 수 있도록 하는 개발 환경, 성장하는 에너지 및 비용 효율적인 하드웨어 솔루션 생태계가 결합하여 이 모든 것을 가능하게 했습니다.

>> 이 기사는 원래 자매 사이트인 EE에 게시되었습니다. 시간.

Bluetooth SoC를 특징으로 하는 스마트 배지 참조 디자인 기기 대기 전력 최소화

사물 인터넷 기술