음성 인터페이스의 민주화

역사 책에서는 음성 제어를 휴먼 머신 인터페이스에서 이루어진 가장 중요한 발전으로 볼 수 있습니다. 더 이상 타이핑하거나 가리키지 않고 원하는 것을 말하면 됩니다. 이 분야의 초기 진전은 스마트 스피커가 등장할 때까지 지체되었고, 그 때 우리가 가능한 것이 무엇인지 깨닫기 시작했습니다. 이제 휴대폰, 헤드셋, 히어러블 및 스마트 홈의 인식, 기능 및 애플리케이션 개선으로 경쟁이 시작됩니다. 오늘날 가장 널리 알려진 솔루션은 소수의 공급자가 제어하는 플랫폼과 서비스에 의존하지만 이는 변화하고 있습니다. 음성 활성화는 사용자 지정, 향상된 노이즈 내성, 저전력, 더 긴 범위를 통해 어디서나 포함할 수 있지만 음성 인식의 대형 플랫폼만큼 효과적입니다.

(출처:CEVA/Shutterstock)

이 기능이 중요한 역할을 하는 소비자 오디오 시장은 흥미로운 역사를 가지고 있습니다. FutureSource는 2008년부터 2012년까지 오디오 경험이 주로 스마트폰에 통합되면서 달러 거래량이 감소했음을 보여줍니다. 2012년부터 2014년까지 시장은 본질적으로 변동이 없었습니다. 그런 다음 2015년부터 2018년까지 주로 음성 활성화에 힘입어 15%의 CAGR로 다시 성장했습니다. Yole Développement는 앞으로 음성 인식이 주를 이루는 2023년까지 최소 30%의 CAGR을 예상합니다. . 이러한 성장의 대부분은 스마트폰에서 계속될 것이며 헤드셋 및 히어러블, 개인 비서 및 스마트 홈 기능(TV, 가전 제품 등)이 그 뒤를 잇습니다. 동일한 보고서는 소비자가 이 제어 방법에 더 익숙해짐에 따라 음성 제어가 훨씬 더 널리 보급될 스마트 오디오의 두 번째 단계에 진입하고 있다고 결론지었습니다.

어디에 배치되든 목표는 차별화를 강화하는 것입니다. 스마트폰이나 기타 배터리로 작동되는 장치에서 명백한 이점은 상시 청취를 지원한다는 것입니다. 명령을 내리기 전에 버튼을 누를 필요가 없습니다. 이를 위해서는 초저전력 트리거 워드 감지가 필요합니다. 이는 대기 전력을 최소화하기 위해 밀접하게 일치하는 소프트웨어가 있는 하드웨어를 의미합니다. 당연히, 귀하는 귀하의 지역 및 아마도 국제 시장에서도 강력한 침투를 얻기 위해 귀하의 브랜드에 대한 트리거 단어 또는 구문을 여러 언어로 개인화하려고 합니다. 요청을 풀기 위해 주요 음성 인식 공급자 중 하나에 후속 명령을 계속 전달할 수 있습니다. 아니면 아닐 수도 있습니다. 어플라이언스가 제한된 어휘에 대한 지원만 필요로 하는 경우 음성 인식 엔진을 해당 목표까지 확장할 수 있다면 제3자의 도움이 필요하지 않을 수 있습니다.

또 다른 중요한 요구 사항은 시끄러운 환경에서 인식 및 인증입니다. 음성 인식은 사물 인식에 존재하는 것과는 다른 문제를 제시합니다. 예를 들어 거실이나 자동차에는 사람이 말하는 소리, TV 및 독립적인 음악/라디오 소스, 실내외 소음, 방 표면이나 자동차 내부에서 발생하는 이 모든 것들의 에코 등 여러 음원이 있을 수 있습니다. 명령 소스를 격리하고, 에코를 제거하고, 배경 소음을 줄이려면 노이즈 억제와 함께 여러 마이크, 빔포밍 및 에코 제거에 따라 정교한 기술이 필요합니다.

이것이 요구 사항이며 자연스럽게 CEVA와 같은 사용 가능한 솔루션이 이러한 요구 사항을 해결할 준비가 되어 있습니다. 최근에 출시된 CEVA WhisPro™ 구문 인식 제품과 같은 솔루션은 CEVA DSP 플랫폼에서 실행되는 신경망 기반 소프트웨어를 사용합니다. WhisPro는 이미 "Alexa" 및 "OK Google"을 음성 트리거로 지원하며 교육에서 고객이 요청한 트리거를 지원하도록 사용자 지정할 수 있습니다. 다국어를 지원하며 여러 음성 트리거를 처리할 수 있습니다. 교육은 여러 잡음 배경으로 수행되므로 클라우드 검증 없이도 인식에 잡음 내성이 내장되어>95% 인식 및 시간당 1개 미만의 잘못된 수용을 제공합니다.

특수 음성 픽업 솔루션인 CEVA ClearVox™를 추가하여 개발자는 에코 제거 및 추가 노이즈 감소와 함께 향상된 원거리 음성 픽업을 위한 다중 마이크 지원 및 빔포밍을 달성할 수 있습니다. WhisPro와 ClearVox를 함께 사용하면 특히 시끄러운 환경에서 더 나은 거리(최대 7미터)에서 경쟁력 있는 트리거 인식을 제공합니다.

유발 나훔 는 오디오 및 음성 제품 라인에 대한 CEVA의 수석 제품 마케팅 관리자 역할을 합니다. Youval은 주요 기술 회사에서 마케팅, 시스템 아키텍처, ASIC 및 소프트웨어 도메인에 걸쳐 20년 이상의 다분야 경험을 제공합니다. 그는 장기적인 추세를 예상하고 기술 프로그램을 성공적으로 완료하도록 이끄는 데 열정적입니다. 시장 요구 사항, 제품 정의, 산업 표준 및 설계 혁신을 획기적인 제품으로 결합하는 데 매우 능숙합니다. Youval은 학사 학위를 보유하고 있습니다. 및 석사 Technion – Israel Institute of Technology에서 전기 공학 학사

리소스가 제한된 마이크로컨트롤러를 위한 효율적인 웹 서버 기술 IoT 성장 지속

사물 인터넷 기술