2017년은 음성 인터페이스의 해입니까?

지난 몇 년 동안 자동 음성 인식(ASR)의 상당한 발전으로 인해 음성을 주요 인터페이스로 사용하는 장치와 응용 프로그램이 많이 생겼습니다. IEEE 스펙트럼 잡지는 2017년을 음성 인식의 해로 선언했습니다. ZDNet은 CES 2017에서 음성이 차세대 컴퓨터 인터페이스라고 보고했습니다. 그리고 많은 다른 사람들이 비슷한 견해를 공유합니다. 그렇다면 음성 인터페이스의 발전과 관련하여 우리는 어디에 있습니까? 이 게시물은 음성 인터페이스와 이를 가능하게 하는 기술의 현재 상태를 조사할 것입니다.

당신과 대화할 수 있는 기기가 몇 대입니까?
음성 활성화는 우리 주변에 있습니다. 거의 모든 스마트폰에는 항상 듣기 기능이 포함된 Apple iPhone 7 및 Samsung Galaxy S7과 같은 플래그십과 함께 음성 인터페이스가 있습니다. 대부분의 스마트워치는 Apple의 AirPod 및 Samsung의 Gear IconX와 같은 다른 웨어러블, 특히 히어러블뿐만 아니라 음성 활성화를 제공합니다. 이러한 장치의 대부분에는 다른 인터페이스를 통합할 수 있는 편리한 방법이 없으므로 음성을 이상적이고 필요한 솔루션으로 만듭니다. GoPro Hero 5와 같은 새로운 카메라는 음성 명령을 사용하여 조작할 수 있어 셀카에 좋습니다. 음성 인식 자동차 인포테인먼트 시스템은 필수품이 되어 운전 중 스테이션을 변경하는 것이 훨씬 더 안전합니다.

Amazon Echo는 CES 2017에서 경쟁하려는 Google Home과 다양한 유사 복제품이 선보인 대화식 비서 트렌드에 불을 붙였습니다. Alexa라는 Echo의 음성 서비스에는 몇 가지 기본 제공 기술이 포함되어 있습니다. 예를 들어, “Alexa, 농담 좀 해주세요”라고 말할 수 있습니다. (매우 곤혹스러운 전달), "Alexa, Warriors가 이겼나요?" (물론 그들은 그랬습니다) 또는 “2001:A Space Odyssey 영화에 출연한 Alexa?” (아무도 모르는 것 같습니다). 또한 "Alexa, 자폭 시퀀스 시작"이라고 말할 때의 응답과 같이 재미있는 부활절 달걀이 많이 있습니다. (Alexa의 이스터 에그 중 일부를 보여주는 이 비디오도 참조하십시오).

내장 기능 외에도 Alexa Skills Kit(ASK)를 사용하여 타사에서 Alexa에 새로운 기능을 추가할 수 있습니다. 이 ASK를 통해 개발자는 Alex가 더 많은 제품 및 서비스를 제어하고 상호 작용할 수 있도록 Alex에게 새로운 기술을 가르칠 수 있습니다. 예를 들어 이 동영상에서 볼 수 있듯이 한 사람이 자신의 아이로봇 룸바를 해킹하여 청소기 로봇을 제어하는 기술을 추가했습니다.

다른 Alexa 기술에는 다양한 식당에서 음식을 주문하거나 Uber를 부르는 것과 같은 유용한 기능과 마법의 8볼 질문, Seinfeld 퀴즈, 과일에 대한 새로운 사실 배우기와 같은 무작위 오락이 포함됩니다. Amazon과 Whirlpool 및 GE와 같은 회사 간의 협력은 세탁기, 냉장고, 램프 등과 같은 가전 제품을 제어하는 기능을 추가함으로써 스마트 홈에서 Alexa의 적성을 강화할 것입니다.

현재 아마존이 이 시장을 주도하고 있는 것으로 보이지만, 다른 업체들도 따라잡기 위해 엄청난 노력(및 투자)을 하고 있다. Mark Zuckerberg는 Morgan Freeman을 그의 인공 지능(AI) 음성 비서의 목소리로 영입했습니다. 어떻게 구축했는지 설명하는 메모에 따르면 Zuckerberg는 "Iron Man의 Jarvis처럼" 집을 운영하는 데 도움이 되는 간단한 AI로 애플리케이션을 개발하는 데 1년을 보냈습니다. (그는 이름도 Jarvis라고 지었습니다.) Jarvis는 자신의 목소리로 말하는 사람을 식별하고 얼굴도 인식하므로 Zuckerberg에 보고하는 동안 승인된 사람이 문에 들어올 수 있도록 합니다.

또 다른 흥미로운 경쟁자는 Azuma Hikari라는 홀로그램 캐릭터를 특징으로 하는 Gatebox라는 일본 Amazon-Echo와 유사한 장치입니다.

Amazon Echo에 대한 일본의 답변(출처:Gatebox)

이 장치는 단순한 스피커 위에 스크린과 프로젝터를 활용하여 가상 비서에 시각적, 청각적 생명을 불어넣습니다. 마이크 외에도 카메라와 동작 및 온도 센서가 있어 보다 전체적인 방식으로 사용자와 상호 작용할 수 있습니다.

원거리 음성 픽업은 어떻게 작동합니까?
방 반대편에서 음악을 재생하는 동안 기기는 어떻게 음성 명령을 듣고 이해합니까? 이 위업을 가능하게 하는 데 관련된 많은 구성 요소가 있지만 그 중 몇 가지가 가장 중요합니다. 첫 번째는 자동 음성 인식(ASR) 엔진으로, 기계가 우리가 만드는 소리를 실행 가능한 명령으로 변환할 수 있습니다. ASR 엔진이 제대로 작동하려면 깨끗한 음성 샘플을 수신해야 합니다. 이를 위해서는 간섭을 걸러내기 위해 노이즈 감소 및 에코 제거가 필요합니다. 다음은 원거리 음성 픽업을 가능하게 하는 가장 중요한 기술 중 일부입니다.

딥 러닝 이에 큰 역할을 합니다. 자연어를 이해하는 능력은 몇 년 전에 확립되었지만 최근의 개선으로 인간 수준에 가까워졌습니다. 심층 신경망(DNN)과 같은 학습 기반 기술을 사용하면 언어 처리 및 시각적 개체 인식이 모두 많은 테스트 사례에서 인간의 성능과 동등하거나 능가했습니다. DNN은 훈련 단계에서 방대한 데이터 세트를 사용하여 생성됩니다. 교육이 오프라인으로 수행된 후 DNN은 실시간으로 기능을 수행하는 데 사용됩니다.

적응형 빔포밍 강력한 음성 활성화 사용자 인터페이스의 핵심입니다. 노이즈 감소, 사용자가 말하는 동안 움직이는 경우 스피커 추적, 여러 사용자가 동시에 말할 때 스피커 분리와 같은 기능을 활성화합니다.

육각형 마이크 어레이를 사용한 빔포밍(출처:CEVA)

이 방법은 서로에 대해 고정된 위치에 여러 개의 마이크를 사용합니다. 예를 들어 Amazon Echo는 각 정점에 하나의 마이크가 있고 중앙에 하나의 마이크가 있는 육각형 레이아웃에서 7개의 마이크를 사용합니다. 다양한 마이크에서 신호 수신 사이의 시간 지연을 통해 장치는 음성이 어디에서 오는지 식별하고 다른 방향에서 오는 소리를 상쇄할 수 있습니다.

음향 반향 제거 자동 음성 인식을 수행하는 많은 제품이 자체적으로 소리를 생성하기 때문에 필요합니다. 예를 들어, 음악을 재생하거나 정보를 전달합니다. 이러한 작업을 수행하는 동안에도 장치는 사용자가 음악을 중단(바지인)하고 중단하거나 다른 작업을 요청할 수 있도록 들을 수 있어야 합니다. 계속 듣기 위해서는 기계가 스스로 생성하는 소리를 상쇄할 수 있어야 합니다. 이를 AEC(음향 반향 제거)라고 합니다.

음향 반향 제거(출처:CEVA)

AEC를 수행하려면 장치가 출력 데이터를 분석하거나 추가 전용 마이크를 사용하여 생성된 소리를 들어 소리를 인식해야 합니다. 기기 주변의 벽 및 기타 물체에서 반사되는 에코를 제거하는 데에도 유사한 기술이 적용됩니다.

DNN, 빔포밍 및 반향 제거 알고리즘 모델링을 위한 다중 마이크 개발 플랫폼(출처:CEVA)

또 다른 유형의 에코는 사용자 명령이 물체나 벽에서 반사될 때 자체적으로 생성됩니다. 이러한 예측할 수 없는 에코를 취소하려면 잔향 제거라는 또 다른 알고리즘이 필요합니다. 그런 다음 사운드가 필터링되고 기계가 사용자의 명령을 들을 수 있습니다.

오늘날의 음성 인터페이스는 완벽하지 않습니다.
한편으로, 2017년은 음성 인터페이스가 이미 얼마나 널리 보급되었는지를 고려할 때 음성 인터페이스에 있어 주목할 만한 해로 보입니다. 한편, 지난 몇 년간의 놀라운 발전에도 불구하고 아직 갈 길이 멉니다.

현재 대량 생산된 장치에서 음성 인터페이스를 구현하는 데는 많은 문제가 남아 있지만 이는 향후 칼럼의 주제가 될 것입니다. 다음 게시물에서는 오늘날의 음성 인터페이스를 괴롭히는 몇 가지 결함과 누락된 기능을 살펴볼 계획입니다. 꼭 시청하세요.

에란 벨레시 CEVA 오디오 및 음성 제품 라인의 제품 마케팅 관리자로 음성 트리거 및 모바일 음성에서 무선 오디오 및 고화질 홈 오디오에 이르기까지 다양한 솔루션을 제공합니다. Eran은 몰입감 넘치는 사운드의 매혹적인 세계에 사로잡혀 있지 않지만 수중 세계의 매혹적인 고요 속으로 프리다이빙하는 것을 좋아합니다.

FPGA 기반 프로젝트가 잘못되지 않도록 하는 방법 PCB 설계에서 RF 급전선 최적화

임베디드

감지기

클라우드 컴퓨팅

사물 인터넷 기술