가장자리에서 오디오 AI용 DSP 사용

리소스가 거의 무한대인 클라우드 서버에 국한되었던 머신 러닝은 대기 시간 단축, 비용 절감, 에너지 효율성, 개인 정보 보호 강화 등 다양한 이유로 에지 장치로 이동하고 있습니다. 해석을 위해 데이터를 클라우드로 전송하는 데 필요한 시간은 자율주행차의 보행자 인식과 같이 엄청나게 많을 수 있습니다. 클라우드로 데이터를 전송하는 데 필요한 대역폭은 물론 음성 명령에 대한 음성 인식과 같은 클라우드 서비스 자체의 비용은 말할 것도 없이 비쌀 수 있습니다.

에너지는 서버로 데이터를 주고받는 것과 지역화된 처리 사이의 절충점입니다. 기계 학습 계산은 복잡하고 효율적으로 실행되지 않으면 에지 장치의 배터리를 쉽게 소모할 수 있습니다. 또한 Edge 결정은 스마트폰의 음성으로 지시하는 민감한 이메일과 같이 사용자 개인 정보에 중요한 데이터를 기기에 보관합니다. 오디오 AI는 에지 추론의 풍부한 예입니다. 오디오 머신 러닝 사용 사례에 특화된 새로운 유형의 디지털 신호 프로세서(DSP)는 네트워크 에지에서 더 나은 성능과 새로운 기능을 구현할 수 있습니다.

Always-on 음성 깨우기는 에지에서 기계 학습의 초기 예 중 하나입니다. 다음 작업을 결정하기 위해 시스템의 나머지 부분을 깨우기 전에 "Hey Siri" 또는 "OK Google"과 같은 키워드를 듣는 것입니다. 이 키워드 감지가 일반 애플리케이션 프로세서에서 실행되면 100mW가 훨씬 넘을 수 있습니다. 하루 종일 이것은 스마트폰 배터리를 고갈시킵니다. 따라서 이 기능을 구현한 최초의 전화기에는 5mW 미만에서 실행할 수 있는 작은 DSP에 알고리즘이 이식되었습니다. 오늘날 이러한 동일한 알고리즘은 0.5mW 미만의 스마트 마이크에서 특수 오디오 및 기계 학습 DSP에서 실행할 수 있습니다.

에지 장치가 항상 켜져 있는 오디오 머신 러닝을 지원하면 저전력으로 음성 인식보다 더 많은 일을 할 수 있습니다. 그리고 근처에 있는 누군가가 소리를 지르거나 웃고 있는지 인식합니다. 이러한 유형의 기능은 에지 장치를 개선하고 사용자에게 혜택을 줄 수 있는 새롭고 정교한 사용 사례를 가능하게 할 것입니다.

에지에서 기계 학습 추론을 위한 최고의 성능과 에너지 효율성을 위해서는 광범위한 하드웨어 사용자 지정이 필요하며 가장 영향력 있는 기술이 표 1에 수집되어 있습니다. 이러한 기능을 구현하면 에지 기계 학습 추론 효율성이 향상됩니다.

신경망 추론에 필요한 대부분의 산술 연산은 행렬-벡터 곱셈입니다. 이는 머신 러닝 모델이 일반적으로 벡터로 표현되는 새로운 자극제에 적용되는 행렬로 표현되기 때문입니다. 에지 머신 러닝 추론을 개선하는 가장 일반적인 기술은 행렬-벡터 곱셈을 매우 효율적으로 만드는 것입니다. 융합 곱셈 다음에 누산(MAC)이 오는 것이 이 문제를 해결하는 일반적인 방법입니다.

표:에지 AI DSP를 만드는 영향력 있는 기술.

훈련 단계는 수치적 정밀도에 민감하지만 추론 단계는 낮은 정밀도(예:8비트)로 거의 동등한 결과를 얻을 수 있습니다. 정밀도를 제한하면 에지 계산의 복잡성을 크게 줄일 수 있습니다. 이러한 이유로 Intel 및 Texas Instruments와 같은 프로세서 회사는 제한된 정밀 MAC을 추가했습니다. Texas Instruments의 TMS320C6745는 사이클당 각각 8비트의 MAC 8개를 실행할 수 있습니다. 또한 Knowles의 오디오 DSP는 사이클당 8비트의 MACS 16개를 지원합니다.

훈련 단계와 추론 단계 모두 메모리 하위 시스템에 압력을 가합니다. 넓은 워드 너비에 대한 프로세서 지원은 이를 수용하기 위해 개선되는 경우가 많습니다. 인텔의 최신 고성능 프로세서에는 사이클당 512비트를 64개의 승수 어레이로 전송하는 것을 지원하는 AVX-512가 있습니다. Texas Instruments 6745는 64비트 버스를 사용하여 메모리 대역폭을 늘립니다. Knowles의 고급 오디오 프로세서는 128비트 버스를 사용하여 큰 칩 영역과 고대역폭 간의 균형을 잘 유지합니다. 또한 오디오 기계 학습 아키텍처(예:RNN 또는 LSTM)에는 피드백이 필요한 경우가 많습니다. 이는 데이터 의존성이 파이프라인 아키텍처를 지연시킬 수 있기 때문에 칩 아키텍처에 대한 추가 요구 사항을 가중시킵니다.

기존 기계 학습은 원시 데이터로 작동할 수 있지만 오디오 기계 학습 알고리즘은 일반적으로 스펙트럼 분석 및 기능 추출을 수행하여 신경망에 제공합니다. FFT, 오디오 필터, 삼각 함수 및 로그와 같은 기존 신호 처리 기능의 가속화는 에너지 효율성을 위해 필요합니다. 후속 작업은 쌍곡선 탄젠트로 구현된 시그모이드 또는 수정된 선형 단위(모든 음수가 0으로 변경된 절대값 함수)와 같은 다양한 비선형 벡터 작업을 종종 사용합니다. 이러한 정교한 비선형 작업은 기존 프로세서에서 많은 주기를 필요로 합니다. 이러한 기능에 대한 단일 주기 명령은 기계 학습 오디오 DSP의 에너지 효율성도 향상시킵니다.

요약하자면 머신 러닝과 오디오 처리에 특화된 고급 프로세서는 실시간 상시 에지 추론을 저렴한 비용으로 가능하게 하는 동시에 프라이버시를 유지합니다. 사이클당 여러 작업을 허용하고 더 넓은 메모리 버스가 저전력에서 고성능을 유지하도록 하는 명령어 세트 지원에 대한 아키텍처 결정을 통해 에너지 소비를 낮게 유지합니다. 기업이 에지에서 특수 컴퓨팅에 대한 혁신을 계속함에 따라 이를 활용하는 머신 러닝의 사용 사례는 증가할 것입니다.

Jim Steele은 Knowles Corp.의 기술 전략 부사장입니다.

>> 이 기사는 원래 다음 날짜에 게시되었습니다. 자매 사이트인 EE Times:"DSP에서의 머신 러닝:엣지에서 오디오 AI 활성화"

5G, Ai 및 IoT 에지 처리로 열 설계 우선순위 초저전력 시스템이 TinyML에 AI 희망을 고정시킵니다

사물 인터넷 기술