에지 AI에서 마이크로컨트롤러의 역할이 커지고 있습니다.

몇 년 전만 해도 머신 러닝(ML)과 딥 러닝(DL)은 게이트웨이, 에지 서버 또는 데이터에 의해 에지에서 실행되는 교육 및 추론과 함께 고급 하드웨어에서만 수행될 수 있다고 가정했습니다. 센터. 클라우드와 에지 간에 컴퓨팅 리소스를 분산하는 추세가 초기 단계였기 때문에 당시에는 유효한 가정이었습니다. 그러나 이 시나리오는 산업계와 학계의 집중적인 연구 개발 노력 덕분에 극적으로 바뀌었습니다.

그 결과 오늘날에는 ML을 수행하는 데 수조의 TOPS(초당 작업 수)를 제공할 수 있는 프로세서가 필요하지 않습니다. 점점 더 많은 경우에 최신 마이크로컨트롤러(일부는 ML 가속기가 내장되어 있음)가 ML을 에지 장치로 가져올 수 있습니다.

이러한 장치는 ML을 수행할 수 있을 뿐만 아니라 매우 낮은 전력 소비로 저렴한 비용으로 완벽하게 수행할 수 있으며 절대적으로 필요한 경우에만 클라우드에 연결할 수 있습니다. 간단히 말해서, 통합 ML 가속기가 있는 마이크로컨트롤러는 IoT의 모든 이점이 실현되는 데이터를 생성하는 마이크, 카메라 및 환경 조건을 모니터링하는 센서와 같은 센서에 컴퓨팅을 제공하는 다음 단계를 나타냅니다.

가장자리는 얼마나 깊습니까?

에지는 IoT 네트워크에서 가장 먼 지점으로 광범위하게 간주되지만 일반적으로 고급 게이트웨이 또는 에지 서버로 간주됩니다. 그러나 가장자리가 실제로 끝나는 곳은 아닙니다. 사용자 근처의 센서에서 끝납니다. 마이크로컨트롤러가 이상적으로 적합한 작업인 사용자 가까이에 최대한 많은 분석력을 배치하는 것이 논리적이 됩니다.

다양한 너비 승수의 MobileNet V1 모델 예제는 매개변수, 계산 및 정확도의 수에 대한 급격한 영향을 보여줍니다. 그러나 너비 승수를 1.0에서 0.75로 변경하면 TOP-1 정확도에 최소한의 영향을 주지만 매개변수 및 계산 수에는 상당한 영향을 미칩니다(이미지:NXP)

단일 보드 컴퓨터는 놀라운 성능을 발휘할 수 있고 클러스터에 있을 때 소형 슈퍼컴퓨터와 경쟁할 수 있기 때문에 에지 처리에도 사용할 수 있습니다. 그러나 대규모 애플리케이션에 필요한 수백 또는 수천 개에 배포하기에는 여전히 너무 크고 비용이 많이 듭니다. 또한 MCU는 밀리와트만 소비하고 코인 셀 배터리 또는 몇 개의 태양 전지로 전원을 공급할 수 있는 반면, 경우에 따라 사용 가능한 것 이상일 수 있는 DC 전원의 외부 소스가 필요합니다.

따라서 에지에서 ML을 수행하기 위한 마이크로컨트롤러에 대한 관심이 매우 뜨거운 개발 영역이 된 것은 놀라운 일이 아닙니다. TinyML이라는 이름도 있습니다. TinyML의 목표는 더 큰 플랫폼이나 클라우드가 아닌 리소스가 제한된 소형 저전력 장치, 특히 마이크로컨트롤러에서 추론 및 궁극적으로 교육을 실행할 수 있도록 하는 것입니다. 이를 위해서는 기능과 정확도를 크게 감소시키지 않으면서 이러한 장치의 비교적 적당한 처리, 저장 및 대역폭 리소스를 수용할 수 있도록 신경망 모델의 크기를 줄여야 합니다.

이러한 리소스 최적화 방식을 통해 장치는 정확도를 미세 조정하고 리소스 요구 사항을 줄이는 동시에 목적에 맞는 충분한 센서 데이터를 수집할 수 있습니다. 따라서 데이터가 여전히 클라우드(또는 아마도 먼저 Edge 게이트웨이로 전송된 다음 클라우드로 전송됨)로 전송될 수 있지만 상당한 분석이 이미 수행되었기 때문에 전송량이 훨씬 적습니다.

작동 중인 TinyML의 인기 있는 예는 고해상도 이미지를 캡처할 수 있지만 저장 공간이 제한적이고 이미지 해상도를 줄여야 하는 카메라 기반 물체 감지 시스템입니다. 그러나 카메라에 온디바이스 분석이 포함된 경우 전체 장면이 아닌 관심 개체만 캡처되고 관련 이미지가 적을수록 더 높은 해상도를 유지할 수 있습니다. 이 기능은 일반적으로 더 크고 더 강력한 장치와 관련이 있지만 작은 ML 기술을 사용하면 마이크로컨트롤러에서 가능합니다.

작지만 강력한

TinyML은 비교적 새로운 패러다임이지만 정확도 손실을 최소화하면서 추론(비교적 겸손한 마이크로컨트롤러 사용) 및 훈련(더 강력한 마이크로컨트롤러 사용)에 대해 이미 놀라운 결과를 산출하고 있습니다. 최근의 예로는 음성 및 얼굴 인식, 음성 명령 및 자연어 처리, 여러 복잡한 비전 알고리즘을 병렬로 실행하기 등이 있습니다.

실질적으로 말하자면, 이는 500MHz Arm Cortex-M7 코어와 28KB에서 128KB의 메모리를 갖춘 2달러 미만의 마이크로컨트롤러가 센서를 진정으로 지능적으로 만드는 데 필요한 성능을 제공할 수 있음을 의미합니다.

이 가격과 성능 수준에서도 이러한 마이크로컨트롤러는 AES-128, 여러 외부 메모리 유형 지원, 이더넷, USB 및 SPI를 포함한 다중 보안 기능을 갖고 있으며, 블루투스는 물론 다양한 유형의 센서를 포함하거나 지원합니다. Wi-Fi, SPDIF 및 I² C 오디오 인터페이스. 조금 더 투자하면 일반적으로 1GHz Arm Cortex-M7, 400MHz Cortex-M4, 2MB RAM 및 그래픽 가속 기능이 장치에 제공됩니다. 소비 전력은 일반적으로 3.3VDC 공급 장치에서 몇 밀리암페어 이하입니다.

기계 학습 사용 사례(이미지:NXP)

TOPS에 대한 몇 마디

단일 지표를 사용하여 성능을 정의할 때 소비자는 혼자가 아닙니다. 디자이너는 항상 그것을 하고, 마케팅 부서는 그것을 좋아합니다. 헤드라인 사양이 장치 간의 구분을 간단하게 하거나 그렇게 보일 수 있기 때문입니다. 고전적인 예는 수년 동안 클럭 속도로 정의된 CPU입니다. 다행히 디자이너와 소비자 모두에게 이것은 더 이상 사실이 아닙니다. 단 하나의 메트릭을 사용하여 CPU를 평가하는 것은 엔진의 레드라인으로 자동차의 성능을 평가하는 것과 유사합니다. 의미가 없는 것은 아니지만 다른 많은 요소가 함께 이러한 특성을 결정하기 때문에 엔진이 얼마나 강력한지 또는 자동차가 얼마나 잘 작동하는지와는 거의 관련이 없습니다.

불행히도 고성능 MPU 또는 마이크로컨트롤러 내의 가속기를 포함하여 초당 수십억 또는 수조 개의 연산으로 지정되는 신경망 가속기의 경우에도 마찬가지입니다. 다시 한 번 기억하기 쉬운 숫자이기 때문입니다. 그러나 실제로 GOPS와 TOPS는 상대적으로 무의미한 메트릭이며 실제 운영 환경을 나타내기 보다는 실험실에서 수행된 측정(의심할 여지 없이 가장 좋은 측정)을 나타냅니다. 예를 들어 TOPS는 메모리 대역폭의 한계, 필요한 CPU 오버헤드, 전처리 및 후처리, 기타 요소를 고려하지 않습니다. 실제 작동에서 특정 보드에 사용할 때의 성능과 같이 이러한 모든 요소와 기타 요소를 모두 고려할 때 시스템 수준 성능은 데이터시트의 TOPS 값의 50% 또는 60%일 수 있습니다.

이 모든 숫자는 작동해야 할 때 데이터를 사용할 수 있는 빈도가 아니라 하드웨어의 계산 요소 수에 클럭 속도를 곱한 것임을 알려줍니다. 데이터를 항상 즉시 사용할 수 있고, 전력 소모가 문제가 되지 않고, 메모리 제약이 존재하지 않고, 알고리즘이 하드웨어에 매끄럽게 매핑된다면 더 의미가 있을 것입니다. 그러나 현실 세계에는 그러한 이상적인 환경이 없습니다.

마이크로컨트롤러의 ML 가속기에 적용하면 메트릭의 가치가 훨씬 낮아집니다. 이러한 소형 장치는 일반적으로 1~3 TOPS의 값을 갖지만 여전히 많은 ML 애플리케이션에 필요한 추론 기능을 제공할 수 있습니다. 이러한 장치는 또한 저전력 ML 애플리케이션을 위해 특별히 설계된 Arm Cortex 프로세서에 의존합니다. 정수 및 부동 연산, 그리고 마이크로컨트롤러의 다른 많은 기능에 대한 지원과 함께 TOPS 또는 기타 단일 메트릭은 단독으로 또는 시스템에서 성능을 적절하게 정의할 수 없다는 것이 분명해졌습니다.

결론

스틸 및 비디오 카메라와 같은 센서에 직접 부착되거나 부착된 마이크로컨트롤러에 대한 추론을 수행하려는 욕구는 IoT 도메인이 에지에서 가능한 한 많은 처리를 수행하는 방향으로 이동함에 따라 이제 부상하고 있습니다. 그러나 마이크로컨트롤러 내에서 애플리케이션 프로세서와 신경망 가속기의 개발 속도는 빠르고 보다 능숙한 솔루션이 자주 등장하고 있습니다. 전력 소비나 크기를 크게 증가시키지 않으면서 마이크로컨트롤러의 애플리케이션 프로세서와 함께 신경망 처리와 같은 AI 중심 기능을 통합하는 추세입니다.

오늘날 모델은 더 강력한 CPU 또는 GPU에서 훈련된 다음 TensorFlow Lite와 같은 추론 엔진을 사용하여 마이크로 컨트롤러에서 구현되어 마이크로 컨트롤러의 리소스 요구 사항을 충족하도록 크기를 줄일 수 있습니다. 더 큰 ML 요구 사항을 수용하도록 쉽게 확장할 수 있습니다. 곧 추론뿐 아니라 교육도 수행할 수 있게 될 것입니다. 이러한 장치에서 마이크로컨트롤러를 더 크고 더 비싼 컴퓨팅 솔루션에 대한 훨씬 더 강력한 경쟁자로 효과적으로 만들 것입니다.

>> 이 기사는 원래 다음 날짜에 게시되었습니다. 자매 사이트인 EE Times.

유선 데이터 연결을 사용하여 까다로운 IoT 장치에 전원 공급 주요 산업 동향이 임베디드 디자인을 형성하고 있습니다

임베디드

감지기

클라우드 컴퓨팅

사물 인터넷 기술