특수 프로세서로 엔드포인트 AI 워크로드 가속화

AI 및 ML 애플리케이션의 가속화는 여전히 비교적 새로운 분야이지만 거의 모든 신경망 워크로드를 가속화하기 위해 다양한 프로세서가 등장하고 있습니다. 프로세서 거물부터 업계의 최신 신생 기업에 이르기까지 모두 다른 수직 시장, 애플리케이션 영역, 전력 예산 또는 가격대를 대상으로 하는 것과 상관없이 모두 다른 것을 제공합니다. 다음은 현재 시장에 나와 있는 제품의 스냅샷입니다.

애플리케이션 프로세서

인텔 Movidius 미리어드 X
2016년 인텔이 인수한 아일랜드 스타트업 Movidius가 개발한 Myriad X는 회사의 3세대 비전 처리 장치이며 전용 신경망 컴퓨팅 엔진을 갖춘 최초의 제품으로 초당 1테라 작업(TOPS)을 제공합니다. 심층 신경망(DNN) 컴퓨팅. 신경 컴퓨팅 엔진은 데이터를 전송할 때 메모리 병목 현상을 방지하기 위해 처리량이 많은 지능형 메모리 패브릭과 직접 인터페이스합니다. FP16 및 INT8 계산을 지원합니다. Myriad X는 또한 16개의 독점 SHAVE 코어 클러스터와 업그레이드 및 확장된 비전 가속기를 특징으로 합니다.

Myriad X는 USB 썸 드라이브 형태의 효과적인 평가 플랫폼인 Intel의 Neural Compute Stick 2에서 사용할 수 있습니다. 모든 워크스테이션에 연결하여 AI 및 컴퓨터 비전 애플리케이션을 전용 Movidius 하드웨어에서 매우 빠르게 실행하고 실행할 수 있습니다.

NXP Semiconductors i.MX 8M 플러스
i.MX 8M Plus는 VeriSilicon(Vivante VIP8000)의 전용 신경망 가속기 IP를 특징으로 하는 이기종 애플리케이션 프로세서입니다. 소비자 및 산업용 사물 인터넷(IIoT)의 엔드포인트 장치에서 추론을 위한 2.3 TOPS의 가속을 제공하여 다중 객체 식별, 40,000단어의 음성 인식 또는 의료 영상(초당 500개 이미지의 MobileNet v1)에 충분합니다.

신경망 프로세서 외에도 i.MX 8M Plus는 2GHz에서 실행되는 쿼드 코어 Arm Cortex-A53 하위 시스템과 Cortex-M7 실시간 하위 시스템도 갖추고 있습니다.

비전 애플리케이션의 경우 스테레오 비전용 고화질 카메라 2대 또는 12메가픽셀(MP) 카메라 1대를 지원하는 2개의 이미지 신호 프로세서가 있습니다. 음성의 경우 이 장치에는 음성 데이터의 사전 및 사후 처리를 위한 800MHz HiFi4 오디오 DSP(디지털 신호 프로세서)가 포함되어 있습니다.

NXP의 i.MX 8M Plus는 전용 신경망 가속기를 갖춘 회사 최초의 애플리케이션 프로세서입니다. IoT 애플리케이션용으로 설계되었습니다. (이미지:NXP 반도체)

XMOS xcore.ai
xcore.ai는 사물의 인공 지능(AIoT) 애플리케이션에서 음성 제어를 가능하게 하도록 설계되었습니다. 크로스오버 프로세서(애플리케이션 프로세서의 성능과 마이크로컨트롤러의 저전력 실시간 작동)인 이 장치는 음성 신호에 대한 기계 학습 추론을 위해 설계되었습니다.

I/O, DSP, 제어 기능 또는 AI 가속에 사용할 수 있는 논리 코어라고 하는 빌딩 블록에 자체적으로 구축된 XMOS의 독점 Xcore 아키텍처를 기반으로 합니다. 각 xcore.ai 칩에는 이러한 코어가 16개 있으며 설계자는 각 기능에 할당할 코어 수를 선택할 수 있습니다. 펌웨어의 논리적 코어에 다른 기능을 매핑하면 완전히 소프트웨어로 작성된 "가상 SoC"를 생성할 수 있습니다. XMOS는 머신 러닝 워크로드를 위해 Xcore에 벡터 파이프라인 기능을 추가했습니다.

xcore.ai는 3,200 MIPS, 51.2 GMACC 및 1,600 MFLOPS를 제공하는 32비트, 16비트, 8비트 및 1비트(이진화) 네트워크를 지원합니다. 1Mbyte의 임베디드 SRAM과 확장을 위한 저전력 DDR 인터페이스가 있습니다.

XMOS의 xcore.ai는 독점 아키텍처를 기반으로 하며 음성 처리 애플리케이션의 AI 워크로드를 위해 특별히 설계되었습니다. (이미지:XMOS)

자동차 SoC

텍사스 인스트루먼트 Inc. TDA4VM
자동차 첨단 운전자 지원 시스템(ADAS)용 Jacinto 7 시리즈의 일부인 TDA4VM은 전용 딥 러닝 가속기 온칩이 있는 TI의 첫 번째 SoC(시스템 온칩)입니다. 이 블록은 C7x DSP와 8 TOPS를 달성할 수 있는 자체 개발 MMA(Matrix Multiply Accelerator)를 기반으로 합니다.

SoC는 최대 8MP 또는 레이더, LiDAR 및 초음파 센서와 함께 4~6개의 3MP 카메라 조합으로 전면 장착 카메라의 비디오 스트림을 처리할 수 있습니다. 예를 들어 MMA는 자동 주차 대행 시스템에서 이러한 입력에 대한 센서 융합을 수행하는 데 사용될 수 있습니다. TDA4VM은 5W에서 20W 사이의 ADAS 시스템용으로 설계되었습니다.

이 장치는 아직 사전 제작 단계에 있지만 개발 키트는 현재 사용할 수 있습니다.

TI TDA4VM은 차량이 환경을 인식할 수 있도록 하는 복잡한 자동차 ADAS 시스템용입니다. (이미지:Texas Instruments Inc.)

GPU

Nvidia Corp. Jetson Nano
Nvidia의 잘 알려진 Jetson Nano는 엔드포인트 장치의 AI 애플리케이션을 위한 작지만 강력한 GPU(그래픽 처리 장치) 모듈입니다. Jetson 제품군(AGX Xavier 및 TX2)의 더 큰 구성원과 동일한 Maxwell 아키텍처를 기반으로 구축된 Nano 모듈의 GPU는 128개의 코어를 가지고 있으며 0.5TFLOPS의 성능을 제공하여 높은 수준의 여러 데이터 스트림에서 여러 신경망을 실행하기에 충분합니다. 회사에 따르면 해상도 이미지 센서. 사용 시 5W 정도만 소모합니다. 이 모듈에는 쿼드 코어 Arm Cortex-A57 CPU도 있습니다.

Nvidia 제품군의 다른 부품과 마찬가지로 Jetson Nano는 Nvidia의 신경망 가속 라이브러리 모음인 CUDA X를 사용합니다. 저렴한 Jetson Nano 개발 키트는 널리 사용 가능합니다.

Nvidia의 Jetson Nano 모듈에는 에지에서 AI를 위한 128개의 코어가 있는 강력한 GPU가 있습니다. (이미지:Nvidia Corp.)

소비자 공동 처리자

Kneron Inc. KL520
미국-대만 스타트업 Kneron의 첫 번째 제품은 스마트 홈, 보안 시스템 및 모바일 장치와 같은 애플리케이션에서 이미지 처리 및 얼굴 인식을 위해 설계된 KL520 신경망 프로세서입니다. 오늘날 이미지 처리에 일반적으로 사용되는 유형인 CNN(컨볼루션 신경망)을 실행하는 데 최적화되어 있습니다.

KL520은 0.3TOPS에서 0.5W(0.6TOPS/W에 해당)를 소비하며, 칩의 MAC 효율이 높다(90% 이상)를 감안할 때 정확한 안면 인식에 충분하다고 회사 측은 설명했다. 칩 아키텍처는 재구성 가능하며 다양한 CNN 모델에 맞게 조정할 수 있습니다. 이 회사의 보완 컴파일러는 또한 칩의 리소스 내에서 더 큰 모델을 실행하여 전력과 비용을 절약하는 데 도움이 되도록 압축 기술을 사용합니다.

KL520은 현재 구입할 수 있으며 제조업체 AAEON(M2AI-2280-520)의 가속기 카드에서도 찾을 수 있습니다.

Kneron의 KL520은 재구성 가능한 아키텍처와 영리한 압축을 사용하여 모바일 및 소비자 기기에서 이미지 처리를 실행합니다. (이미지:Kneron Inc.)

자이팔콘 라이트스피어 5801
소비자 가전 시장을 위해 설계된 Gyrfalcon의 Lightspeeur 5801은 4ms 대기 시간으로 224mW 전력 소비(12.6TOPS/W에 해당)에서 2.8TOPS를 제공합니다. 이 회사는 다른 아키텍처에 비해 특히 전력 효율이 높은 프로세서 인 메모리 기술을 사용합니다. 전력 소비는 실제로 50MHz에서 200MHz 사이의 클록 속도를 변경하여 클록 속도와 상쇄될 수 있습니다. Lightspeeur 5801에는 10MB의 메모리가 포함되어 있어 전체 모델이 칩에 들어갈 수 있습니다.

이 부품은 회사의 네 번째 생산 칩으로 이미 LG의 Q70 중급 스마트폰에 탑재되어 카메라 효과에 대한 추론을 처리합니다. USB 썸 드라이브 개발 키트인 5801 Plai Plug를 지금 구할 수 있습니다.

초저전력

에타 컴퓨트 ECM3532
Eta Compute의 첫 번째 생산 제품인 ECM3532는 IoT용 배터리 구동 또는 에너지 수확 설계에서 AI 가속을 위해 설계되었습니다. 이미지 처리 및 센서 융합의 상시 작동 애플리케이션은 100µW의 낮은 전력 예산으로 달성할 수 있습니다.

이 칩에는 Arm Cortex-M3 마이크로컨트롤러 코어와 NXP CoolFlux DSP의 두 가지 코어가 있습니다. 이 회사는 모든 클록 주기를 조정하는 독점적인 전압 및 주파수 스케일링 기술을 사용하여 두 코어에서 마지막 전력 한 방울까지 뽑아냅니다. 머신 러닝 워크로드는 코어 중 하나에서 처리할 수 있습니다(예:일부 음성 워크로드는 DSP에 더 적합함).

ECM3532의 샘플은 현재 이용 가능하며 양산은 2020년 2분기에 시작될 예정입니다.

Syntiant Corp. NDP100
미국 신생 기업인 Syntiant의 NDP100 프로세서는 전력이 부족한 애플리케이션에서 음성 명령에 대한 기계 학습 추론을 위해 설계되었습니다. 프로세서 인 메모리 기반 실리콘은 140µW 미만의 유효 전력을 소비하며 키워드 발견, 깨우기 단어 감지, 화자 식별 또는 이벤트 분류를 위한 모델을 실행할 수 있습니다. 이어버드, 보청기, 스마트워치, 리모콘 등 소비자 기기를 핸즈프리로 조작할 수 있는 제품이 될 것이라고 회사 측은 설명했다. 개발 키트를 지금 사용할 수 있습니다.

Syntiant의 NDP100 장치는 초저전력 애플리케이션의 음성 처리를 위해 설계되었습니다. (이미지:Syntiant Corp.)

GreenWaves 기술 GAP9
프랑스 신생 기업인 GreenWaves의 첫 번째 초저전력 애플리케이션 프로세서인 GAP9에는 9개의 RISC-V 코어로 구성된 강력한 컴퓨팅 클러스터가 있으며, 이 명령 세트는 소비 전력을 최적화하기 위해 크게 맞춤화되었습니다. 양방향 다중 채널 오디오 인터페이스와 1.6MB의 내부 RAM이 특징입니다.

GAP9은 배터리로 구동되는 IoT 장치에서 이미지, 소리 및 진동 감지를 위한 신경망 워크로드를 처리할 수 있습니다. GreenWaves의 수치에는 160 × 160 이미지에서 MobileNet V1을 실행하는 GAP9가 있으며, 채널 스케일링은 단 12ms 만에 0.25이고 전력 소비는 806μW/프레임/초입니다.

무선 포트폴리오를 강화하기 위한 Silicon Labs 온도/습도 센서는 엄격한 선형 응답을 제공합니다.

임베디드

감지기

클라우드 컴퓨팅

사물 인터넷 기술