하드웨어 가속기는 AI 애플리케이션을 지원합니다.

하드웨어 가속기(객체 분류와 같은 특정 작업을 수행하는 데 사용되는 특수 장치)는 다양한 AI 애플리케이션을 제공하는 SoC(시스템 온칩)에 점점 더 많이 내장되고 있습니다. 저전력, 더 짧은 대기 시간, 데이터 재사용 및 데이터 지역성을 제공하는 긴밀하게 통합된 맞춤형 프로세서를 만드는 데 도움이 됩니다.

먼저 AI 알고리즘을 하드웨어 가속하는 것이 필요합니다. AI 가속기는 AI 작업을 더 빠르게 처리할 수 있도록 특별히 설계되었습니다. 기존 프로세서에서는 불가능한 방식으로 특정 작업을 수행합니다.

또한 단일 프로세서는 AI 애플리케이션의 다양한 요구를 충족할 수 없으며 여기서 AI 칩에 통합된 하드웨어 가속기는 특정 워크로드에 대한 성능, 전력 효율성 및 대기 시간 이점을 제공합니다. 이것이 AI 가속기를 기반으로 하는 맞춤형 아키텍처가 AI 애플리케이션용 CPU 및 GPU 사용에 도전하기 시작한 이유입니다.

AI 칩 설계자는 무엇을 가속화할지, 어떻게 가속화할지, 그리고 그 기능을 신경망과 어떻게 상호 연결할지 결정해야 합니다. 아래는 진화하는 AI 워크로드에서 하드웨어 가속기의 사용을 정의하는 주요 산업 동향의 스냅샷입니다. 필연적으로 다양한 AI 칩 및 카드에 통합할 수 있는 AI 가속기로 시작됩니다.

AI 가속기 IP

하드웨어 가속기는 AI 칩에서 광범위하게 사용되어 훈련 및 추론 애플리케이션 모두에 대한 컴퓨터 비전 및 딥 러닝과 같은 데이터 집약적 작업을 세분화하고 가속화합니다. 이러한 AI 코어는 Caffe, PyTorch, TensorFlow와 같은 AI 프레임워크에서 신경망을 가속화합니다.

GTI(Gyrfalcon Technology Inc.)는 AI 칩을 설계하고 IP 라이선싱 모델을 통해 맞춤형 SoC 설계에 사용할 AI 가속기를 제공합니다. 캘리포니아 Milpitas에 기반을 둔 AI 신생 기업은 각각 에지 및 클라우드 애플리케이션을 위한 Lightspeeur 2801 및 2803 AI 가속기를 제공합니다.

Gyrfalcon은 이러한 하드웨어 가속기를 중심으로 AI 칩도 개발했으며 이로 인해 이러한 AI 가속기 IP가 실리콘으로 입증되었습니다. 회사의 에지 설계용 2801 AI 칩은 와트당 초당 9.3테라 작업(TOPS/W)을 수행하는 반면 데이터 센터 애플리케이션용 2803 AI 칩은 24TOPS/W를 제공할 수 있습니다.

IP 개발 도구 및 기술 문서와 함께 Gyrfalcon은 AI 설계자에게 모델 생성, 칩 평가 및 개념 증명 설계를 위한 USB 3.0 동글을 제공합니다. 라이선스 사용자는 Windows 및 Linux PC는 물론 Raspberry Pi와 같은 하드웨어 개발 키트에서 이 동글을 사용할 수 있습니다.

하드웨어 아키텍처

AI 가속기의 기본 전제는 가능한 한 적은 전력을 사용하면서 이전보다 더 빠르게 알고리즘을 처리하는 것입니다. 그들은 에지, 데이터 센터 또는 그 사이 어딘가에서 가속을 수행합니다. 그리고 AI 가속기는 ASIC, GPU, FPGA, DSP 또는 이러한 장치의 하이브리드 버전에서 이러한 작업을 수행할 수 있습니다.

이는 필연적으로 기계 학습(ML), 딥 러닝, 자연어 처리 및 기타 AI 워크로드에 최적화된 여러 하드웨어 가속기 아키텍처로 이어집니다. 예를 들어, 일부 ASIC은 GPU 또는 다른 ASIC에서 훈련될 수 있는 심층 신경망(DNN)에서 실행되도록 설계되었습니다.

AI 가속기 아키텍처가 중요한 이유는 AI 작업이 대규모로 병렬화될 수 있다는 사실입니다. 또한 AI 가속기 설계는 다중 코어 구현과 얽혀 있으며 이는 AI 가속기 아키텍처의 중요성을 강조합니다.

다음으로 AI 설계는 신경망의 효율성을 높이기 위해 특별히 제작된 가속기를 점점 더 추가하여 알고리즘을 더 미세하고 미세하게 분할합니다. 사용 사례가 구체적일수록 다양한 유형의 하드웨어 가속기를 세부적으로 사용할 수 있는 기회가 더 많아집니다.

여기에서 맞춤형 칩에 통합된 AI 가속기 외에도 가속기 카드가 클라우드 서버 및 온프레미스 데이터 센터의 성능을 높이고 대기 시간을 줄이기 위해 사용된다는 점을 언급할 가치가 있습니다. 예를 들어 Xilinx Inc.의 Alveo 가속기 카드는 CPU에 비해 데이터베이스 검색, 비디오 처리 및 데이터 분석을 근본적으로 가속화할 수 있습니다(그림 1 ).

그림. 1:Alveo U250 가속기 카드는 고급 CPU에 비해 실시간 추론 처리량을 20배 증가시키고 고급 GPU와 같은 고정 기능 가속기에 비해 2ms 미만의 대기 시간을 4배 이상 줄입니다. (이미지:Xilinx Inc.)

프로그래밍 가능성

AI 설계에는 많은 동적인 변화가 일어나고 있으며, 결과적으로 소프트웨어 알고리즘은 AI 칩을 설계하고 제조할 수 있는 것보다 빠르게 변화하고 있습니다. 이러한 경우 고정 기능 장치가 되는 경향이 있는 하드웨어 가속기의 핵심 과제를 강조합니다.

따라서 디자이너가 진화하는 요구 사항에 적응할 수 있도록 가속기에는 일종의 프로그래밍 가능성이 있어야 합니다. 프로그래밍 기능과 함께 제공되는 설계 유연성을 통해 설계자는 다양한 AI 워크로드 및 신경망 토폴로지를 처리할 수도 있습니다.

Intel Corp.은 이스라엘에 기반을 둔 프로그래밍 가능한 딥 러닝 가속기 개발업체를 약 20억 달러에 인수하여 AI 설계의 프로그래밍 가능성에 대한 이러한 요구에 부응했습니다. Habana의 교육용 Gaudi 프로세서와 추론용 Goya 프로세서는 프로그래밍하기 쉬운 개발 환경을 제공합니다(그림 2 ).

그림. 2:개발 플랫폼 및 도구가 Gaudi 교육 가속기를 사용하여 AI 칩 설계 속도를 높이는 방법입니다. (이미지:하바나)

최첨단 AI

AI 추론 시장이 AI 훈련보다 훨씬 더 크다는 것은 이제 분명해졌습니다. 그렇기 때문에 업계에서는 교육에서 추론에 이르는 광범위한 AI 워크로드에 최적화된 다양한 칩을 목격하고 있습니다.

이는 마이크로컨트롤러(MCU)를 AI 설계 영역으로 가져옵니다. 그렇지 않으면 대부분 강력한 SoC와 연관됩니다. 이러한 MCU는 AI 가속기를 통합하여 객체 감지, 얼굴 및 제스처 인식, 자연어 처리, 예측 유지보수와 같은 애플리케이션에서 리소스가 제한된 산업용 및 IoT 에지 장치에 서비스를 제공합니다.

NXP Semiconductors가 Cortex-M 기반 마이크로컨트롤러, 크로스오버 MCU 및 애플리케이션 프로세서의 실시간 하위 시스템에 통합하는 Arm의 Ethos U-55 microNPU ML 가속기를 예로 들어 보겠습니다. Ethos U-55 가속기는 Cortex-M 코어와 함께 작동하여 작은 설치 공간을 달성합니다. 고급 압축 기술은 전력을 절약하고 ML 모델 크기를 크게 줄여 이전에는 더 큰 시스템에서만 실행되었던 신경망을 실행할 수 있습니다.

NXP의 eIQ ML 개발 환경은 AI 설계자에게 오픈 소스 추론 엔진을 선택할 수 있는 기회를 제공합니다. 특정 애플리케이션 요구 사항에 따라 이러한 AI 가속기는 CPU, GPU, DSP 및 NPU와 같은 다양한 컴퓨팅 요소에 통합될 수 있습니다.

외부 플래시로부터 보안 부팅 보호 기능을 추가한 새로운 Microchip MCU 개발 보드로 IoT 클라우드 보안 연결 간소화

임베디드

감지기

클라우드 컴퓨팅

사물 인터넷 기술