소프트웨어 및 하드웨어 기반의 자율주행 기술 개발업체인 헝가리의 AImotive는 자사의 aiWare3 신경망(NN) 하드웨어 추론 엔진 지적 재산(IP)을 주요 고객에게 선적하기 시작했습니다.
작년에 발표된 aiWare3P IP 코어는 고해상도 자동차 비전 애플리케이션을 위한 하드웨어 NN 가속기를 제공하며 ISO26262 ASIL A, B 이상의 인증된 하위 시스템 내의 구성 요소로 제공됩니다. SoC(System on Chip) 내에 배치하거나 독립형 NN 가속기로 배치할 수 있는 코어는 완전히 합성 가능한 RTL로 제공됩니다. 저수준 마이크로아키텍처는 다른 하드웨어 NN 가속기보다 호스트 CPU 또는 공유 메모리 리소스를 훨씬 적게 사용하도록 설계되었습니다.
차량 전자 플랫폼의 다양한 부분에서 사용되는 aiWare3P IP와 같은 전용 NN 가속기(출처:AImotive)
EE Times Europe과의 연설 AIMotive의 제안이 다른 솔루션과 어떻게 다른지에 대해 회사의 수석 고문인 Tony-King Smith는 대부분의 칩 플레이어가 연구실 환경에서 테스트한 GPU 및 SoC 기반 가속기에 대해 학계에서 이야기한다고 말했습니다. 현실 세계로. “결정적인 차이점은 가속기보다는 신경망의 원리를 이해해야 한다는 것입니다. 우리 솔루션에는 DSP나 NOC(Network on Chip)가 없습니다. aiWare는 자동차 추론용으로만 설계되었으므로 입력에서 출력까지 낮은 대기 시간을 제공할 수 있습니다.” 그는 새로운 코어의 RTL 출력이 향상되어 메인 CPU 하위 시스템이 해제되고 코어를 모든 가속기 SoC에 연결할 수 있다고 덧붙였습니다.
aiWare3P IP 코어는 더 큰 칩 설계를 위해 향상된 성능, 더 낮은 전력 소비, 더 큰 호스트 CPU 오프로드 및 단순한 레이아웃을 가져오는 기능을 통합합니다. 각 코어는 최대 50+ TMAC/s(>100 INT8 TOPS)를 제공할 수 있는 다중 코어 및 다중 칩 구현을 통해 2GHz에서 최대 16 TMAC/s(>32 TOPS)를 제공합니다. 센서가 풍부한 응용 프로그램. 코어는 AEC-Q100 확장 온도 작동을 위해 설계되었으며 사용자가 ASIL-B 이상의 인증을 획득할 수 있도록 하는 기능을 포함합니다.
IP 코어의 성능 확장성은 칩당 50TMAC/s(>100TOPS 이상)와 낮은 지연 지속 추론을 지원하는 저수준 마이크로 아키텍처의 결과입니다. 이것은 다른 하드웨어 NN 가속기보다 최대 100배 더 많은 온칩 메모리 대역폭을 특징으로 하는 고도로 병렬 메모리 중심 아키텍처와 함께 고도로 결정적인 데이터 흐름 관리를 위해 특허 받은 지상 설계를 사용하여 대규모 시스템에서 사용되는 복잡한 DNN에 대해 최대 95%의 지속적인 효율성을 보장합니다. 여러 HD 카메라와 같은 입력.
Khronos의 NNEF 및 개방형 표준 ONNX 입력을 지원하는 aiWare SDK는 DSP 또는 MCU의 저수준 프로그래밍 없이 바이너리를 직접 컴파일합니다. 여기에는 정확도 손실이 거의 또는 전혀 없는 FP32에서 INT8 양자화를 위한 자동화된 도구와 함께 증가하는 정교한 DNN 성능 분석 도구 포트폴리오가 포함됩니다. 후자는 소프트웨어 및 AI 엔지니어가 실험실에서 훈련된 NN을 aiWare 기반 생산 자동차 하드웨어 플랫폼에서 실행되는 효율적인 실시간 솔루션으로 마이그레이션하고 변환하는 데 도움이 되도록 설계되었습니다.
aiWare 하드웨어 IP를 포함한 자동차 AI 가속기의 빌딩 블록(출처:AImotive)
AImotive의 하드웨어 엔지니어링 수석 부사장인 Marton Feher는 다음과 같이 말했습니다. 이제 우리는 대량 생산 L2/L2+/L3 AI를 위한 자동차 업계에서 가장 효율적이고 강력한 NN 가속 솔루션 중 하나를 갖게 되었습니다.”
aiWare3P 하드웨어 IP는 다양한 L2/L2+ 생산 솔루션에 배치될 뿐만 아니라 보다 발전된 이기종 센서 애플리케이션 연구에 채택되고 있습니다. 고객은 곧 출시될 Apache5 이미징 에지 프로세서용 Nextchip과 고급 이기종 센서 융합 기능을 시연하기 위한 AImotive와의 협업 프로젝트용 ON Semiconductor를 포함합니다.
AImotiv는 aiWare3P IP 코어를 기반으로 하는 2020년 1분기 공개 벤치마크 결과에 대한 전체 업데이트를 발표할 것이라고 말했습니다. 이는 224×224 입력을 사용하는 비현실적인 공개 벤치마크가 아닌 카메라용 고해상도 입력과 같은 실제 애플리케이션을 반영하는 잘 제어된 벤치마크를 사용하여 공개 벤치마킹을 하겠다는 약속의 일부입니다.
호스트 CPU 개입 필요 없음
aiWare3P 하드웨어 IP의 새로운 기능에는 사전 최적화된 임베디드 활성화 및 풀링 기능의 훨씬 더 큰 포트폴리오에 대한 지원이 포함되어 호스트 CPU 개입 없이 대부분의 NN이 aiWare3P 코어 내에서 실행되도록 합니다. 실시간 데이터 압축, 특히 더 큰 입력 크기와 더 깊은 네트워크의 경우 외부 메모리 대역폭 요구 사항 감소 및 C-LAM 컨볼루션 엔진과 F-LAM 기능 엔진 간의 고급 교차 결합을 통해 중첩 및 인터리브 실행 효율성을 높입니다.
물리적 타일 기반 마이크로아키텍처는 모든 프로세스 노드에서 어려운 타이밍 제약을 최소화하여 대형 aiWare 코어의 물리적 구현을 보다 쉽게 가능하게 합니다. 논리적 타일 기반 데이터 관리는 캐시, NOC 또는 병목 현상을 생성하고 결정성을 줄이며 더 많은 전력 및 실리콘 영역 aiWare3P RTL은 2020년 1월부터 모든 고객에게 배송될 예정이며 업그레이드된 SDK에는 오프라인 평가 및 실시간 세분화된 타겟 하드웨어 분석을 위한 향상된 컴파일러 및 새로운 성능 분석 도구가 포함되어 있습니다.