산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Industrial Internet of Things >> 임베디드

AI 지원 SoC는 다중 비디오 스트림을 처리합니다.

Ambarella는 다중 또는 보안 카메라 및 스마트 시티 시스템의 단일 입력.

이미지 처리 전문업체 Ambarella는 회사의 CVflow AI 가속기 엔진으로 지원되는 새로운 AI 기능을 갖춘 단일 및 다중 센서 보안 카메라용 두 가지 새로운 SoC를 출시했습니다. 둘 다 4K 비디오 인코딩과 얼굴 인식 또는 번호판 인식과 같은 고급 AI 처리를 지원합니다.

CV5S SoC는 최대 8MP/4K 해상도의 4개 이미저 채널을 인코딩하는 다중 센서 카메라 시스템을 대상으로 하며, 각 4K 이미지 스트림에 대해 고급 AI를 수행하면서 각각 초당 30프레임으로 처리합니다. 최대 14개의 입력을 처리할 수 있습니다. SoC 제품군은 30% 적은 전력을 소비하면서 Ambarella의 이전 세대 제품의 인코딩 해상도와 메모리 대역폭을 두 배로 늘립니다. <5W를 소비하고 12 eTOPS(GPU 등가 TOPS, Ambarella가 동일한 AI 처리 작업을 실행하는 데 필요한 GPU 마력 양 측정)를 제공합니다.

다른 새로운 SoC인 CV52S는 단일 센서 카메라를 대상으로 하며 60fps에서 4K 해상도를 지원합니다. 이전 세대의 Ambarella SoC와 비교하여 이 새로운 장치는 AI 성능을 4배, CPU 처리량을 2배, 50% 더 많은 메모리 대역폭을 제공합니다. <3W를 소비하고 6 eTOPS를 제공합니다.

성능 향상은 Ambarella의 사내 CVflow AI 가속기 블록의 개선 및 확장과 함께 5nm 공정 노드로의 마이그레이션에서 비롯됩니다.

Ambarella의 마케팅 수석 이사인 Jerome Gigot은 "이 모든 신생 기업이 와트당 최고의 AI 성능을 가지고 있으며 그들이 옳을 수 있다고 말하는 모든 곳에서 오는 것을 볼 수 있습니다."라고 말했습니다. “하지만 그렇다고 해서 카메라가 되는 것도, 제품이 되는 것도 아닙니다. AI 액셀러레이터만 있다면 AI 액셀러레이터만 있으면 됩니다.”

Gigot은 4K 또는 8K 비디오를 위한 이미징 파이프라인이 복잡하여 많은 양의 데이터를 처리하고, 빅 데이터 볼륨을 인코딩하고, 이러한 데이터를 AI 처리를 위해 특수 블록으로 전송하면서 아마도 맨 위에서 Linux 스택을 실행할 수 있다고 언급했습니다. 이는 비디오 품질을 유지하면서 저전력 예산으로 달성하기 어렵습니다.


CV52S는 교통 모니터링 및 기타 스마트 시티 애플리케이션에서 볼 수 있는 것과 같은 단일 센서 설계를 대상으로 합니다(출처:Ambarella)

CVflow AI 가속기와 함께 새로운 두 SoC에는 색상 처리, 자동 노출, 자동 화이트 밸런스 및 노이즈 필터링과 같은 기능을 처리하는 Ambarella의 ISP(이미지 신호 프로세서)가 포함됩니다.

"이 블록은 우리가 16년 동안 개발해 왔습니다."라고 Gigot이 말했습니다. “그래서 스타트업은 아직 갈 길이 멀다고 생각합니다. [다른 곳에서 ISP 블록] 라이선스를 받을 수 있지만 메모리 액세스 및 기타 모든 측면에서 시스템의 나머지 부분과 실제로 통합되지 않습니다."

메모리 시스템은 회사의 핵심 IP 중 하나입니다.

“우리는 하나의 메모리 컨트롤러를 가지고 있으며 모든 것을 오케스트레이션하여 데이터를 온칩으로 얻을 수 있습니다. 우리는 사본을 만들지 않으려고 노력합니다.”라고 Gigot이 말했습니다. “우리는 포인터를 이리저리 옮기고 데이터를 옮기지 않습니다. 칩이 무엇을 할 것인지 정확히 알고 처음부터 전체 아키텍처를 설계하는 경우에만 가능합니다."

가속기 엔진

AI 가속기는 컨볼루션 및 기타 일반적인 AI 기능의 속도를 높이거나 고전적인 컴퓨터 비전 워크로드에 사용할 수 있는 벡터 프로세서입니다. 사용자는 신경망의 일부(예:단일 샷 감지기 네트워크의 알고리즘 정렬)를 실행하거나 온칩 듀얼 코어 Arm Cortex-A76 CPU를 통해 실행할 수도 있습니다.

소프트웨어 스택을 통해 응용 프로그램은 계수 희소성을 활용할 수 있습니다. 계수 희소성은 값이 0에 가까운 네트워크 계수를 0으로 내림하는 기술입니다. 이 접근 방식은 컴퓨팅 요구 사항을 크게 줄이기 위해 알고리즘에서 계산의 전체 "분기"를 "정리"할 수 있습니다.

희소화는 "계수가 0일 때 우리 아키텍처에서 연산을 수행하지 않고 건너뛰기 [기능]이 있기 때문에 우리에게 정말 효과적인 기술입니다."라고 그는 말했습니다. “그래서 우리는 그 계수에 대한 결과를 계산하지 않습니다. 거의 제로 사이클이 필요합니다.”

이 프로세스는 일반적으로 계수의 50~80%를 희소화 대상으로 식별한다고 Gigot은 말했습니다. 프로세스 중에 손실된 예측 정확도를 회복하기 위해 일반적으로 약간의 재훈련이 희소화 후에 필요합니다. Gigot에 따르면 재교육은 일반적으로 원래 모델의 1% 이내로 정확도를 가져올 수 있습니다. 특히 최대 5배 모델 크기 축소를 고려할 때 대부분의 고객에게 허용되는 절충안입니다. Ambarella는 또한 아키텍처를 더 잘 인식하는 희소화 및 양자화 도구에 대해 작업하고 있습니다.

전체 크기 이미지를 보려면 클릭하세요.

다중 센서 카메라 시스템용 CV5S SoC에는 최신 세대의 Ambarella CVflow AI 및 컴퓨터 비전 가속기가 포함됩니다(출처:Ambarella)

최대 14개의 비디오 스트림을 수용한 다음 해당 스트림에서 동시에 AI를 수행할 수 있는 기능을 통해 고객이 여러 신경망을 동시에 실행할 수 있습니까? 일종의 다중화 방식이 필요합니까?


Jerome Gigot(출처:Ambarella)

둘 다 그렇습니다. Gigot이 대답했습니다. “CVflow는 매우 빠른 벡터 엔진, 매우 빠른 컨볼루션 엔진입니다. 모든 것이 시간 다중화됩니다. 작업을 병렬화할 수 있도록 하드웨어에 다른 경로가 있지만 GPU의 일괄 처리와 완전히 다른 [특정 네트워크]에 연결하지는 않습니다."

대형 GPU에서 자주 사용하는 기술인 일괄 처리는 이미지를 그룹화하여 병렬로 처리하도록 보냅니다. GPU에는 이미 다른 매개변수가 로드되어 있습니다. 이러한 접근 방식은 작업 간에 전환할 필요가 없어 컴퓨팅 비용을 절감합니다.

CVflow와 같은 더 작은 엔진의 경우 칩의 메모리가 모든 매개변수를 한 번에 저장할 수 없기 때문에 더 큰 신경망을 청크로 나누어 처리해야 합니다. 연속 청크는 동일한 신경망, 다른 네트워크 또는 다른 채널 입력에서 시작될 수 있습니다. CVflow의 일반적인 하드웨어 사용률은 70~80%이며 네트워크/채널을 전환해도 효율성에 영향을 미치지 않는다고 Gigot은 덧붙였습니다.

CV5S 및 CV52S는 2021년 10월에 샘플링을 시작할 예정입니다.

>> 이 기사는 원래 자매 사이트인 EE에 게시되었습니다. 시간.


관련 콘텐츠:

더 많은 Embedded를 보려면 Embedded의 주간 이메일 뉴스레터를 구독하세요.


임베디드

  1. Java catch 다중 예외
  2. Microchip:PolarFire FPGA 기반 솔루션으로 최소 폼 팩터 4K 비디오 및 이미징 구현
  3. Rutronik:Redpine Signals의 다중 프로토콜 무선 SoC 및 모듈
  4. Renesas:MIPI-CSI2 입력이 있는 풀 HD LCD 비디오 컨트롤러
  5. 여러 추론 칩을 사용하려면 신중한 계획이 필요합니다
  6. 고급 SoC는 의료 IoT 설계에 큰 변화를 가져옵니다
  7. 비디오 프로세서로 배터리 구동 설계를 위한 4K 비디오 코딩 가능
  8. Abaco Systems:견고한 XMC 그래픽 및 비디오 보드
  9. Portwell:19인치 시스템 대상 비디오 월 애플리케이션
  10. 여러 바이오센서를 통합하는 작은 모듈