AI/ML 프로세서에서 안정성 검증의 중요성

다양한 응용 프로그램에서 인공 지능 및 기계 학습을 채택함에 따라 오류가 큰 결과를 초래할 수 있으므로 AI/ML 프로세서의 신뢰성 검증이 중요합니다. AI/ML 기술의 타당성과 합법성을 위해.

지난 몇 년 동안 광범위한 애플리케이션에 인공 지능(AI) 및 머신 러닝(ML)을 배포하는 회사의 수가 급격히 증가했습니다. 실제로 연구에 따르면 2019년은 AI와 ML을 채택한 기업에게 기록적인 해였으며 이러한 기업은 비즈니스 전략과 목표를 달성하는 데 이 두 가지 기능이 가장 필요한 것으로 간주합니다. 이러한 채택 증가는 주로 알고리즘의 개선, 하드웨어 설계의 발전, 정보의 디지털화로 생성되는 데이터 볼륨의 증가로 인한 것입니다.

그러나 AI/ML의 성장을 지원하고 유지하기 위해 기업은 AI/ML 기술로 얻은 결과를 신뢰할 수 있음을 시장에 계속 증명해야 합니다. 그 신뢰는 AI/ML 기능의 기초가 되는 집적 회로(IC)의 설계 및 검증에서 시작됩니다.

AI와 ML의 분류

AI 처리는 클라우드/데이터 센터 사이트에서 수행되는지 또는 최종 사용자 측에서 수행되는지에 따라 데이터 센터/클라우드 기반 또는 임베디드로 크게 분류될 수 있습니다(전용 AI 칩 또는 장치 내부 또는 에지에 있는 시스템 온 칩(SOC). 여기서 에지는 데이터 센터나 클라우드보다 디바이스에 더 가까운 로컬 서버나 머신을 의미합니다.

대상 애플리케이션의 관점에서 에지 장치는 훈련(ML) 또는 추론으로 분류할 수 있습니다. 역사적으로 교육 부분은 클라우드 사이트에서 수행되었으며 추론 부분은 클라우드 또는 에지 장치에서 처리되었습니다. 새로운 고성능 에지 컴퓨팅 솔루션의 개발과 함께 더 많은 교육 활동이 에지로 이전됨에 따라 패러다임의 변화를 목격하고 있습니다.

AI/ML 칩 설계

에지 컴퓨팅 솔루션의 AI/ML 칩 또는 로컬 장치 내부 임베디드는 기업, 자동차, 산업, 의료, 사물 인터넷(IoT) 등과 같은 특정 환경에서 사용하도록 설계되었습니다. 이러한 애플리케이션 중 일부는 미션 크리티컬한 의미입니다. 모든 실패는 현실 세계에서 비참한 결과를 초래할 수 있습니다. 예를 들어, 자동차 내부에 사용되는 첨단 운전자 지원 시스템(ADAS)을 생각해 보십시오. ADAS 프로세서가 센서에서 데이터를 읽고 추론하는 동안 지정된 지연 시간보다 더 많이 발생하면 충돌이 발생할 수 있습니다.

AI/ML 애플리케이션에 사용되는 IC는 대규모 병렬 처리 계산 장치, 높은 전력 손실, 엄격한 전력 예산 내에서 최대 성능을 제공할 수 있는 복잡한 회로가 특징입니다. 일부 기업은 AI 관련 작업에 기존 중앙 처리 장치(CPU)를 사용하지만 일부 업계 전문가는 최첨단 AI 알고리즘의 분산 특성으로 인해 CPU를 사용하는 것이 그다지 효율적이지 않다고 주장합니다. 이러한 알고리즘은 GPU(그래픽 처리 장치)에서 제공하는 것과 같은 병렬 컴퓨팅 솔루션에 잘 렌더링됩니다. 재구성 가능한 특성으로 인해 FPGA(Field-Programmable Gate Array)도 AI 칩의 가속기로 사용하기 위해 관심을 끌고 있습니다.

AI/ML 애플리케이션의 ASIC

전반적으로 AI와 ML의 까다로운 문제가 만능 설계 솔루션에 적합하지 않다는 데 동의하는 목소리가 커지고 있습니다. 이 문제를 해결하기 위해 많은 기업에서 자체 ASIC(Application-Specific IC)를 개발합니다. 이 IC는 소프트웨어 스택과 함께 최적화되어 주어진 AI/ML 애플리케이션에 최고의 가치를 제공합니다(그림 1).

그림 1. ASIC AI 칩 설계를 위한 블록 다이어그램.

이들 회사는 CPU 또는 GPU에 비해 더 나은 성능, 더 많은 주기당 작업, 더 간단하고 결정적인 디자인, 영역 절약(복잡한 구성 및 메커니즘에서 사용되는 제외로 인해)과 같은 이러한 ASIC의 사용으로 인한 다양한 이점을 주장합니다. CPU), 더 낮은 전력 사용량, 더 빠른 개발 시간.

이기종 컴퓨팅

또한 이기종 컴퓨팅의 사용이 증가했습니다. 즉, 서로 다른 기능의 장점을 결합하기 위해 서로 다른 컴퓨팅 코어 유형을 조합하여 사용하는 시스템입니다. 예를 들어, CPU와 GPU의 조합을 사용하는 시스템에서 이기종 컴퓨팅은 병렬 작업을 GPU로 오프로드하여 이점을 얻을 수 있으며 CPU는 본질적으로 직렬인 프로세스 제어와 같은 작업을 처리합니다.

서로 다른 클래스의 AI 프로세서 간의 공통적인 측면 중 하나는 고성능 및 짧은 대기 시간에 최적화되어 종종 TOPS(초당 테라 작업 수) 성능의 승수를 제공한다는 것입니다. 이 경쟁이 치열한 시장에서 우위를 점하기 위해 전력 효율성(와트당 성능으로 측정)은 원시 처리량만큼 중요해졌습니다. 전력 효율성은 전력 및 클록 게이팅, 동적 전압 및 주파수 스케일링, 다중 Vt 설계 등과 같은 하나 이상의 설계 기술을 조합하여 사용하는 경우가 많습니다.

이러한 칩의 회로 오류는 기술의 유효성과 제공 결과의 합법성에 중대한 영향을 미칠 수 있으므로 이러한 복잡한 IC의 안정적인 설계 및 검증을 보장하는 것이 중요합니다.

AI/ML IC 신뢰성 검증

신뢰성 검증은 수백만, 때로는 수십억 개의 트랜지스터를 포함하는 이러한 설계의 크기와 복잡성으로 인해 AI/ML 칩에서 엄청난 도전과제입니다. 예를 들어, NVIDIA의 TESLA P100 GPU는 153억 개의 엄청난 트랜지스터 수를 자랑하는 반면 Intel의 Loihi IC는 128개의 뉴로모픽 코어와 3개의 X-86 코어, 20억 7천만 개의 트랜지스터를 포함합니다. 또한 각 사용 환경에 대한 안정성 요구 사항이 다르기 때문에 설계자는 적용 가능한 요구 사항 집합을 이해하고 잘 정의된 안정성 요구 사항 사양에 대해 설계를 테스트하여 충족되는지 확인해야 합니다.

설계 신뢰성 검증 방법

전통적으로 설계자는 주로 설계 팀의 전문 지식과 경험에 의존하여 수동 검사 및 시뮬레이션 기술을 포함하여 설계 신뢰성을 보장하기 위해 다양한 방법을 사용했습니다. 그러나 수동 검사는 시간이 많이 걸리고 인적 오류가 발생하기 쉬우며 충분한 적용 범위를 제공하는 것이 사실상 불가능하기 때문에 이러한 크고 복잡한 AI/ML 칩에 대한 실행 가능한 접근 방식이 아닙니다. 기존의 SPICE와 같은 시뮬레이션 접근 방식은 대규모 설계에 대한 확장성 부족으로 인해 이러한 IC에도 실용적이지 않습니다.

용량 및 런타임 문제를 극복하기 위해 많은 설계 팀이 수동으로 설계를 분할하고 시뮬레이션 또는 기존 도구를 통해 서로 다른 지적 재산(IP) 블록을 독립적으로 확인합니다. 그러나 설계에서 서로 다른 IP 블록 사이에는 많은 상호 작용이 있으며(예:서로 다른 컴퓨팅 코어와 버스 또는 링크 또는 고대역폭 메모리 간) 인터페이스 간의 상호 작용은 수동 분할 프로세스 중에 종종 간과되는 경향이 있습니다. 기존 IC 검증 도구는 이러한 복잡한 설계를 검증하는 데 지나치게 긴 런타임으로 어려움을 겪으며 종종 대형 설계를 검증하는 데 며칠이 걸리며 잠재적으로 출시 시간이 지연될 수 있습니다.

이러한 각 프로세스의 결함은 여러 CPU 및 장치의 컴퓨팅 성능을 동시에 활용할 수 있는 포괄적인 자동화된 전자 설계 자동화(EDA) 솔루션의 필요성을 강조합니다. 검증된 자동화된 신뢰성 검증을 통해 제품 설계 및 검증 팀은 신뢰성 검증 및 수정 사항에 보다 신속하게 수렴하여 전체 소요 시간(TAT)을 며칠에서 몇 시간으로 단축할 수 있습니다.

구경 PERC 안정성 플랫폼

지난 몇 년 동안 이러한 프로세스 문제를 해결하는 새로운 종류의 IC 신뢰성 검증 도구가 등장했습니다. Calibre™ PERC™ 신뢰성 플랫폼과 같은 도구는 풍부한 기능 세트를 활용하여 신속하고 파운드리에서 검증된 신뢰성 검증을 제공합니다. 예를 들어 Calibre PERC 안정성 플랫폼은 Calibre 플랫폼의 다중 스레드(MT) 및 다중 스레드 유연성(MTflex) 확장을 활용하여 여러 CPU 및/또는 원격 시스템에 작업을 분산하여 검증 프로세스의 빠르고 효율적인 실행을 제공합니다. AI/ML IC와 같은 크고 복잡한 칩에서(그림 2).

그림 2. 다중 스레드의 유연한 확장 기능은 전체 실행 속도를 높이기 위해 여러 원격 장치에 작업을 분산합니다.

Calibre PERC 신뢰성 플랫폼은 이러한 기본적이지만 필수적인 역학 외에도 설계의 넷리스트 및 레이아웃 정보를 결합하여 광범위한 잠재적 신뢰성 문제를 빠르고 정확하게 평가하는 혁신적인 처리를 제공합니다. 설계자가 성능 및 운영 실패에 대한 설계의 취약성을 효율적이고 자신 있게 줄일 수 있도록 함으로써 고급 안정성 검증에 대한 이러한 접근 방식은 신뢰할 수 있는 AI/ML 기술의 지속적인 성장과 채택을 지원하는 데 도움이 됩니다.

트랜지스터 수준의 신뢰성

대부분의 ML/AI 설계는 아날로그 IP를 위한 깨끗하고 노이즈 없는 전원 공급 장치 제공, 칩의 특정 영역에 대한 전원 차단 또는 차단, 확장 등 다양한 목적을 위해 다중 전원 도메인을 사용합니다. 선택한 IP에 대해 독립적으로 전압을 올리거나 내리거나 여러 전압 조정기를 사용하여 고전류 요구 사항을 충족합니다. 예를 들어, Intel의 Skylake 프로세서에는 9개의 기본 전원 도메인이 있습니다.

다중 전력 도메인 설계를 구현하려면 전압 조정기, 헤더 및 푸터 스위치, 레벨 시프터, 절연 셀, 상태 유지 셀과 같은 특수 회로 요소를 사용해야 합니다. 이러한 요소는 신뢰성 검증을 위한 고유한 문제 세트를 제시합니다. 예를 들어, 설계자는 각 도메인 인터페이스에서 적절한 레벨 시프터 또는 격리 셀이 사용되고 올바르게 연결되어 있는지 확인해야 합니다(그림 3).

그림 3. 저전력 설계 내부에서 특수 요소(예:레벨 시프터, 절연 셀, 전원 게이팅 스위치)를 사용하려면 전문적인 검증 기술이 필요합니다.

또한 고전압 공급을 위한 두꺼운 산화물 장치와 같이 다양한 전력 영역에서 적절한 유형의 장치를 사용하고 있는지 확인해야 합니다. 이러한 조건을 확인하려면 매우 구체적인 지식과 프로세스가 필요합니다.

통합 전원 형식 기술

통합 전력 형식(UPF)은 설계자가 설계 흐름 전반에 걸쳐 전력 의도에 대한 일관된 설명을 사용할 수 있도록 하는 널리 사용되는 기술입니다. 그러나 기존의 UPF 기반 검증 흐름은 논리 또는 게이트 수준에서 IP를 검증하는 데 사용되지만 최종 트랜지스터 수준 구현, 특히 웰 및 벌크 연결을 검증하는 기능은 부족합니다.

Calibre PERC 신뢰성 플랫폼은 설계를 위한 UPF 파일을 읽고 UPF 정보를 활용하여 누락되거나 잘못 연결된 레벨 시프터 식별, EOS(Electrical Overstress) 조건, 부동 우물 등 트랜지스터 수준에서 다양한 분석을 수행할 수 있습니다. . 설계자는 UPF 데이터와 함께 Calibre PERC 안정성 플랫폼을 사용하여 프로그래밍 방식으로 장치 상호 작용을 평가하여 반복 가능하고 결정적인 안정성 검증을 제공할 수 있습니다.

AI/ML 칩의 평생 안정성

작동 안전은 결함이나 오류 없이 설계된 수명 동안 작동할 것으로 예상되는 대부분의 AI/ML 칩에서 중요한 측면입니다. 바이어스 온도 불안정성(BTI) 및 EOS와 같은 일부 전기 신뢰성 문제는 즉각적인 오류로 나타나지 않을 수 있지만 제조 전에 수정하지 않으면 시간이 지남에 따라 급격한 성능 저하 및 노화를 유발할 수 있습니다. 신뢰성 검증은 점대점 저항, 양극 및 음극 BTI, 전류 밀도, 일렉트로마이그레이션(EM)과 같은 다양한 문제를 확인하여 장기간에 걸쳐 강력한 작동을 보장하는 데 도움이 됩니다. 이러한 모든 문제는 성능 저하 또는 치명적인 오류를 유발할 수 있습니다.

고전압 도메인 장치가 고전압을 처리할 수 있는 등급이 아닌 얇은 산화물 장치를 구동하는 경우를 생각해 보십시오. 설계 중에 설계자는 고-저 레벨 시프터를 삽입하지 못합니다. 이 조건이 처음에는 기능에 반드시 영향을 미치지는 않지만 시간이 지남에 따라 얇은 산화물 장치에 스트레스를 가하여 결국에는 고장을 일으킵니다. 실제 고장 시간은 전압 값, 전원이 ON 대 OFF인 시간 및 프로세스 매개변수에 따라 다릅니다.

EM(전류로 인한 도체의 원자 이동)은 AI/ML IC에 사용되는 상호 연결의 장기적 견고성에 영향을 미치는 또 다른 주요 문제입니다. 이 마이그레이션으로 인해 와이어에 보이드와 힐록이 형성됩니다. 공극은 저항을 크게 증가시키는 반면, 언덕은 단락을 생성할 수 있으며, 둘 다 회로 고장으로 이어집니다. EM 효과는 금속 라인의 길이와 너비, 인터커넥트 재료, 작동 온도, 단방향 대 양방향 전류 등과 같은 많은 요인에 따라 달라집니다.

주조소는 제품의 예상 사용 조건에 따라 전선이 처리할 수 있는 최대 전류에 대한 EM 제한을 설계 회사에 제공합니다. 예를 들어, 휴대폰 내부에 사용되는 IC의 EM 한계는 산업 환경에서 사용되는 IC보다 상당히 낮습니다. 일부 회사에는 적절한 사양을 정의하고, 테스트 구조를 만들고, EM 허용 오차에 대한 제품 자격을 수행하기 위해 파운드리와 적극적으로 참여하는 전담 팀이 있습니다. 분명히 여러 환경에서 사용할 수 있는 제품에 대해 이러한 제한을 정의하는 것이 더 어렵기 때문에 설계자는 일반적으로 최악의 작동 조건에 대해 이러한 칩을 설계합니다. 모든 경우에 주조소에서 정의한 EM 한계에 대해 설계를 테스트하고 설계가 EM 효과를 견딜 수 있는지 검증하는 것이 중요합니다.

사전 실리콘 검증 단계에서 다양한 신뢰성 문제를 포착하고 수정하지 못하면 여러 테이프 아웃 스핀, 제품 출시 지연, 고객 신뢰 상실, 심각한 부정적인 시장 반응, 제품 리콜은 물론 신체적 부상이나 인명 손실과 같은 치명적인 결과를 초래할 수도 있습니다. 테이프 아웃 전에 신뢰성 위반을 식별하고 수정하면 비용이 많이 드는 것으로 판명될 수 있는 회로 오작동 또는 오류의 가능성을 최소화합니다.

AI/ML 신뢰성 분석 및 관리가 중요

AI/ML 기능의 최근 성공과 확장은 주로 반도체 기술의 발전에 기반을 두고 있습니다. 이러한 새로운 설계가 개발됨에 따라 하드웨어 설계 커뮤니티는 대상 환경, 작동 조건, 신뢰성 기준 등과 같은 설계의 신뢰성 측면을 분석하고 관리해야 할 필요성을 인식해야 합니다. 이러한 크고 복잡한 칩의 특정 신뢰성 문제와 요구 사항은 설계 회사가 설계 수명 동안 제품이 의도한 대로 작동하도록 하는 데 도움이 될 수 있습니다. 결과적으로 이는 AI/ML 애플리케이션의 지속적인 사용과 확장을 지원하는 광범위한 시장에서 AI/ML 애플리케이션을 사용하여 달성한 결과에 대한 확신으로 이어집니다.

업계 기사는 업계 파트너가 편집 콘텐츠에 적합하지 않은 방식으로 All About Circuits 독자와 유용한 뉴스, 메시지 및 기술을 공유할 수 있는 콘텐츠 형식입니다. 모든 산업 기사는 독자에게 유용한 뉴스, 기술 전문 지식 또는 이야기를 제공하기 위해 엄격한 편집 지침을 따릅니다. 업계 기사에 표현된 관점과 의견은 파트너의 것이며 반드시 All About Circuits 또는 해당 작성자의 의견은 아닙니다.

배터리 구동 스테퍼 모터로 IoT 모터화 스마트 미터링을 위한 LoRa 기반 솔루션 구현

사물 인터넷 기술