산업 제조
산업용 사물 인터넷 | 산업자재 | 장비 유지 보수 및 수리 | 산업 프로그래밍 |
home  MfgRobots >> 산업 제조 >  >> Industrial Internet of Things >> 임베디드

연구자들은 감소된 정밀도 훈련으로 AI 칩을 보여줍니다

ISSCC에서 IBM Research는 저정밀도 AI 교육 및 추론 알고리즘에 대한 수년간의 작업을 하드웨어로 표현한 테스트 칩을 선보였습니다. 7nm 칩은 16비트 및 8비트 교육은 물론 4비트 및 2비트 추론을 지원합니다(32비트 또는 16비트 교육 및 8비트 추론은 오늘날 업계 표준입니다).

정밀도를 줄이면 AI 계산에 필요한 컴퓨팅 및 전력의 양을 줄일 수 있지만 IBM은 효율성을 높이는 몇 가지 다른 아키텍처 트릭을 가지고 있습니다. 문제는 계산 결과에 부정적인 영향을 미치지 않으면서 정밀도를 줄이는 것입니다. IBM은 알고리즘 수준에서 수년 동안 작업해 왔습니다.

IBM의 AI 하드웨어 센터는 2029년까지 1000배의 성능 효율성(FLOPS/W) 개선이라는 야심찬 전반적인 목표와 함께 AI 컴퓨팅 성능을 연간 2.5배 향상한다는 회사의 목표를 지원하기 위해 2019년에 설립되었습니다. AI 모델의 크기와 이를 훈련하는 데 필요한 컴퓨팅 양이 빠르게 증가하고 있습니다. 특히 NLP(자연어 처리) 모델은 이제 1조 매개변수의 거대하고 이러한 짐승을 훈련시키는 데 수반되는 탄소 발자국을 간과하지 않았습니다.

IBM Research의 이 최신 테스트 칩은 IBM이 지금까지 이룬 진전을 보여줍니다. 8비트 훈련의 경우 4코어 칩은 25.6TFLOPS가 가능하고 추론 성능은 4비트 정수 계산의 경우 102.4TOPS입니다(이 수치는 1.6GHz의 클록 주파수 및 0.75V의 공급 전압에 대한 것입니다). 클록 주파수를 1GHz로 낮추고 공급 전압을 0.55V로 낮추면 전력 효율이 3.5TFLOPS/W(FP8) 또는 16.5TOPS/W(INT4)로 향상됩니다.


IBM Research 테스트 칩의 성능(이미지:IBM Research) **0% 희소성에서 보고된 성능입니다. (1) FP8. (4) INT4.

낮은 정밀도 훈련

이 성능은 저정밀도 훈련 및 추론 기술에 대한 수년간의 알고리즘 작업을 기반으로 합니다. 이 칩은 NeurIPS 2019에서 처음 발표된 IBM의 특수 8비트 하이브리드 부동 소수점 형식(하이브리드 FP8)을 지원하는 최초의 칩입니다. 이 새로운 형식은 특히 8비트 교육을 허용하도록 개발되어 16비트에 필요한 컴퓨팅을 절반으로 줄입니다. 결과에 부정적인 영향을 미치지 않으면서 훈련합니다(AI 처리를 위한 숫자 형식에 대한 자세한 내용은 여기 참조).


IBM Research는 정확도를 낮추면서 정확도를 유지하는 문제를 해결하기 위해 노력해 왔습니다(이미지:IBM)

"수년에 걸쳐 다양한 연구를 통해 배운 것은 저정밀도 교육이 매우 어렵다는 것입니다. 그러나 올바른 숫자 형식만 있으면 8비트 교육을 수행할 수 있습니다."라고 IBM 펠로우이자 가속기 아키텍처 수석 관리자인 Kailash Gopalakrishnan이 말했습니다. IBM Research의 기계 학습은 EE Times에 말했습니다. . "올바른 숫자 형식을 이해하고 이를 딥 러닝의 올바른 텐서에 배치하는 것이 중요한 부분이었습니다."

Hybrid FP8은 실제로 두 가지 다른 형식의 조합입니다. 하나의 형식은 딥 러닝의 정방향 패스에서 가중치와 활성화에 사용되며 다른 형식은 역방향 패스에서 사용됩니다. 추론은 정방향 패스만 사용하는 반면 훈련에는 정방향 및 역방향 단계가 모두 필요합니다.

Gopalakrishnan은 "우리가 배운 것은 딥 러닝의 전진 단계에서 가중치와 활성화 표현의 관점에서 더 많은 충실도와 정밀도가 필요하다는 것입니다."라고 말했습니다. "반면 [역방향 단계] 그라디언트는 높은 동적 범위를 가지며 여기서 [더 큰] 지수가 필요함을 인식합니다... 이것은 딥 러닝의 일부 텐서가 필요로 하는 방법 사이의 절충점입니다. 다른 텐서는 더 넓은 동적 범위가 필요하지만 더 높은 정확도, 더 높은 충실도 표현. 이것이 우리가 2019년 말에 발표한 하이브리드 FP8 형식의 기원이며 현재 하드웨어로 번역되었습니다.”

IBM의 작업은 지수와 가수 사이에 8비트를 분할하는 가장 좋은 방법은 순방향 위상에 대해 1-4-3(1개의 부호 비트, 4비트 지수 및 3비트 가수)이며 대안은 5-비트라고 결정했습니다. 2 32 의 동적 범위를 제공하는 역방향 위상에 대한 비트 지수 버전 . 하이브리드 FP8 지원 하드웨어는 이 두 형식을 모두 지원하도록 설계되었습니다.

계층적 누적

연구원들이 "계층적 누적"이라고 부르는 혁신은 누적이 가중치 및 활성화와 함께 정밀도를 줄이는 것을 허용합니다. 일반적인 FP16 교육 계획은 정밀도를 유지하기 위해 32비트 산술에 누적되지만 IBM의 8비트 교육은 FP16에 누적될 수 있습니다. FP32에서 누적을 유지하면 애초에 FP8로 이동하여 얻는 이점이 제한되었을 것입니다.

"부동 소수점 산술에서 발생하는 일은 많은 숫자 세트를 함께 추가하는 경우입니다. 길이가 10,000인 벡터이며 모두 함께 추가하는 경우 부동 소수점 표현 자체의 정확도가 사용자의 정밀도를 제한하기 시작합니다. 합계"라고 Gopalakrishnan은 설명했습니다. “우리는 그렇게 하는 가장 좋은 방법은 덧셈을 순차적으로 하지 않는 것이라고 결론지었지만, 우리는 긴 누적을 우리가 청크라고 부르는 그룹으로 나누는 경향이 있습니다. 그런 다음 청크를 서로 추가하여 이러한 종류의 오류가 발생할 가능성을 최소화합니다."

낮은 정밀도 추론

오늘날 대부분의 AI 추론은 8비트 정수 형식(INT8)을 사용합니다. IBM의 연구는 4비트 정수가 상당한 예측 정확도를 잃지 않고 얼마나 낮은 정밀도로 갈 수 있는지 면에서 최첨단임을 보여주었습니다. 양자화(모델을 더 낮은 정밀도로 변환하는 프로세스) 후에 양자화 인식 교육이 수행됩니다. 이것은 양자화로 인한 오류를 완화하는 효과적인 재훈련 방식입니다. 이 재훈련은 정확도 손실을 최소화할 수 있습니다. IBM은 4비트 정수 산술로 "쉽게" 양자화할 수 있으며 정확도는 0.5% 손실에 불과하며 Gopalakrishnan은 대부분의 애플리케이션에 대해 "매우 수용 가능"하다고 말했습니다.

온칩 링

낮은 정밀도 산술에 중점을 둔 것 외에도 칩의 효율성에 기여하는 다른 하드웨어 혁신이 있습니다.

하나는 각 코어가 다른 코어로 데이터를 멀티캐스트할 수 있도록 하는 딥 러닝에 최적화된 네트워크 온칩인 온칩 링 통신입니다. 멀티캐스트 통신은 코어가 가중치를 공유하고 결과를 다른 코어에 전달해야 하기 때문에 딥 러닝에 매우 중요합니다. 또한 오프칩 메모리에서 로드된 데이터를 여러 코어로 브로드캐스트할 수 있습니다. 이렇게 하면 메모리를 읽어야 하는 횟수와 전체적으로 전송되는 데이터 양이 줄어들어 필요한 메모리 대역폭이 최소화됩니다.

IBM Research의 기계 학습 및 가속기 아키텍처 연구원인 Ankur Agrawal은 "링에는 긴 와이어가 많이 포함되어 있기 때문에 링보다 코어를 더 빠르게 실행할 수 있다는 것을 깨달았습니다."라고 말했습니다. "우리는 코어의 작동 주파수에서 링의 작동 주파수를 분리했습니다... 이를 통해 코어와 관련하여 링의 성능을 독립적으로 최적화할 수 있습니다."

전원 관리

IBM의 또 다른 혁신은 효율성을 극대화하기 위해 주파수 조정 체계를 도입한 것입니다.

Agrawal은 "딥 러닝 워크로드는 약간 특별합니다. 컴파일 단계에서도 이 매우 큰 워크로드에서 어떤 계산 단계를 겪게 될지 알기 때문입니다."라고 말했습니다. "계산의 여러 부분에서 전력 프로필이 어떻게 보일지 파악하기 위해 사전 구성을 수행할 수 있습니다."

딥 러닝의 전력 프로필에는 일반적으로 큰 피크(컨볼루션과 같은 컴퓨팅 집약적인 작업의 경우)와 최저점(활성화 함수의 경우)이 있습니다.

IBM의 계획은 칩의 초기 작동 전압과 주파수를 매우 공격적으로 설정하여 가장 낮은 전력 모드에서도 칩이 거의 전력 범위의 한계에 도달하도록 합니다. 그런 다음 더 많은 전력이 필요할 때 작동 주파수가 감소합니다.

Agrawal은 "결과적으로 다른 단계를 거치더라도 계산 전체에 걸쳐 거의 피크 전력에서 작동하는 칩이 생성됩니다."라고 설명했습니다. “전반적으로 이러한 저전력 소비 단계가 없어 모든 작업을 더 빠르게 수행할 수 있습니다. 모든 작동 단계에서 전력 소비를 거의 최대 전력 소비로 유지함으로써 전력 소비 감소를 성능 향상으로 전환했습니다."

전압 스케일링은 즉석에서 수행하기가 더 어렵기 때문에 사용되지 않습니다. 새로운 전압에서 안정화하는 데 걸리는 시간은 딥 러닝 계산에 너무 깁니다. 따라서 IBM은 일반적으로 해당 프로세스 노드에 대해 가능한 가장 낮은 공급 전압에서 칩을 실행하도록 선택합니다.

테스트 칩

IBM의 테스트 칩에는 4개의 코어가 있으며 부분적으로는 다양한 기능을 모두 테스트할 수 있습니다. Gopalakrishnan은 코어 크기가 의도적으로 최적으로 선택되는 방법을 설명했습니다. 수천 개의 작은 코어로 구성된 아키텍처는 함께 연결하기가 복잡하지만 큰 코어 간에 문제를 나누는 것도 어려울 수 있습니다. 이 중간 코어는 AI 하드웨어 센터에서 IBM과 파트너의 요구 사항을 충족하도록 설계되었으며 크기 측면에서 최적의 지점을 찾습니다.


IBM의 4코어 저정밀 테스트 칩용 다이 사진(이미지:IBM)

코어 수를 변경하여 아키텍처를 확장하거나 축소할 수 있습니다. 결국 Gopalakrishnan은 1-2개의 코어 칩이 에지 장치에 적합하고 32-64개의 ​​코어 칩이 데이터 센터에서 작동할 수 있다고 상상합니다. 여러 형식(FP16, 하이브리드 FP8, INT4 및 INT2)을 지원한다는 사실 또한 대부분의 응용 프로그램에서 충분히 다용도로 사용할 수 있다고 그는 말했습니다.

"[응용] 영역이 다르면 에너지 효율성과 정밀도 등에 대한 요구 사항이 다를 수 있습니다."라고 그는 말했습니다. "각각 개별적으로 최적화된 정밀한 스위스 군용 칼을 사용하면 해당 프로세스에서 에너지 효율성을 포기하지 않고도 다양한 영역에서 이러한 코어를 대상으로 지정할 수 있습니다."

하드웨어와 함께 IBM Research는 컴파일러가 칩의 높은 활용도(60-90%)를 가능하게 하는 도구 스택("Deep Tools")도 개발했습니다.

EE 타임즈 ' 이전 IBM Research와의 인터뷰에서 이 아키텍처를 기반으로 하는 저정밀도 AI 교육 및 추론 칩이 약 2년 내에 시장에 출시될 것이라고 밝혔습니다.

>> 이 기사는 원래 다음 날짜에 게시되었습니다. 자매 사이트인 EE Times.


관련 콘텐츠:

더 많은 Embedded를 보려면 Embedded의 주간 이메일 뉴스레터를 구독하세요.


임베디드

  1. Bluetooth Mesh로 설계:칩 또는 모듈?
  2. 연구원은 작은 인증 ID 태그를 구축합니다.
  3. 감소된 유지 보수 직원 다루기
  4. 미네소타 대학과 Rockwell의 제휴로 자동화 교육에 대한 접근성 확대
  5. 연구원들이 Bluetooth Classic 보안 결함을 악용하는 방법을 보여줍니다.
  6. IBM Watson이 AI로 다른 모든 비즈니스를 지원하는 방법
  7. 대행사의 정확성으로 마케팅 노력을 높이십시오
  8. 대행사의 정확성으로 마케팅 노력을 높이십시오
  9. IBM:EAM으로 안정성과 안전성을 사전에 보장
  10. 정밀 가공으로 우수한 유압 시스템 구축