Xilinx는 Alveo HBM을 두 배로 늘리고 HPC 및 빅 데이터 워크로드를 위한 클러스터링을 추가합니다.
이번 주 SC21 슈퍼컴퓨팅 컨퍼런스에서 Xilinx는 Alveo U55C 데이터 센터 가속 카드와 FPGA를 대규모로 배포하기 위한 새로운 표준 기반 API 기반 클러스터링 솔루션을 소개했습니다. 회사는 수백 개의 Alveo 카드 클러스터링을 가능하게 하고 애플리케이션과 클러스터 모두의 높은 수준의 프로그래밍 가능성을 가능하게 함으로써 이 새로운 카드는 Alveo 컴퓨팅 기능을 확장하여 고성능 컴퓨팅(HPC) 워크로드를 이전보다 쉽고 효율적으로 목표로 삼을 수 있다고 말했습니다.
Xilinx는 Alveo U55C 카드가 HPC 및 빅 데이터 워크로드를 위해 특별히 제작되었으며 Alveo 가속기 포트폴리오에서 최고의 컴퓨팅 밀도와 HBM(고대역폭 메모리) 용량을 제공한다고 말했습니다. 새로운 Xilinx RoCE v2 기반 클러스터링 솔루션과 함께 대규모 컴퓨팅 워크로드가 있는 광범위한 고객은 이제 기존 데이터 센터 인프라 및 네트워크를 사용하여 강력한 FPGA 기반 HPC 클러스터링을 구현할 수 있습니다. 구조적으로 FPGA 기반 가속기는 많은 컴퓨팅 집약적 워크로드에 대해 최저 비용으로 최고의 성능을 제공한다고 주장합니다. 고객의 기존 인프라와 네트워크를 사용하여 Alveo HPC 클러스터를 생성할 수 있는 표준 기반 방법론을 도입하고 있습니다.
회사는 이것이 데이터 센터 전체에 Alveo 및 적응형 컴퓨팅의 광범위한 채택을 위한 주요 도약이라고 말했습니다.
그림>
Embedded.com과의 인터뷰에서 Xilinx 데이터 센터의 HPC 제품 관리자인 Nathan Chang은 다음과 같이 말했습니다. 실제로, 더 자주 그것은 메모리 대역폭 경향이 있습니다. 점점 더 많은 컴퓨팅 문제가 메모리 대역폭 제한이 되고 있습니다. 그래서 우리는 카드를 단일 슬롯으로 줄이고 해당 카드의 HBM도 두 배로 줄였습니다. 그러나 더 중요한 것은 수백 개의 카드로 대규모 클러스터를 만들고 해당 카드의 모든 HBM을 대상으로 하는 기능과 함께 이러한 카드 간에 확장할 수 있는 기능을 제공했다는 것입니다."
그는 계속해서 “Alveo 카드 클러스터에서 대역폭을 잠금 해제하는 것은 항상 우리 커뮤니티의 큰 노력이었습니다. 개발자는 팀을 만든 다음 요구 사항을 충족하는 자체 클러스터링 디자인을 만들어야 했습니다. 이제 우리는 개방형 표준 기반 클러스터링 패키지를 선보이고 있습니다. 즉, RoCE v2와 데이터 센터 브리징을 각 카드에서 200Gbps 대역폭으로 이더넷을 통해 활용할 것입니다.”
"이는 데이터 센터의 기존 인프라에서 이러한 카드를 기존 서버에 배치하고 기존 이더넷 네트워크에서 이를 활용할 수 있으며 성능 및 대기 시간에서 InfiniBand와 경쟁할 수 있음을 의미합니다."
“또 다른 요점은 더 큰 작업 부하를 위한 공간을 만들 뿐만 아니라 개발 커뮤니티에서 Vitis에 더 쉽게 액세스할 수 있도록 보장한다는 것입니다. 더 이상 RTL이나 Verilog를 이해할 필요가 없습니다. C, C++ 및 Python과 같은 기존 고급 언어로 Alveo 카드를 프로그래밍하고 Alveo 보드를 대상으로 지정할 수 있습니다.”
HPC 및 빅 데이터용 Alveo U55C 기능
Alveo U55C 카드는 오늘날의 HPC 워크로드에 필요한 많은 주요 기능을 결합합니다. Xilinx에 따르면 데이터 파이프라인의 더 많은 병렬 처리, 우수한 메모리 관리, 파이프라인 전체의 최적화된 데이터 이동 및 Alveo 포트폴리오에서 최고의 와트당 성능을 제공합니다. 이 카드는 최대 150W의 낮은 전력을 사용하는 단일 슬롯 전체 높이, 절반 길이(FHHL) 폼 팩터입니다. 탁월한 컴퓨팅 밀도를 제공하고 이전 제품인 듀얼 슬롯 Alveo U280 카드에 비해 HBM2에서 16GB를 두 배로 늘렸습니다. 따라서 새로운 U55C는 고밀도 Alveo 가속기 기반 클러스터를 생성하기 위해 더 작은 폼 팩터에서 더 많은 컴퓨팅을 제공합니다. 이는 고밀도 스트리밍 데이터, 높은 IO 수학 및 빅 데이터 분석 및 AI 애플리케이션과 같이 스케일 아웃이 필요한 빅 컴퓨팅 문제를 대상으로 합니다.
그림>
200Gbps 대역폭과 결합된 RoCE v2 및 데이터 센터 브리징을 활용하는 API 기반 클러스터링 솔루션은 벤더 종속 없이 성능 및 대기 시간 면에서 InfiniBand 네트워크와 경쟁하는 Alveo 네트워크를 가능하게 합니다. MPI 통합을 통해 HPC 개발자는 Xilinx Vitis 통합 소프트웨어 플랫폼에서 Alveo 데이터 파이프라이닝을 확장할 수 있습니다. 회사는 기존의 개방형 표준과 프레임워크를 활용하여 이제 서버 플랫폼 및 네트워크 인프라에 관계없이 공유 워크로드 및 메모리를 사용하여 수백 개의 Alveo 카드로 확장할 수 있다고 말했습니다.
소프트웨어 개발자와 데이터 과학자는 Vitis 플랫폼을 활용하는 애플리케이션과 클러스터 모두의 높은 수준의 프로그래밍 가능성을 통해 Alveo와 적응형 컴퓨팅의 이점을 얻을 수 있습니다. 자일링스는 하드웨어 전문 지식이 없는 소프트웨어 개발자와 데이터 과학자가 적응형 컴퓨팅에 더 쉽게 접근할 수 있도록 Vitis 개발 플랫폼과 도구 흐름에 막대한 투자를 했다고 밝혔습니다. Pytorch 및 Tensorflow와 같은 주요 AI 프레임워크와 C, C++ 및 Python과 같은 고급 프로그래밍 언어가 지원되므로 개발자는 특정 API 및 라이브러리를 사용하여 도메인 솔루션을 구축하거나 Xilinx 소프트웨어 개발 키트를 활용하여 주요 HPC를 쉽게 가속화할 수 있습니다. 기존 데이터 센터 내의 워크로드.
누가 카드를 사용합니까?
Chang은 회사가 U55C 카드를 사용한 개념 증명 설계에 대해 여러 조직과 협력하고 있다고 말했습니다.
그림>
그 중 하나가 호주의 국립 연구 기관인 CSIRO와 세계 최대 전파천문 안테나 어레이로, GPU 대신 U55C를 사용했다. Alveo 카드는 단일 슬롯 카드가 가능하고 NIC(네트워크 인터페이스 카드)가 필요 없기 때문입니다. CSIRO는 평방 킬로미터 어레이 전파 망원경에서 신호 처리를 위해 Alveo U55C 카드를 사용하고 있습니다. Alveo 카드를 HBM과 함께 네트워크 연결 액셀러레이터로 배포하면 HPC 신호 처리 클러스터에서 대규모 처리량을 얻을 수 있습니다. Alveo 가속기 기반 클러스터를 통해 CSIRO는 131,000개 안테나의 데이터를 실시간으로 집계, 필터링, 준비 및 처리하는 대규모 컴퓨팅 작업을 처리할 수 있습니다. 신호 처리 클러스터에서 460Gbps의 HBM2 대역폭은 P4 지원 100Gbps 스위치에서 완전히 네트워크로 연결된 420개의 Alveo U55C 카드에 의해 제공됩니다. Alveo U55C 클러스터는 소형 전력 및 비용 효율적인 설치 공간에서 15Tb/s의 전체 처리량으로 처리 성능을 제공합니다. CSIRO는 이제 다른 전파 천문학 또는 인접 산업이 동일한 성공을 달성할 수 있도록 돕기 위해 예시 Alveo 참조 설계를 완성하고 있습니다.
또 다른 사용 사례로는 전 세계 거의 모든 자동차 회사에서 사용하는 Ansys LS-DYNA 충돌 시뮬레이션 소프트웨어가 있습니다. 안전 및 구조 시스템의 설계는 컴퓨터 지원 설계 FEM(유한 요소 방법) 시뮬레이션으로 물리적 충돌 테스트 비용을 완화하는 모델의 성능에 달려 있습니다. FEM 솔버는 수억 자유도의 시뮬레이션을 구동하는 기본 알고리즘이며, 이러한 거대한 알고리즘은 PCG, 희소 행렬, ICCG와 같은 보다 기본적인 솔버로 나눌 수 있습니다. 하이퍼 병렬 데이터 파이프라이닝을 통해 많은 Alveo 카드를 확장함으로써 LS-DYNA는 x86 CPU에 비해 5배 이상 성능을 가속화할 수 있습니다. 그 결과 LS-DYNA 고객이 게임을 바꾸는 시뮬레이션 시간의 혜택을 받는 Alveo 파이프라인에서 클록 주기당 더 많은 작업이 수행됩니다. Wim Slagter는 "지속적인 혁신 정신으로 우리는 LS-DYNA 시뮬레이션 애플리케이션에서 암시적 역학에 대한 컴퓨팅 워크로드의 90%를 나타낼 수 있는 유한 요소 솔버를 크게 가속화하기 위해 Xilinx와 협력하게 된 것을 기쁘게 생각합니다."라고 말했습니다. , Ansys의 전략적 파트너십 이사. "우리는 미래를 설계하는 혁신가를 지원하는 우리의 사명에 Xilinx 가속이 도움이 되기를 기대합니다."
그림>
Xilinx는 선도적인 그래프 분석 플랫폼 제공업체인 TigerGraph의 세 번째 예를 인용했습니다. 이 회사는 여러 Alveo U55C 카드를 사용하여 그래프 기반 추천 및 클러스터링 엔진을 구동하는 가장 다작의 두 알고리즘을 클러스터링하고 가속화합니다. 그래프 데이터베이스는 데이터 과학자를 위한 파괴적인 플랫폼입니다. 그래프는 사일로에서 데이터를 가져와 데이터 간의 관계에 초점을 맞춥니다. 그래프의 다음 영역은 실시간으로 해당 답변을 찾는 것입니다. Alveo U55C는 추천 엔진에 대한 쿼리 시간과 예측을 분 단위에서 밀리초 단위로 가속화합니다. 여러 U55C 카드를 활용하여 분석을 확장함으로써 뛰어난 연산 능력과 메모리 대역폭이 CPU 기반 클러스터에 비해 그래프 쿼리 속도를 최대 45배까지 가속화합니다. 점수의 품질도 최대 35%까지 향상되어 신뢰도가 높아져 오탐지를 낮은 한 자릿수로 크게 낮출 수 있습니다.
Alveo U55C 카드는 현재 Xilinx 웹사이트와 Xilinx 공인 대리점을 통해 구입할 수 있습니다. 또한 퍼블릭 클라우드 기반 FPGA-as-a-service 제공업체를 통해 평가할 수 있을 뿐만 아니라 프라이빗 미리 보기를 위한 일부 코로케이션 데이터 센터도 사용할 수 있습니다. 클러스터링은 현재 비공개 미리 보기로 제공되며 내년 2분기에 일반 공급될 예정입니다.