주요 HPC 코드 실행 속도를 높이는 TACC

인텔® 제온® CPU Max 시리즈의 과학 응용 프로그램은 Frontera 대비 이점을 보여주며, 메모리 대여폭이 제한된 코드에 있어서도 성능이 향상됩니다.

개요:

  • TACC(Texas Advanced Computing Center)는 미국 내 학술 연구자를 위한 최고의 슈퍼 컴퓨팅 시설입니다.

  • Stampede2 시스템을 교체하려 할 때 TACC는 HBM(고대역폭 메모리)을 갖춘 인텔® 제온® CPU Max 시리즈에서 과학 코드의 성능을 평가했습니다.

author-image

기준

요약

2023년 7월 오스틴 텍사스 대학의 Texas Advanced Computing Center(TACC)는 미국 국립 과학 재단(NSF)이 미국 전역의 학술 연구를 지원하기 위해 Stampede3 슈퍼컴퓨터를 위한 새로운 하드웨어에 대해 1,000만 달러의 보조금을 수여했다고 발표했습니다.

Stampede 시스템은 10년이 넘는 시간 동안 NSF 학술 슈퍼컴퓨팅 생태계의 주력이었습니다. Stampede3은 다음으로 구성됩니다.

 

  • 고대역폭 메모리를 갖춘 인텔® 제온® CPU Max 시리즈에 구축된 560 노드 기반 하이엔드 시뮬레이션을 위한 새로운 4페타플롭 기능 시스템. 이러한 노드는 가장 크고 성능이 집약적인 컴퓨팅 작업을 위해 거의 63,000개의 코어를 추가합니다.
  • AI/머신 러닝(ML) 및 기타 GPU 친화적 응용 프로그램을 위한 인텔® 데이터 센터 GPU Max 시리즈 40개가 탑재된 10개의 Dell PowerEdge XE9640 서버를 포함한 새로운 GPU/Artificial Intelligence(AI) 하위 시스템.
  • 더 높은 메모리 응용 프로그램을 위한 3세대 인텔® 제온® 스케일러블 프로세서 노드 224개와 Stampede2의 기존 인텔® 제온® 스케일러블 프로세서 노드 1000개의 재통합. 이러한 프로세서는 고속 처리 컴퓨팅, 대화형 워크로드 및 기타 작은 워크로드를 지원합니다.
  • 24TB/s 백플레인 대역폭을 갖춘 Cornelis Networks의 새로운 Omni-Path Express 400Gb/s 패브릭 기술이 추가. 새로운 패브릭은 고성능 상호 연결을 제공하여 응용 프로그램에 대한 짧은 대기 시간과 탁월한 확장성 및 I/O 하위 시스템에 대한 높은 연결성을 제공합니다.새로 설계된 Dell Technologies DLC7000 랙에 설치될
  • PowerEdge C6620 서버 및 XE9640 서버는 각각 CPU 및 GPU에 직접적인 액체 냉각을 지원하여 실내에 가까운 온도를 제공합니다.
  • Stampede3의 관리 플랫폼이 될 Dell Technologies 네트워킹.

"우리는 제온 Max CPU 노드의 고대역폭 메모리가 사용자가 이전에 본 그 어떤 CPU보다 더 나은 성능을 제공하는 데 도움이 될 것이라 믿습니다." - TACC 이사 Dan Stanzione

Stampede3은 총 140,000개 이상의 인텔 코어를 갖춘 1,858개의 컴퓨팅 노드, 330테라바이트가 넘는 RAM, 13페타바이트의 새로운 스토리지, 거의 10페타플롭의 최고 성능을 제공합니다. 모든 구성 요소가 동일한 패브릭, 파일 시스템 및 할당에 통합됩니다.

"인텔 제온 CPU MAX 시리즈 노드의 고대역폭 메모리가 사용자가 이전에 본 그 어떤 CPU보다 더 나은 성능을 제공하는 데 도움이 될 것이라 믿습니다." 라고 TACC 디렉터 Dan Stanzione 말했습니다. "이 메모리는 Stampede2의 현재 2세대 및 3세대 인텔 제온 프로세서 노드보다 코어당 2배 이상 향상된 메모리 대역폭 성능을 제공합니다."

DDR5를 탑재한 인텔 제온 CPU Max 시리즈의 커뮤니티 어스 시스템 모델은 TACC의 Frontera 슈퍼컴퓨터보다 2.5배 더 빨랐고, 코드는 HBM 전용 모드 인텔 Max 시리즈 CPU에서 30% 향상을 달성했습니다.1

당면 과제

TACC는 미국 내 학술 연구자를 위한 최고의 슈퍼컴퓨팅 시설입니다. 센터는 과학이 직면한 거대한 과제를 계속 지원할 수 있는 차세대 컴퓨팅 기능을 항상 찾고 있습니다. Stampede2 시스템(미국 학술 HPC 커뮤니티의 주요 시스템인 Intel/Dell Technologies 시스템)을 교체하려 할 때 TACC는 HBM(고대역폭 메모리)을 갖춘 프로세서 제품군인 인텔® 제온® CPU Max 시리즈에서 과학 코드의 성능을 평가했습니다.

HBM은 GPU 상승의 주요 요소 중 하나였습니다. 또한 HBM-기반 프로세서를 포함하는 Fugaku 슈퍼컴퓨터의 2020 및 2021 세계 랭킹 Top500에서 1위를 차지하는 데 중요한 역할을 했습니다. 인텔 제온 CPU Max 시리즈는 HBM을 통합하는 최초의 x86 CPU입니다.

새로운 프로세서의 성능을 평가하기 위해 TACC는 NSF 자금 특성 과학 응용 프로그램(CSA) 프로그램의 일부인 다양한 실제 HPC 응용 프로그램을 사용했습니다. CSA 프로그램을 통해 TACC는 연구원과 협력하여 2026년에 도착할 것으로 예상되는 기관의 대표 슈퍼컴퓨터인 코드명 Horizon을 관리하게 될 LCCF(Leadership-Class Computing Facility)를 위한 과학 응용 프로그램을 준비합니다. 응용 프로그램은 대규모 과학 컴퓨팅 사용자 커뮤니티에 의해 식별되었습니다. 이들은 연구자들이 미래의 슈퍼컴퓨터에서 실행할 광범위한 과학 영역과 컴퓨팅 접근 방식(언어부터 방법, 워크플로까지)을 반영합니다.

표 1. 벤치마킹을 위한 특성 과학 응용 프로그램(CSA) 및 기상 연구 및 예측(WRF) 코드 목록.

솔루션

TACC 연구원들은 인텔 제온 CPU Max 시리즈에서 CSA 코드 13개와 기상 연구 및 예측(WRF) 코드를 벤치마킹했습니다. 표 1은 사용되는 코드를 나열합니다. 동일한 코드가 TACC의 가장 강력한 성능 컴퓨팅 시스템이자 현재 2023년 6월 Top500 목록에서 21위를 차지한 Frontera의 2세대 인텔® 제온® 프로세서에서 벤치마킹되었습니다.

인텔 제온 CPU Max 시리즈는 DDR5에만 의존하여 HBM 전용 모드와 HBM을 끌 수 있는 플랫 모드를 포함하여 다양한 모드로 실행할 수 있습니다. TACC는 HBM 대비 DDR5의 성능 특성 및 이점을 파악하기 위해 이러한 메모리 모드 모두에서 인텔 제온 CPU Max 시리즈의 효율성을 테스트했습니다. 인텔 제온 CPU Max 시리즈는 두 모드, 특히 메모리 대역폭에 제한된 응용 프로그램에서 상당한 성능 향상을 제공했습니다.

3D 지진 코드 Anelastic Wave Propagation 코드는 Frontera보다 인텔 Max 시리즈 CPU에서 3.7배 더 빠르게 실행되었으며, HBM으로 100% 향상된 성능을 보였습니다.HBM.1

결과

두 모드 모두 TACC Frontera 슈퍼컴퓨터를 구동하는 2세대 인텔 제온 프로세서보다 상당한 이득을 제공했습니다. 예를 들어, DDR5 메모리만 있는 상태에서 코드는 이전 버전보다 평균 2배 더 빠르게 실행되었습니다.n.1 그러나 초병렬적이고 데이터 사용량이 많으며 메모리 대역폭이 제한적인 문제의 경우, HBM을 탑재한 인텔 제온 CPU Max 시리즈는 평균 속도가 2.6배 빨라지는 등 훨씬 뛰어났습니다.up.1

코드의 3분의 1 이상이 HBM이 탑재된 인텔 제온 CPU Max 시리즈에서 실행되며, DDR5만 실행하는 것보다 50% 이상의 성능 향상을 보였습니다. 일부 코드는 HBM을 추가하면 최대 2배 더 빠른 성능을 보였습니다.

"새로운 인텔 제온 CPU Max 시리즈는 2세대 인텔 제온 프로세서보다 정확히 2배 많은 코어를 가지고 있어 최소 2배 더 뛰어날 것으로 기대합니다." 라고 HPC의 TACC 디렉터 John Cazes는 말했습니다. "그러나 HBM의 경우 2.6배이므로 훌륭한 승수효과를 내죠. 인텔 제온 CPU Max 시리즈의 코어가 HBM이 제공하는 메모리 대역폭을 포화시킬 수 없는 충분한 메모리 대역폭을 가지고 있습니다. 이는 CPU에서 발생하는 매우 드문 문제입니다."

더 빠른… 기후 투영, 물질 발견, 우주 모델링

평가된 14개의 응용 프로그램 중에는 IceCube Neutrino Observatory와 같은 대규모 국제 실험용 소프트웨어, 지진과 천체 물리학 커뮤니티의 널리 사용되는 코드, 머신 러닝 및 블랙홀 모델링에 대한 혁신적인 접근 방식을 탐색하는 사용자 지정 코드가 있습니다. 그림 1을 참조하십시오.

그림 1. 특성 과학 응용 프로그램(CSA)과 기상 연구 및 예측(WRF) 코드의 정규화된 성능 비교.1

성능 주요 정보

HBM으로 상당한 성능 향상을 보여주는 한 코드는 콜로라도 주립대가 주도하는 NSF 후원 EarthWorks 프로젝트가 개발한 커뮤니티 어스 시스템 모델(CESM)의 특수 구성으로, 초고해상도로 계절풍 날씨와 기후 현상을 연구합니다. CESM은 지구 과학 커뮤니티에서 사용하는 주요 기후 코드 중 하나입니다. CESM은 연구 커뮤니티와 협력하여 국립 대기 연구 센터(NCAR)에서 개발 및 관리됩니다. CESM의 EarthWorks 구성은 Frontera보다 DDR5를 갖춘 인텔 제온 CPU Max 시리즈에서 2.5배 더 빠릅니다;1 코드는 HBM 전용 모드에서 30%(3.2배) 향상을 달성했습니다.1

"새로운 기술의 힘을 적용하면 기후 변화와 함께 오는 위험을 더 잘 이해하는 데 도움이 되는 글로벌 악천후 해결 모델을 개발할 수 있습니다." 라고 EarthWorks의 개발자 중 한 명인 콜로라도 주립대 교수 David Randall은 말했습니다. "2.5배~3배 속도 향상은 우리가 더 빠르게 해답을 찾거나 모델의 해상도와 정확도을 훨씬 더 높일 수 있음을 의미합니다."

기상 연구 및 예측 모델(WRF)은 Frontera의 CPU와 비교하여 DDR5를 갖춘 인텔 제온 CPU Max 시리즈 프로세서에서 2.09배의 속도 향상을 보였습니다. HBM이 탑재된 인텔 제온 CPU Max 시리즈에서 WRF는 2세대 인텔 제온 프로세서보다 3.5배 더 빠르게 실행되었으며, 이는 DDR5보다 70% 빠른 속도입니다.1

기상 연구 및 예측 모델(WRF)은 대기 연구 및 운영 예측 응용 프로그램을 위해 설계된 또 다른 최첨단 수치 기상 예측 시스템입니다. WRF는 Frontera의 CPU와 비교하여 DDR5를 갖춘 인텔 제온 CPU Max 시리즈 프로세서에서 2.09배 속도 향상을 보였습니다.1 HBM이 탑재된 인텔 제온 CPU Max 시리즈에서 WRF는 2세대 인텔 제온 프로세서보다 3.5배 더 빠르게 실행되었으며, 이는 DDR5보다 70% 빠른 속도입니다.1

두 인텔 제온 CPU Max 시리즈 메모리 모드에서 탁월한 성능을 보여주는 또 다른 코드는 3D 지진 코드인 Anelastic Wave Propagation(AWP)입니다. 이 코드는 샌디에고 슈퍼컴퓨터 센터의 Yifeng Cui가 개발했습니다. 코드는 Frontera보다 인텔 제온 CPU Max 시리즈에서 3.7배 더 빠르게 실행되었으며, HBM으로 100% 향상된 성능을 보였습니다.1

Cazes는 아직 HBM을 활용할 수 있도록 최적화되지 않은 응용 프로그램의 경우, 인텔 제온 CPU Max 시리즈의 가용성이 코드 및 알고리즘 변화으로 이어질 것이라고 보고 있습니다.

"인텔 제온 CPU MAX 시리즈 노드의 고대역폭 메모리가 사용자가 이전에 본 그 어떤 CPU보다 더 나은 성능을 제공하는 데 도움이 될 것이라 믿습니다." 라고 Stanzione 말했습니다. "이 메모리는 Stampede2의 현재 2세대 및 3세대 인텔 제온 프로세서 노드보다 코어당 2배 이상 향상된 메모리 대역폭 성능을 제공합니다. 우리는 미국의 모든 공공 과학 연구 프로젝트에 사용할 수 있는 국가 사이버 인프라에 Stampede3을 차세대 고성능 및 용량의 HPC 시스템으로 배포할 수 있기를 기대합니다."

코드 변경 필요 없음

새로운 CPU 아키텍처를 볼 때 코드 이식은 항상 고려됩니다. 코드를 개발하고 최적화하는 데 드는 시간과 노력은 과학적 노력에 사용할 수 있는 주기를 줄입니다. 많은 소규모 팀의 경우, 복잡한 다중 종속 레거시 코드를 GPU에 이식하는 것은 매우 어렵습니다.

"우리는 동일한 시스템 라이브러리를 가지고 있기 때문에 Frontera에서 실행한 바이너리를 들어 인텔 제온 CPU Max 시리즈에서 실행하면 그냥 작동됩니다." - HPC TACC 디렉터 John Cazes

TACC 팀이 과학 코드의 성능을 평가하고 비교하는 것은 쉬웠습니다. Frontera CPU에서 최신 세대의 인텔 데이터 센터 프로세서로 코드를 이식하는 데 코드 변경이 거의 또는 전혀 필요하지 않았습니다. 이는 과학자들이 x86 프로세서에 최적화한 수천 개의 코드와 수십억 개 라인의 과학 소프트웨어에 유용합니다.

"우리는 동일한 시스템 라이브러리를 가지고 있기 때문에 Frontera에서 실행한 바이너리를 들어 인텔 제온 CPU Max 시리즈에서 실행하면 그냥 작동됩니다." 라고 HPC TACC 헤드 디렉터 John Cazes가 말했습니다. 이에 Los Alamos 국립 연구소Numenta의 연구원을 비롯한 다른 초기 고객들은 동의했습니다.

최신 인텔 제온 프로세서에서 이러한 코드의 성능은 매력적입니다. 성능에 더하여 코드를 Frontera에서 최신 CPU로 직접 가져갈 수 있는 용이성을 통해 연구원은 추가 작업 없이 더 빠른 결과를 얻을 수 있습니다.

요약

13개의 CSA 코드와 WRF를 평가한 결과, TACC의 평가는 Frontera와 비교하여 인텔 제온 CPU Max 시리즈의 DDR5 및 HBM 전용 모드를 모두 사용하여 상당한 성능 향상을 보였습니다. 가장 흥미로운 것은 인텔 제온 CPU Max 시리즈에서 실행할 때 많은 코드에 대한 HBM의 이점입니다. 또한 속도 향상은 과학자가 다양한 시스템과 CPU에 걸쳐 코드를 이식하는 데 시간을 할애할 필요가 없다는 형태로 나타납니다.

"HPC와 AI에서 가속기와 GPU의 사용은 확실히 증가하고 있지만, 높은 대역폭 메모리가 많은 이점을 제공하지 않는다는 점은 분명하지 않습니다." 라고 Stanzione은 말했습니다. "우리는 고성능 CPU도 필요합니다. 그리고 우리의 벤치마크를 기반으로 인텔 제온 CPU Max 시리즈는 사용자에게 분명한 이점을 제공할 것입니다."

인텔 제온 CPU Max 시리즈의 성능 이점

다음은 새로운 인텔 제온 CPU Max 시리즈에서 실행되는 코드에 대해 TACC가 보는 몇 가지의 성능 예입니다.

 

  • CESM의 EarthWorks 구성은 Frontera보다 DDR5를 갖춘 인텔 제온 CPU Max 시리즈에서 2.5배 더 빠릅니다;1 코드는 HBM 전용 모드에서 30%(3.2배) 향상을 달성했습니다.1
  • WRF는 Frontera의 CPU와 비교하여 DDR5를 갖춘 인텔 제온 Max 시리즈 프로세서에서 2.09배 속도 향상을 보였습니다. HBM을 탑제한 인텔 제온 CPU MAX 시리즈에서 WRF는 2세대 인텔 제온 프로세서보다 3.5배 빠른 속도로 실행되었으며, 이는 DDR5보다 70% 빠른 속도입니다.1
  • 3D 지진 코드 Anelastic Wave Propagation(AWP)은 Frontera보다 인텔 제온 CPU Max 시리즈에서 3.7배 더 빠르게 실행되었으며, HBM으로 100% 향상된 성능을 보였습니다.1

주요 정보:

  • TACC는 거의 10페타플롭의 최대 성능을 제공하는 새로운 Stampede3 슈퍼컴퓨터용으로 인텔 제온 CPU Max 시리즈로 구동되는 Dell PowerEdge C6620 서버와 인텔 데이터 센터 GPU Max 시리즈로 구동되는 Dell PowerEdge XE9640 서버를 선택합니다.
  • 이 선택은 최신 인텔 제온 CPU Max 시리즈에서 14개의 주요 HPC 코드의 성능을 평가한 이후 이루어졌습니다.
  • 인텔 제온 CPU Max 시리즈에서 평균 2.6배 속도 향상1 고대역폭 메모리 모드.
  • AI, ML 및 GPU 친화적 응용 프로그램용 인텔 데이터 센터 GPU Max 시리즈 40개로 구동되는 새로운 하위 시스템입니다.

 

PDF 다운로드 ›