교토 대학교, HPC 용량 확장

컴퓨팅 및 미디어용 아카데믹 센터는 인텔® 제온® 프로세서를 사용하여 과학적 조사 결과를 가속화합니다.

개요:

  • 일본 전역과 전 세계로 캠퍼스를 확장시킨 교토 대학은 ACCMS(컴퓨팅 및 미디어 아카데믹 센터)를 운영합니다.

  • 2023년 ACCMS는 2년간의 기술 연구, 설계 및 입찰을 거쳐 3대의 새로운 슈퍼컴퓨터를 설치할 예정입니다. 새로운 시스템은 균형 잡힌 HPC 인프라에서 고성능 메모리 대역폭, 대용량 메모리 및 높은 병렬 성능에 대한 사용자 요구를 해결하기 위해 최신 세대의 인텔® 제온® 프로세서를 기반으로 구축되었습니다.

author-image

기준

요약

일본 전역과 전 세계로 캠퍼스를 확장시킨 교토 대학(Kyoto U)ACCMS(컴퓨팅 및 미디어 아카데믹 센터)를 운영합니다. ACCMS는 컴퓨팅 및 미디어 분야의 학술 연구를 지원하고 컴퓨팅 연구를 위한 여러 HPC(고성능 컴퓨팅 시스템)을 호스팅합니다.

ACCMS에서 운영하는 기존 슈퍼컴퓨터는 2016년에 설치되었습니다. 연구원이 사용하는 시뮬레이션 코드 및 계산 실습의 연구 개발은 수년에 걸쳐 발전해 왔습니다. 기존 HPC 리소스는 많은 코드를 메모리 대역폭에 바인딩합니다.

2023년 ACCMS는 2년간의 기술 연구, 설계 및 입찰을 거쳐 3대의 새로운 슈퍼컴퓨터를 설치할 예정입니다. 새로운 시스템은 균형 잡힌 HPC 인프라에서 고성능 메모리 대역폭, 대용량 메모리 및 높은 병렬 성능에 대한 사용자 요구를 해결하기 위해 최신 세대의 인텔® 제온® 프로세서를 기반으로 구축되었습니다.

당면 과제

ACCMS 부교수인 후카자와 케이이치로는 "시뮬레이션을 위해 우리 슈퍼컴퓨터의 많은 사용자가 매우 긴 실행 시간을 들여 자체 코드를 개발했습니다."라고 설명합니다. “연구원 대부분은 플라즈마 물리학, 분자 역학 및 유체 역학에 대한 코드를 실행합니다. 다른 사용자는 Gaussian, LS-DYNA, ANSYS, Mathematica 등과 같은 ISV 응용 프로그램을 사용합니다.”

4세대 인텔® 제온® 프로세서를 기반으로 하는 교토의 Laurel 3 슈퍼컴퓨터는 상용 소프트웨어 및 기타 사용자 코드를 실행할 것입니다.

2016년에 배포된 기존 ACCMS 슈퍼컴퓨터를 사용하는 연구원은 프로젝트를 위해 보다 집약적인 코드를 개발하면서 더 짧은 시간에 결과를 제공할 수 있는 더 강력한 리소스가 필요했습니다. 또한 이전 시스템에 필요한 지원이 부족했습니다.

후카자와는 "가장 중요한 것은 과학적 결과를 신속하게 얻을 수 있는 것이라고 생각합니다."라고 덧붙였습니다. “따라서 최소한 하드웨어 및 시스템 설계에서 응용 프로그램의 실행 효율성을 높여야 합니다. 또한 소프트웨어를 최적화하여 성능을 더욱 개선하고 실행 시간을 단축할 수 있습니다.”

실행 시간이 짧을수록 더 빠른 결과를 얻을 수 있을 뿐만 아니라 프로젝트당 전력과 컴퓨팅 비용도 감소합니다. ACCMS가 여러 세대의 기술 발전으로부터 혜택을 받을 때가 된 것입니다.

솔루션

후카자와 교수와 팀은 더 높은 메모리 대역폭 성능의 중요한 요구 사항을 해결하는 기술로 새로운 시스템을 설계했습니다. NEC는 입찰을 수주했고 Dell Technologies와 협력하여 기존 슈퍼컴퓨터를 대체할 새로운 시스템을 설치했습니다.

그는 "우리는 세 가지 구성이 있습니다. 하나는 사용자 고유의 코드용, 하나는 소프트웨어 공급업체의 일반 상용 응용 프로그램용, 다른 하나는 대용량 메모리를 필요로 하는 응용 프로그램용입니다."라고 설명했습니다.

"기존 시스템은 많은 응용 프로그램의 성능을 제한합니다. 따라서 가장 큰 시스템에는 고대역폭 메모리가 포함됩니다."

세 시스템은 이전 제품인 Camphor 2, Laurel 2 및 Cinnamon 2를 대체합니다. 새로운 시스템은 다음과 같습니다.

 

  • Camphor 3: 56코어 인텔® 제온® CPU Max 시리즈 9480 및 128GB 메모리를 갖춘 Dell PowerEdge C6620 서버의 1,120개 노드로 구성된 7.63페타플롭스 시스템입니다. Camphor 3는 올해 후반에 HBM(High Bandwidth Memory)이 통합된 프로세서 제품군인 인텔 제온 Max 시리즈 CPU를 추가할 계획입니다. 이로 인해 초당 3.2테라바이트의 메모리 대역폭을 제공받아 많은 코드에서 솔루션 시간을 더욱 가속화할 수 있습니다.
  • Laurel 3: 56코어 인텔® 제온® Platinum 8480+ 프로세서 및 512GB 메모리와 함께 Dell PowerEdge C6620 서버의 370개 노드를 사용하는 2.65페타플롭스 시스템. 이는 상용 소프트웨어 및 기타 사용자 코드를 실행하는 범용 시스템입니다.
  • Cinnamon 3: 56코어 인텔 제온 Platinum 8480+ 프로세서 및 2TB 메모리를 갖춘 Dell PowerEdge C6620 서버의 16개 노드로 구성된 114.6테라플롭스 시스템입니다. Cinnamon 3는 매우 큰 메모리가 필요한 응용 프로그램을 지원합니다.

 

다른 기술로 구축된 네 번째 시스템(Gardenia)은 GPU를 사용하는 코드를 지원하고 인텔 제온 6354 프로세서에 구축된 기존 클라우드 시스템은 전국의 사용자 상호 연결을 지원합니다. 모든 슈퍼컴퓨터는 40.32PB Lustre 파일 시스템과 4.06PB 플래시 스토리지 시스템에서 지원됩니다. 노드와 시스템은 400Gbps InfiniBand 패브릭에서 상호 연결됩니다.

새로운 설계에 도달하기 위해 후자카와 교수와 산하 팀은 최신 기술을 조사하고 인텔 제온 프로세서의 벤치마크를 실행했습니다.

그림 1. Laurel 2와 비교한 Laurel 3의 벤치마크 코드 성능(도쿄 대학 제공).1

그는 "특히 사용자 응용 프로그램의 경우, "메모리 대역폭과 CPU 처리량 성능의 비율이 가장 중요합니다. 따라서, 우리는 높은 대역폭 메모리를 가진 고성능 CPU를 원했습니다. 올해 말에 추가할 새로운 HBM2e 메모리 기술은 높은 실행 효율성을 제공할 것입니다." 라고 말합니다.

많은 연구원이 자체적으로 벡터 처리 코드를 작성합니다. 구형 Laurel 2 시스템에서 프로세서는 인텔® AVX2(인텔® Advanced Vector Extensions 2)를 지원합니다. Laurel 3의 4세대 인텔® 제온® 프로세서는 벡터 레지스터의 너비를 두 배로 늘리는 인텔® AVX-512(인텔® Advanced Vector Extensions 512)를 통합합니다. 후카자와 교수에 따르면 인텔® MKL(인텔® Math Kernel Library)를 사용하여 이전 시스템에 비해 최소 1.5배 더 빠른 벡터 코드를 볼 수 있을 것을 예상합니다.1

시스템의 전체 목록은 ACCMS 슈퍼컴퓨터 웹사이트에서 찾을 수 있습니다.

결과

교토 대학의 첫 번째 새로운 슈퍼컴퓨터는 2023년 중반에 생산 상태가 될 것입니다. 후카자와 연구팀은 승인 테스트를 시작하고 초기 사용자가 코드를 실행할 수 있도록 공개하여 사용할 것입니다. 후카자와 교수에 따르면 새로운 Laurel 3 시스템의 벤치마킹된 벡터화된 코드는 이미 평균적으로 Laurel 2에 비해 3.8배 더 나은 노드 성능을 달성하고 있습니다(그림 1).2

그는 "제 MagnetoHydroDynamic 시뮬레이션 코드는 이전 시스템보다 약 5배 더 나은 노드 성능을 달성할 수 있습니다."라고 결론내립니다. “또한 HBM2e가 있는 인텔 제온 Max 시리즈 CPU와 함께 테스트 모델을 사용할 수 있었고 새로운 Laurel 3보다 3배 더 나은 노드 성능을 확인했습니다. 따라서 인텔 Max 시리즈 CPU의 성능이 높아질 것이 기대됩니다.”—ACCMS 부교수 후카자와 케이이치로

솔루션 요약

교토 대학의 ACCMS는 여러 시스템에서 HPC 리소스를 사용하여 대학 연구원의 슈퍼컴퓨팅 요구 사항을 지원합니다. 특히 사용자는 기존 시스템보다 더 높은 메모리 대역폭 성능이 필요한 코드를 실행해 왔습니다. ACCMS는 인텔 제온 프로세서에 구축된 세 가지 새로운 시스템을 설계하고 배포할 것입니다. 인텔 제온 CPU Max 9480이 장착된 곧 출시될 시스템은 고대역폭 메모리의 요구 사항을 해결하고 인텔 제온 8480+ 프로세서가 장착된 두 시스템은 일반 및 대용량 메모리 컴퓨팅 요구 사항을 충족합니다. Laurel 3 및 Cinnamon 3 시스템은 현재 활성화되어 있으며 Camphor 3는 2023년 10월에 운영될 예정입니다.

솔루션 구성 요소

  • 슈퍼컴퓨터는 교토 대학 ACCMS(Academic Center for Computing and Media Studies)를 지원합니다.
  • 386노드 인텔® 제온® Platinum 8480+ 프로세서(대용량 메모리가 있는 16노드)

PDF 다운로드