요약
오사카대학교는 일본의 국립대학 법인입니다. 일본 전역에 걸쳐 학계와 산업계의 연구자들을 지원하고 있습니다. 오사카대학교 사이버 미디어 센터(CMC)는 물리학에서 생명과학에 이르기까지 광범위한 과학 분야에 슈퍼컴퓨팅 리소스를 제공합니다. 2017년 CMC는 1세대 인텔® Xeon® 스케일러블 프로세서에 기반한 1.463 페타플롭스의 세계적 수준의 OCTOPUS를 배치했는데, 이는 서로 다른 아키텍처를 사용하는 다양한 워크로드를 위한 과학적 컴퓨팅을 목표로 하였습니다. OCTOPUS는 새로운 수준의 발견을 가능하게 했습니다. 과학 연구 분야에서 대학의 선도적인 위치를 계속 유지하기 위해 CMC는 2021년에 SQUID를 구축했습니다. NEC가 3세대 인텔® Xeon® 스케일러블 프로세서를 기반으로 하여 구축한 새로운 클러스터는 최고 성능이 16 페타플롭스 이상에 달하여 CMC의 이전 시스템 대비 11배 이상 빠릅니다.1 이를 통해 오사카 대학은 공유 데이터와 확장된 역량 및 기능을 사용하여 과학 전반에 걸친 새로운 이니셔티브와 학제 간 연구를 지원할 수 있게 됩니다.
SQUID의 최고 성능은 16 페타플롭스 이상에 달하여 CMC의 이전 시스템 대비 11배 이상 빠릅니다.
당면 과제
2017년 이전에는 오사카 대학 CMC 리소스는 범용 컴퓨팅 또는 과학 컴퓨팅에서 사용되거나 두 가지 모두에 의해 사용되었습니다. OCTOPUS는 전통적인 시뮬레이션 및 모델링과 당시 새롭게 떠오르고 있던 인공 지능(AI) 및 머신 러닝(ML) 분야의 전산 과학의 독점적 사용 목적으로 설계되었습니다. OCTOPUS의 이기종 아키텍처에는 인텔 Xeon 스케일러블 프로세서와 NVIDIA GPU가 포함되었습니다. 배포 후 사용량이 급격히 증가했습니다. 그것은 오사카대학교의 연구원과 학생들의 새로운 성과를 지원하는 핵심 자원이었습니다.
오사카대학교 CMC의 부교수인 다테 스스무(Date Susuma) 박사는 "OCTOPUS는 여전히 연구자들의 연구 도구에서 중요한 구성 요소입니다"라고 말합니다. “그러나 2021년에 이르러서는 평균 사용률이 90%에 달하며, 많은 사용자가 며칠씩 대기해야 작업을 시작할 수 있었습니다.”
오늘날 국립대학 법인으로서 오사카대학과 CMC는 전국 각지의 학계와 산업계의 더 많은 연구자들과 프로젝트에 참여하는 학생들을 지원하고 있습니다. 또한 AI, 사물인터넷(IoT), 고성능 데이터 분석(HPDA), 공유 데이터 사용은 과학에 대한 이해와 혁신을 확장시켜 나가는 데 점점 더 중요해지고 있습니다. 연구 확장을 지원하기 위해 CMC는 안전하고 책임있는 방식으로 데이터를 공유함으로써 과학 전반에 걸친 혁신과 더 많은 학제 간 협업을 가능하게 할 것입니다. 이러한 기능에 더 큰 용량과 고성능 그리고 사용자 확장성에 대한 필요성이 더해져 2021년 SQUID(미해결 학제 간 데이터 과학 탐구를 위한 슈퍼컴퓨터)의 설계 및 배포가 이루어졌습니다.
연안 해역(해류 및 염분의 공간적 분포)에 대한 이 3차원 유체 역학 시뮬레이션은 오사카대학의 슈퍼컴퓨터를 활용하는 프로젝트 중 하나입니다. 이미지 제공: 오사카대학교 나카타니 유스케 부교수)
솔루션
SQUID는 연산 과학의 최신 기술과 방법을 사용하여 미해결 데이터 과학 문제를 탐구하기 위해 설계되었습니다. 이러한 비전을 달성하기 위해 OCTOPUS와 마찬가지로 SQUID는 다양한 컴퓨팅 아키텍처가 필요했습니다.
"사용자 중 일부는 다양한 유형의 컴퓨팅 노드를 조합하여 사용하고 또 다른 사용자들은 이들을 비교할 것입니다"라고 다테 부교수는 말하며, OCTOPUS와 마찬가지로 SQUID는 사용자의 요구를 수용하기 위해 이질적으로 설계되었습니다”라고 덧붙였습니다.
NEC에 의해 구축된 SQUID는 총 1,598개의 서버로 구성된 세 가지 컴퓨팅 노드 그룹으로 구성됩니다.
- AI 추론 가속화를 위한 인텔® 딥 러닝 부스트(인텔® DL 부스트)가 탑재된 듀얼 소켓 인텔® Xeon® 플래티넘 8368 프로세서가 장착된 범용 HPC 컴퓨팅 노드 1,520개
- 각각에 8개의 NVIDIA A100 가속기가 탑재된 듀얼 소켓 인텔® Xeon® 플래티넘 8368 프로세서가 장착된 GPU 노드 42개
- 각각에 고대역폭 메모리를 갖춘 NEC SX-Aurora TSUBASA 타입 20A 가속기를 탑재한 벡터 노드 36개
그러나 추가적으로 SQUID는 훨씬 더 큰 데이터 용량과 관리 기능, 최고의 보안, 훨씬 더 많은 페타플롭스, 그리고 더 많은 사용자를 쉽게 지원할 수 있는 기능이 필요했습니다.
해결된 다섯 가지 핵심 과제
"SQUID를 배포하기 위해 HPC 및 HPDA 통합, 클라우드 버스팅, 보안 컴퓨팅 환경, 맞춤형 컴퓨팅 및 데이터 집계의 다섯 가지 과제를 탐구했습니다"라고 다테 부교수는 설명하며 "SQUID는 이 다섯 가지 기준에 따라 설계되었습니다"라고 부연했습니다.
HPDA 통합: 오늘날 사용자는 시뮬레이션 또는 분석이든 상관없이 다양한 목적을 위해 다양한 유형의 연산을 사용하고 다양한 방식으로 사용할 수 있습니다. 다테 부교수에 따르면 HPDA가 연구에서 통찰력을 드러내는 중요한 도구로 부상하였기 때문에 SQUID 설계에 기존 HPC와 HPDA를 모두 통합하는 것이 중요했습니다.
클라우드 버스팅: SQUID가 OCTOPUS보다 훨씬 큰 클러스터이기는 하지만, 오사카대학 CMC는 사용자 기반이 확대됨에 따라 시스템에서 긴 대기 시간을 피하기 위해 다양한 사용자의 요구를 신속하게 충족시킬 수 있는 능력이 필요했습니다. 그러기 위해서는 필요할 때 일부 워크로드를 클라우드에 버스트할 수 있는 기능을 구축해야 했습니다. 사용자는 SQUID에서만 실행하거나 필요한 경우 클라우드에 버스트하도록 선택할 수 있습니다. 정교한 NEC 작업 스케줄러는 사용자의 요구를 수용하기 위해 작업을 오라클 클라우드 인프라 또는 Microsoft Azure 클라우드로 푸시할 수 있습니다.
보안 컴퓨팅: 사용자는 NEC와 오사카대학 CMC간의 공동 개발을 통해 매우 안전한 환경에서 더 많은 데이터에 액세스할 수 있습니다. 이 환경은 데이터 및 연산을 보호하기 위해 특정 그룹에 대한 연산 및 네트워킹을 격리할 수 있는 동적 파티셔닝을 제공합니다. 또한 실험적 프로그램을 통해 스토리지에서 데이터를 이동하지 않고 온프레미스 저장소에서 민감한 기밀 데이터를 사용하는 방법을 모색하고 있습니다.
맞춤형 컴퓨팅: 오사카대학 CMC는 사용자가 맞춤형 작업 공간에서 프로젝트를 생성하고 실행할 수 있도록 싱귤래리티(Singularity) 컨테이너를 지원합니다. 사용자는 로컬 데스크톱 또는 노트북에서 프로젝트를 구축하고 컨테이너 파일을 SQUID로 전송하여 필요한 리소스를 사용하여 실행할 수 있게 합니다.
데이터 집계: 현대의 글로벌 연구는 슈퍼컴퓨팅 시스템에서 생성된 데이터를 주로 공유합니다. 한 프로젝트에서 생성된 데이터는 다른 작업에도 중요할 수 있습니다. 따라서 SQUID는 전 세계에 걸쳐 연구자 간에 데이터를 집계하고 공유할 수 있도록 설계되었습니다.
다테 부교수는 "우리는 ONION(Osaka University Next-generation Infrastructure for Open Research and Open Innovation)이라는 데이터 집계 인프라를 설계했습니다"라고 설명하며 "이를 통해 연구자가 스마트폰이나 로컬 컴퓨팅 환경을 통해 계산이 완료된 직후 다른 연구자들과 컴퓨팅 결과를 공유할 수 있습니다"라고 말했습니다.
ONION은 Cloudian Object Storage HyperStore 플랫폼과 함께 작동하며 스토리지 유연성을 개선하기 위해 다양한 데이터 액세스 프로토콜을 수용합니다. 예를 들어, S3호환 IoT 장치는 SQUID 병렬 파일 시스템 상에 데이터를 집계하도록 구성할 수 있으므로 사용자는 시뮬레이션에서 해당 데이터를 사용할 수 있습니다.
데이터 집계 인프라는 데이터 다이렉트 네트워크(DDN) EXAScaler 어플라이언스를 기반으로 구축되어 병렬 파일 시스템에서 20페타바이트의 하드 디스크 스토리지와 1.2페타바이트의 빠른 NVMe 스토리지를 제공합니다.
SQUID는 이러한 기능을 갖추고 설계되어 이제 다양한 분야의 연구자들이 일본에서 가장 빠른 클러스터 중 하나를 사용하여 자신의 작업을 수행하고 데이터를 공유할 수 있도록 합니다.
결과
CMC는 대학 연구자를 지원하는 것 외에도 두 가지 프로그램을 통해 국가 연구 프로젝트에 SQUID 리소스를 제공하고 있습니다. 이러한 프로젝트는 일본 고성능 컴퓨팅 인프라 사무소와 학제 간 대규모 정보 인프라 공동 사용/연구 센터에 의해 승인됩니다.
다테 부교수는 "지난해 이 두 기관에서 승인된 17개의 프로젝트가 오사카대학 CMC 리소스에서 실행되었습니다"라고 말하며 "그 중 11개의 프로젝트가 SQUID에서 완료되었는데, 이들은 양자색역학(QCD), 분자 역학, 코로나19, 천체물리학 등과 관련된 프로젝트이었습니다"라고 설명했습니다.
다테 부교수에 의하면 오사카대학의 한 연구 그룹은 대기열의 혼함을 탐구하기 위해 SQUID를 사용하고 있습니다. "이 그룹은 노드에서 프로세서 및 가속기의 다양한 특성을 활용할 수 있도록 조합 방식으로 서로 다른 컴퓨팅 노드를 사용합니다. 이러한 노력을 통해 이기종 컴퓨팅 노드를 보다 효과적으로 사용하는 방법을 연구하고 있습니다"라고 다테 부교수는 설명을 마무리 했습니다.
SQUID 설계에서 고려된 다섯 가지 과제를 해결하는 것은 연구가 더 글로벌화되는 것에 대한 대응이기도 했습니다. 과학자들은 새로운 통찰력을 얻고 획기적인 발견을 이루기 위해 더 많은 협업을 하고 있습니다. SQUID는 더 큰 용량과 데이터 집계/공유 인프라를 통해 글로벌 연구 커뮤니티를 지원합니다.
솔루션 요약
오사카대학교 CMC는 2017년에 구축한 OCTOPUS의 리소스를 더 높은 성능과 더 큰 용량으로 보강하고 성장하는 연구 커뮤니티의 요구를 충족할 수 있는 역량을 갖춰야 했습니다. NEC는 3세대 인텔 Xeon 스케일러블 프로세서, GPU 및 벡터 가속기로 이기종 아키텍처 클러스터를 구축하여 16페타플롭스 이상의 성능을 달성했습니다. DDN EXAScaler 어플라이언스 및 Cloudian Object Storage HyperStore 플랫폼 기반으로 구축된 데이터 집계 인프라를 통해 과학자들은 계산을 수행하고 전 세계의 다른 사람들과 즉시 데이터를 공유할 수 있습니다. SQUID는 일본의 학계와 산업계의 연구자를 위한 핵심 리소스로, 여러 과학에 걸쳐 새로운 발견과 통찰력을 가능하게 합니다.
솔루션 구성 요소
- 인텔 Xeon 플래티넘 8368 프로세서가 탑재된 1,520개의 노드
- 인텔 Xeon 플래티넘 8368 프로세서 및 노드당 8개의 GPU를 장착한 42개의 노드
- NEC SX-Aurora TSUBASA Type 20A 벡터 가속기를 장착한 36개의 노드
- DDN EXAScaler 스토리지 어플라이언스