아르곤 국립 연구소(ANL)의 오로라 엑사급 시스템

10억의 10억 배 FLOPS 초과할 것으로 예상되는 오로라의 성능은 연구 및 엔지니어링 작업에 힘을 실어 줄 것입니다.

개요:

  • 일리노이에 위치한 아르곤 국립 연구소(ANL)은 인류가 직면한 가장 중요한 질문을 다루는 데 중점을 둔 종합 연구 센터입니다.

  • 오로라의 성능은 HPE와 인텔뿐 아니라 미국 에너지부(DOE)의 지원을 받아 초당 10억의 10억 배 연산 횟수에 해당하는 1 exaFLOPS를 초과할 것으로 예상됩니다.

author-image

기준

요약

아르곤 국립 연구소(ANL)의 오로라는 인텔® 아키텍처를 기반으로 구축된 국내 최초의 엑사급 HPC 시스템이 될 것입니다. 오로라의 성능은 하도급 계약자인 HPE(Hewlett Packard Enterprise)와 인텔뿐 아니라 미국 에너지부(DOE)의 지원을 받아 초당 10억의 10억 배 연산 횟수에 해당하는 1 exaFLOPS를 초과할 것으로 예상됩니다. 극한의 규모와 성능 수준을 갖춘 오로라는 생화학, 엔지니어링, 천체물리학, 에너지, 헬스케어 등과 같은 분야에서 가장 진보된 연구에 필요한 컴퓨팅 성능을 과학계에 제공할 것입니다.

과제

미국의 선도적인 연구 기관인 아르곤 국립 연구소는 미래의 엑사급 컴퓨팅 성능을 제공하기 위한 국가적 노력의 최전선에 있습니다. 오로라의 미래 모습인 아르곤 리더십 컴퓨팅 시설(ALCF)은 HPC, 고성능 데이터 분석 및 AI의 융합을 통해 과학 컴퓨팅을 발전시키는 데 도움을 주고 있습니다.

ALCF 컴퓨팅 리소스는 대학, 산업 및 정부 기관의 연구원이 사용할 수 있습니다. ALCF는 슈퍼컴퓨팅 시간과 사용자 지원 서비스에 대한 상당한 수상 경력을 가지고 있으며, 과학과 엔지니어링 부문에서 가장 크고 복잡한 세계적인 문제를 해결하는 데 주력하는 대규모 컴퓨팅 프로젝트를 가능하게 합니다. DOE와 ALCF는 경쟁력을 확보하고자 하는 열망과 함께 연구원들이 대규모 데이터 세트의 AI 기반 분석 또는 본격적인 시뮬레이션과 같은 과제를 해결할 수 있기를 원했습니다.

아르곤 리더십 컴퓨팅 시설(ALCF)이 인텔 아키텍처인 오로라에 구축된 국내 최초의 엑사급 시스템 중 하나를 공개하면 시뮬레이션, 데이터 및 학습 연구를 새로운 수준으로 끌어올리는 데 도움이 될 것입니다.

솔루션

기본적으로 인텔은 내부 HPC 시스템 전문성과 통합자인 아르곤 및 HPE의 HPC 전문가와의 긴밀한 파트너십으로 구축되었습니다. 함께 엑사급 시스템인 오로라를 제공하여 exaflop, 또는 초당 10억의 10억 배의 연산 횟수를 지원할 것입니다.

통합된 팀은 첨단 연구 프로젝트에 필요한 성능을 달성하기 위해 몇 년 동안 시스템을 설계하고 전문 소프트웨어 및 하드웨어 혁신으로 이를 최적화했습니다. 오로라 설계를 위한 또 다른 요건으로는 장기적인 신뢰성과 에너지 효율성을 갖춘 구성 요소가 있습니다.

오로라가 제공되면 몇 가지 새로운 인텔 기술을 선보일 것입니다. 긴밀하게 통합된 각 노드에는 2개의 미래 인텔® 제온® 스케일러블 프로세서와 6개의 미래 인텔® Xe 아키텍처 기반 GPU가 탑재됩니다. 또한 각 노드는 8개의 패브릭 엔드포인트, 통합 메모리 아키텍처, 고대역폭, 저지연 연결을 통해 확장 효율성을 제공합니다. 이 시스템은 엑사급 컴퓨팅 요건에 맞게 10페타바이트의 메모리를 지원합니다.

오로라 사용자는 데이터 집약적 워크로드와 관련된 병목 현상을 해결하는 인텔® DAOS(Distributed Asynchronous Object Storage) 기술의 이점을 누릴 수도 있습니다. 인텔® Optane™ 영구 메모리에서 지원되는 DAOS는 대규모 분산 NVM(비휘발성 메모리)용으로 구축된 소프트웨어 정의 객체 저장소를 활성화합니다.

이 시스템은 차세대 HPE 시스템 소프트웨어를 통합하는 HPE Cray Shasta 슈퍼컴퓨터 아키텍처를 기반으로 구축되어 모듈성, 연장성, 프로세스 선택의 유연성 및 원활한 확장성을 지원합니다. 또한 네트워크 백본으로 HPE Slingshot 인터커넥트를 포함하여 적응형 라우팅, 혼잡 제어, 이더넷 호환성과 같은 중요한 새로운 기능들을 제공합니다.

Cray ClusterStor E1000 병렬 스토리지 플랫폼은 총 200페타바이트(PB)의 새로운 스토리지를 제공하여 연구원들에게 증가하는 컨버지드 워크로드를 지원합니다. 새로운 솔루션은 데이터 공유를 위해 Grand라는 150PB의 센터 와이드 스토리지 시스템과 Eagle이라는 50PB의 커뮤니티 파일 시스템을 포함합니다. 오로라가 작동되면 1TB/s 대역폭을 처리할 수 있는 Grand가 컨버지드 시뮬레이션 과학 및 새로운 데이터 집약적 워크로드를 지원하도록 최적화됩니다.

오로라 슈퍼컴퓨터는 곧 출시될 다음과 같은 인텔의 HPC 및 AI 하드웨어와 소프트웨어 혁신을 통합하는 미국 최초의 엑사급 시스템이 될 것입니다.

  • 차세대 인텔® 제온® 스케일러블 프로세서
  • 미래형 인텔® Xe 아키텍처 기반 GPU
  • DAOS(Distributed Asynchronous Object Storage) 기술을 기반으로 하는 230페타바이트의 스토리지, 대역폭 >25TB/S
  • 다양한 CPU, GPU, FPGA 및 AI 아키텍처 전반에서 개발을 간소화하도록 설계된 oneAPI 통합 프로그래밍 모델

아르곤 팀은 이기종 아키텍처에서 개발을 단순화하도록 설계된 oneAPI 프로그래밍 모델에 의존합니다. oneAPI는 다양한 CPU, GPU, FPGA, AI 가속기 전반에서 통합된 단일 프로그래밍 모델을 제공합니다.

결과

팀은 현재 새로운 아키텍처를 위한 생태계 개발을 위해 노력하고 있습니다. ALCF는 Aurora ESP(Early Science Program)를 구성하여 연구 커뮤니티와 중요한 과학적 응용 프로그램에서 엑사급 시스템의 규모와 아키텍처에 대비할 수 있도록 합니다.

ESP는 HPC, 고성능 데이터 분석, AI에 이르는 다양한 프로젝트에 사전 제작 시간과 리소스를 제공했습니다. 선택한 프로젝트의 대부분은 기존 HPC 시스템의 성능을 능가하는 매우 정교한 연구를 대표합니다. 따라서 오로라는 오늘날 불가능한 컴퓨팅 집약적인 과학적 노력이 현실이 되는 새로운 과학의 시대로 이끌 것입니다.

HPE(Hewlett Packard Enterprise) 집중 조명
HPE는 계산 능력과 창의성을 결합하며, 비전가들은 지속적인 의문을 제기하면서 가능성의 한계에 도전합니다. 45년 이상의 경험을 구축한 HPE는 성능, 효율성 그리고 확장성의 경계를 넘어서는 세계에서 가장 진보된 슈퍼컴퓨터를 개발합니다. HPE Cray EX 슈퍼컴퓨팅 아키텍처를 위한 HPE Cray Program Environment, HPE Slingshot 인터커넥트와 같은 개발을 통해 HPE는 데이터와 검색의 융합을 위한 새로운 솔루션을 지속적으로 혁신하고 있습니다. HPE는 슈퍼컴퓨터, 고성능 스토리지, 데이터 분석 및 AI 솔루션의 포괄적인 포트폴리오를 제공합니다.

최고의 HPC 시스템을 필요로 하는 차세대 과학

오로라에서 처음 예정된 프로젝트는 가장 까다롭고 컴퓨팅 집약적인 작업의 일부를 보여줍니다. 다음은 Aurora ESP(Early Science Program)에 승인된 많은 프로젝트 중 일부입니다.

안전하고 깨끗한 핵융합로 개발
태양이 에너지를 생산하는 방식은 핵융합은 재생 가능한 에너지원으로 엄청난 잠재력을 보유하고 있습니다. 핵융합로 중의 어떤 유형은 연료를 담기 위해 자기장을 사용합니다. 이 연료는 해수에서 추출한 수소의 동위원소인 중수소를 포함하는 고온 플라즈마입니다. Princeton Plasma Physics Lab의 수석 연구 물리학자인 William Tang 박사는 오로라를 사용하여 AI 모델을 훈련시켜 원자로 가동이 예기치 않게 중단되는 상황을 예측할 계획입니다. 오로라는 AI 모델을 훈련시키기 위해 현재의 원자로에서 막대한 데이터를 수집할 것입니다. 그런 다음 실험 단계에서 모델을 배포하여 향후 중단을 방지하는 통제 메커니즘을 트리거할 수 있습니다. 엑사급 컴퓨팅, AI의 등장, 딥 러닝 덕분에 Tang은 융합 에너지 확보를 위한 노력을 진전시킬 새로운 인사이트를 제공할 것입니다.

전자 현미경 데이터 분석에서 렌더링된 뉴런. 삽입된 부분은 식별된 셀을 나타내는 색 영역이 있는 데이터 조각을 보여줍니다. 여러 조각을 통해 이러한 영역을 추적하면 관심 있는 해부학적 구조에 해당하는 하위 볼륨이 추출됩니다. (이미지 제공: Nicola Ferrier, Narayanan (Bobby) Kasthuri, Rafael Vescovi, Argonne National Laboratory)

Neuroscience Research
아르곤의 수석 컴퓨터 과학자인 Nicola Ferrier 박사는 시카고 대학교, 하바드 대학교, 프린스턴 대학교 및 Google과 협력하고 있습니다. 이러한 공동 작업은 오로라를 사용하여 전체적인 뇌 구조와 각 뉴런이 서로 연결되어 뇌의 인지 경로를 구성하는 방법을 파악하고자 합니다. 팀은 자신들의 고된 노력이 신경 질환에 대한 잠재적 치료법과 같이 인류에게 도움이 되는 정보를 밝히기를 희망합니다.

암에 대한 보다 효과적인 치료법 모색
듀크 대학교 의용생체공학부의 Alfred Winborne Mordecai 및 Victoria Stover Mordecai 조교수인 Amanda Randles 박사와 그녀의 동료들은 'HARVEY' 시스템을 개발했습니다. HARVEY는 매우 복잡한 인간의 순환계를 통해 이동하는 혈구의 흐름을 예측합니다. Randles 박사는 오로라를 활용하며 시간을 보내면서 암의 전이를 더욱 잘 이해하기 위해 HARVEY의 용도를 변경하려고 합니다. HARVEY는 전이된 세포가 신체에서 어디로 이동할지 예측하여 의사가 2차 종양이 형성될 수 있는 위치를 조기에 예측하는 데 도움이 될 수 있습니다.

'암흑'의 우주에 대한 이해
별, 행성, 가스, 구름, 그리고 우주에서 볼 수 있는 다른 모든 것의 조합은 우주 전체에서 5%에 불과합니다. 나머지 95%는 암흑 물질과 암흑 에너지입니다. 우주는 성장하고 있을 뿐 아니라 팽창 속도 또한 가속화되고 있습니다. 아르곤 국립 연구소의 물리학자이자 컴퓨터 과학자인 Katrin Heitmann 박사는 오로라를 활용하면서 큰 목표를 가지게 되었습니다. 그녀는 연구를 통해 오늘날 우리가 거의 알지 못하는 암흑의 우주를 더욱 깊게 이해하기 위해 노력하고 있습니다.

소위 은하단이라고 하는 거대 구조의 시뮬레이션은 초기 ESP의 일부인 아르곤의 Theta 시스템에서 실행되었습니다. 이 개체의 질량은 5.6e14 Msun입니다. 색상은 온도를 나타내며, 흰색 부분은 중입자 밀도장입니다. (이미지 제공: JD Emberson 및 HACC 팀)

보다 연료 효율적인 항공기 설계
콜로라도 볼더 대학의 항공우주공학 교수인 Kenneth Jansen 박사는 기체 주변의 난기류를 분석하여 더 안전하고 성능이 우수하며 연료 효율성이 높은 비행기를 위한 설계를 연구합니다. 난기류의 변동성 때문에 항공기 전체와 난기류의 상호 작용을 시뮬레이션하기는 어렵습니다. 매 순간마다 항공기의 각기 다른 부분들이 공기 흐름에 따른 다양한 영향을 받습니다. 따라서 Jansen 박사와 그의 팀은 시뮬레이션을 진행하면서 실시간으로 데이터를 평가해야 합니다. 현재 HPC 시스템은 실제 크기의 1/19 정도 크기이고 실제 속도의 1/4 수준으로 이동하는 항공기 주변의 공기 흐름을 시뮬레이션 해야 하는 이러한 작업을 수행할 수 있는 기능이 부족합니다.

오로라는 Jansen 박사와 그의 팀이 전체 비행 규모 및 실제 비행 조건과 관련된 기본 물리학에 대해 더 많이 알아볼 수 있도록 지원할 것입니다. 이런 과정을 통해 설계를 개선하고 운항 중 기내 특성에 대한 중요한 차이를 만들어내는 지점을 식별할 수 있습니다.

HPE는 인텔과 협업하여 미국 최초의 엑사급 슈퍼컴퓨터를 구축하고 아르곤에 제공할 수 있게 된 것을 영광으로 생각합니다. 이것은 HPE Cray EX의 유연한 설계, 고유한 시스템 및 소프트웨어 기능이 HPE Slingshot 인터커넥트와 함께 아르곤의 극한의 과학적 노력과 데이터 중심 워크로드의 기반이 될 것이라는 흥미로운 증거입니다. HPE Cray EX 슈퍼컴퓨터는 이 혁신적인 엑사급 시대와 AI, 분석, 모델링 및 시뮬레이션이 모두 동일한 시스템에서 동일한 시간대에 놀라운 규모로 융합되도록 설계되었습니다." —Peter Ungaro, HPC 및 AI 부문 SVP 겸 총괄 매니저, HPE

CERN의 LHC(Large Hadron Collider) 프로젝트

아르곤의 물리학자인 Walter Hopkins 박사는 우주를 구성하는 기본 입자와 힘을 연구하는 국제 공동 연구인 ATLAS 실험의 일원입니다. ATLAS 실험은 CERN의 LHC(Large Hadron Collider)에서 양성자 충돌의 결과를 이미지화합니다.

이러한 이미지는 2012년 힉스 입자의 역사적 발견에 기여하며 입자 물리학의 표준 모델을 완성했습니다. 향후 10년 동안 LHC와 ATLAS의 업그레이드된 실험은 여전히 남아 있는 의문들, 예를 들어 "암흑 물질은 무엇인가" 또는 "중력은 전자기력, 강력 또는 약력과 어떤 관계가 있는가?"와 같은 질문을 해결하는 데 도움을 주기 위해 10배 이상의 데이터를 수집할 것입니다. 데이터 양이 10배 증가하는 동안 물리학 연구에 필요한 시뮬레이션 양은 100배 증가하면서, 현재 리소스를 빠른 속도로 능가합니다. 이 프로젝트는 이러한 증가 속도를 해결하기 위해 보다 계산 집약적인 시뮬레이션 중 일부를 가속기에 이식하고 있습니다. 또한 이 프로젝트는 딥 러닝을 활용하여 현재 입자 식별 알고리즘의 분석 범위를 확장하고 있습니다. 이 프로젝트에서 오로라는 새로운 물리학 모색의 다음 단계에서 발견을 위한 중요한 자원이 될 것입니다.

연구의 밝은 미래

엑사급 컴퓨팅은 연구자들에게 심오하고 혁신적인 도구를 제공할 것입니다. 오로라의 성능 수준, 규모 및 방대한 데이터 집합을 처리하는 능력은 놀라운 잠재력을 보유하고 있습니다. 이 시스템은 수십 년 동안 과학자와 엔지니어들을 당혹스럽게 했던 미스터리를 해결하는 데 도움이 될 것입니다. 또한 오로라는 엔지니어링 부문에서 놀라운 수준의 혁신과 발견을 가능하게 할 것입니다.

아르곤 국립 연구소 집중 조명

일리노이에 위치한 아르곤 국립 연구소(ANL)은 인류가 직면한 가장 중요한 질문을 다루는 데 중점을 둔 종합 연구 센터입니다. 미국 에너지부(DOE)의 지원을 받는 아르곤은 기업, 학술 기관, 국내의 여러 연구소를 포함한 많은 조직들과 협력하여 물리학, 화학 우주론, 생물학과 같은 분야를 넘나드는 과학적 혁신을 가능하게 합니다.

기술 구성 요소

PDF 다운로드 >