ML커먼스(MLCommons)가 AI 성능 벤치마크 ‘MLPerf 트레이닝(MLPerf Training) 3.0’ 결과를 발표했다. 인텔 하바나® 가우디®2 딥러닝 가속기와 4세대 인텔® 제온® 스케일러블 프로세서는 해당 벤치마크에서 뛰어난 학습 결과를 달성했다.
“ML커먼스의 최신 발표를 통해 AI 분야에서 인텔 제온 프로세서 및 인텔 가우디 딥러닝 가속기가 고객에 제공하는 총소유비용(TCO) 가치를 확인할 수 있다. 제온 프로세서의 내장 가속기는 대용량 AI 워크로드를 범용 프로세서에서 실행하는 데 이상적인 솔루션이며, 가우디는 대규모 언어 모델 및 생성형 AI에서 경쟁력 있는 성능을 제공한다”며 “인텔 스케일러블 시스템은 프로그래밍하기 용이한 최적화된 개방형 소프트웨어를 기반으로 고객과 파트너가 클라우드에서 인텔리전트 엣지를 포함하는 데이터센터에서 AI 기반 솔루션을 더욱 쉽게 배포하도록 지원하고 있다”고 말했다.
현재 생성형 AI와 대규모 언어 모델(LLM)은 엔비디아 GPU에서만 실행할 수 있다는 것이 업계의 정설로 여겨지고 있다. 하지만, 이번 발표로 인텔 AI 솔루션 포트폴리오가 효율성과 확장성을 제한하는 폐쇄적인 생태계에서 벗어나고자 하는 고객에 경쟁력 있고 매력적인 선택지를 제공하고 있음을 확인할 수 있다.
이번 발표는 다양한 딥러닝 모델에 대한 인텔 제품의 높은 성능을 입증했다. 더불어 학습을 위한 가우디2 기반 소프트웨어 및 시스템의 성숙도 또한 대규모 언어 모델인 GPT-3을 통해 검증했다. 가우디2는 GPT-3의 LLM 학습 벤치마크에 성능 결과를 제출한 단 두 개의 반도체 솔루션 중 하나이다.
가우디2는 서버 및 시스템 비용 모두에서 고객에 경쟁력 있는 비용 이점을 제공한다. 가우디2는 GPT-3 상에서 기록한 가속기의 MLPerf 검증 성능, 컴퓨터 비전, 자연어 모델 및 향후 소프트웨어 개선을 바탕으로 엔비디아 H100 제품 대비 고객에 더욱 매력적인 가성비를 제공하는 선택지를 제공할 것이다.
CPU 측면에서 인텔 AI 엔진이 탑재된 4세대 제온 프로세서의 딥러닝 학습 성능을 통해 고객이 제온 기반 서버로 데이터 전처리, 모델 학습 및 배포를 위한 단일 범용 AI 시스템을 구축해 AI의 성능, 효율성, 정확성 및 확장성을 적절히 조합할 수 있다는 것을 입증했다.
생성형 AI 및 대규모 언어 모델 학습을 위해선 방대한 컴퓨팅 요구사항을 충족할 수 있는 서버 클러스터가 필요하다. 이번 MLPerf 결과는 가장 까다로운 모델인 1,750억 개의 매개변수 GPT-3에서 하바나 가우디2의 뛰어난 성능과 효율적인 확장성을 입증했다.
가우디2의 주요 결과는 다음과 같다:
- 가우디2는 GPT-31에서 인상적인 학습 시간 기록 - 384개 가속기에서 311분
- GPT-3 모델에서 256개에서 384개 가속기로 95%에 가까운 선형 확장 가능
- 컴퓨터 비전(ResNet-50 가속기 8개 및 Unet3D 가속기 8개) 및 자연어 처리 모델(BERT 8 및 64 가속기)에서 우수한 학습 결과 제공
- 11월 제출 결과 대비, BERT 및 ResNet 모델 성능 각각 10%, 4% 향상. 이는 가우디2 소프트웨어의 성숙도가 높아지고 있다는 증거
- 추가적인 설정 변경 없이 가우디2 결과 측정 - 고객이 온프레미스 또는 클라우드에서 가우디2를 활용해 비슷한 성능 결과 확보 가능
가우디 플랫폼에 대한 소프트웨어 지원은 꾸준히 상승하고 있는 생성형 AI 및 LLM 수요에 맞춰 지속적으로 발전하고 있다.
- 가우디2의 GPT-3 성능은 파이토치(PyTorch)를 기반으로 하며, 커스텀 소프트웨어가 아닌 널리 사용되며 마이크로소프트 AI의 일부인 최적화 라이브러리 ‘딥스피드(DeepSpeed)’를 사용했다. 딥스피드는 3D 병렬 처리(데이터, 텐서, 파이프라인)을 동시에 지원해 LLM의 확장 성능 효율성을 더욱 최적화할 수 있다.
- 가우디2의 3.0 벤치마크 결과는 BF16 데이터 유형으로 제출됐다. 2023년 3분기에 FP8에 대한 소프트웨어 지원과 새로운 기능이 출시되면 가우디2 성능은 크게 향상될 것으로 예상된다.
인텔 제온 프로세서는 여러 다양한 솔루션 중 MLPerf 결과를 제출한 유일한 CPU 제품이다. 이번 발표를 통해 인텔 제온 프로세서는 기업이 범용 시스템에 AI를 배포하고 전용 AI 시스템 도입에 따른 비용과 복잡성을 피할 수 있도록 즉시 사용 가능한 기능을 제공하는 것을 입증했다.
간헐적으로 대규모 모델을 기초부터 학습시킬 수 있는 소수의 기업들은 범용 CPU를 사용할 수 있으며, 이러한 기업들은 인텔 기반 서버에서 비즈니스를 운영하고 있는 경우를 종종 볼 수 있다. 그러나, 대부분의 기업은 사전 학습된 모델을 사용하며, 자체적으로 선별된 소규모 데이터 세트를 사용해 미세한 조정을 실시한다. 인텔은 과거 인텔 AI 소프트웨어 및 업계 표준 오픈소스 소프트웨어를 사용해 이러한 미세 조정을 단 몇 분 만에 수행할 수 있다는 결과를 발표한 바 있다.
주요 MLPerf 결과는 다음과 같다:
- 4세대 인텔 제온 스케일러블 프로세서는 폐쇄 부문(closed division)에서 BERT 및 ResNet-50 모델을 각각 50분 미만(47.93분), 90분 미만(88.17분)으로 학습을 완료할 수 있었다.
- 개방 부문(open division)에서 BERT를 사용한 결과, 4세대 인텔 제온 스케일러블 프로세서는 16개 노드로 확장할 때 약 30분(31.06분) 만에 모델 학습을 완료했다.
- 더 큰 규모의 RetinaNet 모델의 경우, 4세대 인텔 제온 스케일러블 프로세서는 16개 노드에서 232분이라는 시간을 달성했다. 고객은 제온의 사용량이 적은 시간대를 활용해, 오전, 점심 또는 밤새 모델을 학습시킬 수 있는 유연성을 확보했다.
- 인텔® 어드밴스드 매트릭스 익스텐션(Intel® AMX)이 탑재된 4세대 인텔 제온 스케일러블 프로세서는 여러 프레임워크, 엔드-투-엔드 데이터 과학 툴 및 광범위한 스마트 솔루션 생태계에 걸쳐 향상된 기본 성능을 제공한다.
일반적으로 AI성능에 대한 가장 공신력 있는 벤치마크 MLPerf는 솔루션 사이에서 공평하고 반복 가능한 성능을 비교할 수 있게 한다. 인텔은 100회 제출을 돌파했으며, 업계 표준 딥러닝 에코시스템 소프트웨어로 공개 CPU결과를 제출한 유일한 벤더로 남아 있다.
또한 이러한 결과는 인텔 oneAPI 기반 오픈 소스 인텔® 이더넷 패브릭 스위트 소프트웨어를 활용하는 인텔 이더넷 800 시리즈 네트워크 어댑터의 비용 효율성과 용이한 가용성이 제공하는 뛰어난 확장 효율성을 강조한다.
더 많은 자료: MLPerf v3.0 트레이닝 기반 성능 지표 (벤치마크 결과) | ML커먼스 (링크)
고지 및 면책 사항:
1 MLPerf 테스트 말뭉치는 GPT-3 모델의 1% 대표 슬라이스(representative slice)로 구성된다.
고지 및 면책 조항
성능은 사용, 구성 및 기타 요인에 따라 달라질 수 있다. 자세한 내용은 www.Intel.com/PerformanceIndex를 참조하십시오.
성능 결과는 구성에 표시된 날짜를 기준으로 한 테스트를 기반으로 하며 공개적으로 사용 가능한 모든 업데이트를 반영하지 않을 수 있다. 구성 세부 정보는 백업을 참조하십시오. 어떤 제품이나 구성 요소도 절대적으로 안전할 수는 없다.