인텔, 신규 인텔 oneAPI 2023로 인텔 하드웨어 가치 극대화

신규 oneAPI 2023, 교차 플랫폼 생산성 확장 기능 포함

인텔은 20일 신규 인텔® oneAPI 2023 툴을 공개했다. 해당 툴을 인텔® 디벨로퍼 클라우드(Intel® Developer Cloud) 및 공식 리테일 채널을 통해 제공한다. 신규 oneAPI 2023 툴은 4세대 인텔® 제온® 스케일러블 프로세서는 물론 인텔® 제온® CPU 맥스 시리즈, 플렉스 시리즈 및 신규 맥스 시리즈를 포함한 인텔® 데이터 센터 GPU를 지원한다. 인텔® oneAPI 2023은 향상된 성능과 생산성을 제공하며, 개발자들이 비(非)인텔 GPU 아키텍처를 위한 SYCL 코드를 쉽게 작성할 수 있도록 신규 코드플레이(Codeplay) 1 플러그인을 지원한다. 인텔은 신규 표준 기반 툴을 통해 사용자가 하드웨어를 선택할 수 있도록 선택지를 제공하며, 멀티 아키텍처 시스템에서 실행되는 고성능 애플리케이션을 쉽게 개발할 수 있도록 지원한다.

“인텔 맥스 시리즈 GPU 가속기를 사용하는 개발 시스템에서 초기 애플리케이션 성능이 향상되었다. 해당 애플리케이션은 인텔 oneAPI 컴파일러와 라이브러리를 바탕으로 개발된 애플리케이션이다. 리더십 등급의 컴퓨테이셔널 사이언스의 경우 인텔 라이브러리에 의해 가속화된 SYCL 및 파이토치(PyTorch) 등 파이썬 AI 프레임워크와 같은 멀티벤더, 멀티아키텍처 프로그래밍 표준 기반 코드 이식성이 제공하는 혜택을 중요시한다. 해당 기술을 바탕으로 내년 오로라 시스템에서 최초의 과학적 발견을 달성하기를 기대한다”고 말했다.

티모시 윌리엄스(Timothy Williams) 아르곤 컴퓨테이셔널 사이언스 부문 차장은 

새롭게 공개하는 인텔 2023 개발자 툴에는 oneAPI로 구동되는 CPU, GPU, FPGA를 위한 고성능 멀티 아키텍처 애플리케이션을 구축하기 위한 최신 컴파일러, 라이브러리, 분석 및 포팅 도구, 최적화된 인공지능 및 머신러닝 프레임워크가 포함되어 있다. 개발자는 툴을 사용해 목표하는 성능을 빠르게 달성하고, 단일 코드베이스를 사용해 시간을 절약, 혁신에 더 많은 시간을 쏟을 수 있다.

신규 oneAPI 툴은 개발자가 다음과 같은 인텔 하드웨어의 고급 기능을 활용할 수 있도록 지원한다:

  • 인텔® 어드밴스드 매트릭스 익스텐션(Intel® AMX), 인텔® 퀵 어시스턴트 테크놀로지(Intel® QAT), 인텔® AVX-512, bfloat16 등을 지원하는 4세대 인텔 제온 스케일러블 프로세서 및 인텔 CPU 맥스 시리즈 프로세서
  • 하드웨어 기반 AV1 인코더를 사용하는 플렉스 시리즈를 포함한 인텔 데이터 센터 GPU, 데이터 유형 유연성을 갖춘 맥스 시리즈 GPU, 인텔® Xe 매트릭스 익스텐션(Intel® XMX), 벡터 엔진, 인텔® Xe Link 및 기타 기능

벤치마크 예시:

  • MLPerf DeepCAM 딥러닝 추론 및 학습 성능 벤치마크에서 AMD 제품을 기준으로 엔비디아는 2.4배 높은 성능을, 인텔 oneAPI 딥 뉴럴 네트워크 라이브러리(oneDNN)2 기반 인텔® AMX를 사용한 인텔 제온 CPU 맥스는 3.6배 높은 성능을 달성했다.

전체 이미지 다운로드
 

  • 6개 맥스 시리즈 GPU에 오프로드되고 하나의 oneAPI 도구로 최적화된 인텔 제온 맥스 CPU 상에서 실행되는 대규모 원자 및 분자 병렬 시뮬레티어(LAMMPS) 워크로드 성능의 경우, 3세대 인텔 제온 혹은 AMD 밀란 대비 최대 16배 높은 성능을 기록했다.3

전체 이미지 다운로드

고급 소프트웨어 성능:

  • 인텔® 포트란 컴파일러(Intel® Fortran Compiler)는 포트란2018 등 포트란 언어 표준을 지원하며, OpenMP GPU 지원을 확대해 표준 준수 애플리케이션 개발 속도 제고.
  • 확장된 OpenMP 오프로드 기능을 갖춘 인텔® oneAPI 매스 커널 라이브러리(oneMKL)로 휴대성 향상.
  • 인텔® oneAPI 딥 뉴럴 네트워크 라이브러리(oneDNN)는 인텔 AMX, 인텔 AVX-512, VNNI 및 bfloat16을 포함한 4세대 인텔 제온 및 인텔 맥스 CPU 프로세서의 고급 딥 러닝 기능을 지원.

풍부한 SYCL 지원과 강력한 코드 마이그레이션 및 분석 도구는 개발자들이 멀티 아키텍처 시스템을 위한 코드를 더 쉽게 개발할 수 있도록 지원해 생산성을 향상한다.

  • 인텔 oneAPI DPC++/C++ 컴파일러는 엔비디아 및 AMD GPU용 코드플레이(Codeplay) 소프트웨어의 신규 플러그인을 지원, SYCL 코드 작성을 간소화하고 이러한 프로세서 아키텍처 전반에서 코드 이식성을 확대한다. 이를 통해 플랫폼 간 생산성 향상을 위한 통합 툴이 포함된 통합 구축 환경을 제공한다. 인텔과 코드플레이는 엔비디아 GPU용 oneAPI 플러그인을 시작으로 제품을 우선 지원할 방침이다.
  • 오픈소스 SYCLomatic을 기반으로 하는 인텔 DPC++ 호환성 도구에 100개 이상의 CUDA API가 추가되어 더욱 간편하게 CUDA에서 SYCL 코드 마이그레이션이 가능하다.
  • 사용자는 인텔® VTune™ 프로파일러(Intel® VTune™ Profiler)를 통해 MPI 불균형을 식별할 수 있다.
  • 인텔® 어드바이저(Intel® Advisor)는 인텔 데이터 센터 GPU 맥스 시리즈에 자동 루프라인 분석 기능을 추가, 메모리, 캐시 또는 컴퓨팅 병목 현상과 원인을 식별하고 우선순위를 지정한다. CPU에서 GPU로 오프로드 시 데이터 전송 재사용 비용을 최적화하기 위한 실용적인 통찰력을 제공한다.

전체 이미지 다운로드

48%의 개발자가 두 종류 이상의 프로세서를 사용하는 이기종 시스템을 목표로 하고 있기 때문4, 실제 워크로드의 범위와 규모가 증가하는 문제를 해결하기 위해서는 보다 효율적인 멀티 아키텍처 프로그래밍이 필요하다. 개발자는 인텔의 표준 기반 멀티 아키텍처 도구를 사용하고 개방되고 통합된 프로그래밍 모델인 oneAPI를 사용해 CPU 및 가속기를 위한 하드웨어, 성능, 생산성 및 코드 이식성을 자유롭게 선택할 수 있다. CUDA와 같은 독점적 프로그래밍 모델을 위해 작성된 코드는 다른 하드웨어로의 이동성이 부족하며, 조직을 폐쇄적인 생태계에 가두는 고립된 개발 환경을 초래한다.

새로운 센터 오브 엑셀런스가 다수 설립되며 생태계 내 oneAPI를 채택하는 비율이 증가하고 있다. 그 중 하나는 케임브리지 대학교의 오픈 제타스케일 랩(Open Zettascale Lab)으로, 중요한 엑사스케일 후보 코드를 CASTEP, FENiCS 및 AREPO를 포함한 OneAPI로 이식하는 것에 초점을 맞추고 있다. 해당 센터는 코드를 컴파일, 포팅, 및 성능 최적화를 위한 API 방법론과 도구를 교육하는 전문가와 함께 워크샵을 제공한다. 현재 총 30곳의 oneAPI 센터 오브 엑셀런스가 설립됐다.

더 많은 자료: 인텔 oneAPI 2023 툴 세부설명 | 블로그: 인텔 oneAPI 2023 툴 소개 | 웨비나 녹화 영상: 인텔 oneAPI 2023 보도자료 프리뷰 | oneAPI 및 코드플레이

통지 및 고지 사항

1 코드플레이(Codeplay)는 인텔의 회사이다.

2 MLPerf™ DeepCAM:

  • 최적화된 Pytorch 1.11을 사용하는 MLPerf™ HPC-AI v 0.7 DeepCAM 학습 벤치마크에서 검증되지 않은 성능 향상. 결과가 MLCommons Association에 의해 검증하지 않음. 검증되지 않은 결과는 MLPerf™ 검토를 거치지 않았으며 검증된 결과에 대해 MLPerf™ 사양과 일치하지 않는 측정 방법론 및/또는 워크로드 구현을 사용할 수 있다. MLPerf™의 이름 및 로고는 미국 및 기타 국가에서 MLCommons Association의 상표이다. 무단 전재 금지. 무단 사용 엄격히 금지. 자세한 내용은 www.mlcommons.org을 참조하십시오.

  •  AMD EPYC 7763: 2022년 4월 7일 인텔이 테스트 진행. 1노드, 2x AMD EPYC 7763, HT On, Turbo Off, 총 메모리 512GB (16슬롯/32GB/3200MHz, DDR4), BIOS AMI 1.1b, ucode 0xa001144, OS 레드햇 엔터프라이즈 리눅스 8.5 (Ootpa), 커널 4.18.0-348.7.1.el8_5.x86_64, 컴파일러 gcc(GCC) 8.5.0 20210514(Red Hat 8.5.0-4), https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl, Intel MPI 2021.5, 파이썬3.8.

  • 인텔® 제온® 스케일러블 프로세서 8380: 2022년 4월 7일 인텔이 테스트 진행. 1노드, 2x 인텔® 제온® 8380 프로세서, HT On, Turbo Off, 총 메모리 512GB (슬롯 16 / 32 GB/ 3200 MHz, DDR4), BIOS SE5C6200.86B.0022.D64.2105220049, ucode 0xd0002b1, OS 레드햇 엔터프라이즈 리눅스 8.5(Ootpa), 커널 4.18.0-348.7.1.el8_5.x86_64, 컴파일러 gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-4), https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512), Intel MPI 2021.5, Python3.8.

  • 인텔® 제온® CPU 맥스 시리즈 (캐시 모드) AVX-512: 2022년 5월 25일 인텔이 테스트 진행. 1노드, 2x 인텔® 제온® CPU 맥스 시리즈, HT On, Turbo Off, 총 메모리 128GB HBM 및 1TB (16슬롯/ 64GB/ 4800 MHz, DDR5), 클러스터 모드: SNC4, BIOS EGSDCRB1.86B.0080.D05.2205081330, ucode 0x8f000320, OS CentOS Stream 8, 커널 5.18.0-0523.intel_next.1.x86_64+server, 컴파일러 gcc (GCC) 8.5.0 20210514 (Red Hat 8.5.0-10, https://github.com/mlcommons/hpc/tree/main/deepcam, torch 1.11.0a0+git13cdb98, AVX-512, FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512), 인텔 MPI 2021.5, 파이썬3.8.

  • 엔비디아 A100 80GB: 2022년 4월 13일 기준 인텔이 테스트 진행. 1노드, 2x 인텔® 제온® 스케일러블 8360Y, HT On, Turbo On, 총 메모리 256GB (16슬롯/ 16GB/ 3200MHz), 엔비디아 A100 80GB PCIe, BIOS AMI 1.1b, ucode 0xd000311, OS 레드햇 엔터프라이즈 리눅스 8.4 (Ootpa), 커널 4.18.0-305.el8.x86_64, 컴파일러 gcc (GCC) 8.4.120200928 (Red Hat 8.4.1-1), https://github.com/mlcommons/hpc/tree/main/deepcam, pytorch 1.11.0 py3.7_ cuda113_ cudnn8.2.0_0, cudinn8.2.1, cuda11.3_0, intel-openmp 2022.0.1 h06a÷8_3633, python3.7.

  • 인텔® 제온® CPU 맥스 시리즈 (캐시 모드) BF16/AMX: 2022년 5월 25일 기준 인텔이 테스트 진행. 1-노드, 2x 인텔® 제온® CPU 맥스 시리즈, HT On, Turbo Off, 총 메모리 128GB HBM 및 1TB (16슬롯/ 64GB/ 4800MHz, DDR5), 클러스터 모드: SNC4, BIOS EGSDCRB1.86B.0080.D05.2205081330, ucode 0x8f000320, OS CentOS Stream 8, 커널 5.18.0-0523.intel_next.1.x86_64+server, 컴파일러 gcc(GCC) 8.5.0 20210514(Red Hat 8.5.0-10), https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98, AVX-512 FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512, AMX, BFloat16 Enabled), Intel MPI 2021.5, Python3.8.

  • 4세대 인텔® 제온® 스케일러블 프로세서 멀티 노드 클러스터: 2022년 4월 9일 인텔이 테스트 진행. 16노드 클러스터, 1노드, 2x 4세대 인텔® 제온® 스케일러블 프로세서, HT On, 터보 On, 총 메모리 256GB (16슬롯/ 16GB/ 4800MHz, DDR5), BIOS 인텔 SE5C6301.86B.6712.D23.211241351, ucode 0x8d000360, OS 레드햇 엔터프라이즈 리눅스 8.4(Ootpa), 커널 4.18.0-305.el8.x86_64, 컴파일러 gcc(GCC) 8.4.120200928(Red Hat 8.4.1-1), https://github.com/mlcommons/hpc/tree/main/deepcam, torch1.11.0a0+git13cdb98 AVX-512, FP32, torch-1.11.0a0+git13cdb98-cp38-cp38-linux_x86_64.whl, torch_ccl-1.2.0+44e473a-cp38-cp38-linux_x86_64.whl, intel_extension_for_pytorch-1.10.0+cpu-cp38-cp38-linux_x86_64.whl (AVX-512), Intel MPI 2021.5, Python3.8.

3 LAMMPS

  • 인텔® 제온® CPU 맥스 시리즈는 AMD EPYC 7773X보다 LAMMPS (Geomean of Atomic Fluid, Copper, DPD, Liquid_crystal, Polyethylene, Protein, Stillinger-Weber, Tersoff, Water)의 성능이 1.9배 높다.

  • 인텔® 제온® CPU 맥스 시리즈는 인텔® 제온® 8380에 비해 LAMMPS(Geoman of Atomic Fluid, Copper, DPD, Liquid_crystal, Polyethylene, Protein, Stillinger-Weber, Tersoff, Water)의 성능이 1.6배 높다. 인텔® 제온® 8380: 2022년 10월 11일 인텔이 테스트 진행. 1노드, 2x 인텔® 제온® 8380 CPU, HT On, Turbo On, NUMA 구성 SNC2, 총 메모리 256GB (16x16GB 3200 MT/s, 듀얼 랭크), BIOS 버전 SE5C620.86B.01.01.0006.2207150335, ucode revision=0xd000375, 록키 리눅스 8.6, Linux 버전 4.18.0-372.26.1.el8_6.crt1.x86_64, LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; threads/core:; Turbo:on; BuildKnobs:-O3 -ip -xCORE-AVX512 -g -debug inline-debug-info -qopt-zmm-usage=high;

  •  AMD EPYC 7773X: 2022년 10월 6일 인텔이 테스트 진행. 1노드, 2x AMD EPYC, HT On, Turbo On, NUMA 구성 NPS=4, 총 메모리 256GB (16x16GB 3200 MT/s, 듀얼 랭크), IOS 버전 M10, ucode revision=0xa001224, 록키 리눅스 8.6 (그린 옵시디언), 리눅스 버전 4.18.0-372.26.1.el8_6.crt1.x86_64, LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; threads/core:; Turbo:on; BuildKnobs:-O3 -ip -g -debug inline-debug-info -axCORE-AVX2 -march=core-avx2;

  •  인텔® 제온® CPU 맥스 시리즈: 2022년 8월 31일 인텔이 테스트 진행. 1-노드, 2x 인텔® 제온® CPU 맥스 시리즈, HT ON, 터보 ON, NUMA 구성 SNC4, 총 메모리 128GB (HBM2e at 3200 MHz), BIOS 버전 SE5C7411.86B.8424.D03.2208100444, ucode revision=0x2c000020, CentOS Stream 8, 리눅스 버전 5.19.0-rc6.0712.intel_next.1.x86_64+server, LAMMPS v2021-09-29 cmkl:2022.1.0, icc:2021.6.0, impi:2021.6.0, tbb:2021.6.0; threads/core:; Turbo:off; BuildKnobs:-O3 -ip -xCORE-AVX512 -g -debug inline-debug-info -qopt-zmm-usage=high.

4 에반스 데이터 (Evans Data) Global Development Survey Report 22.1, 2022년 6월

성능은 용도, 구성 및 기타 요인에 따라 다르다. 자세한 내용은 www.Intel.com/PerformanceIndex에서 확인하십시오. 성능 결과는 다를 수 있다.

성능 결과는 구성에 표시된 날짜의 테스트를 기반으로 하며 공개적으로 사용 가능한 모든 업데이트를 반영하지 못할 수 있다.

인텔은 타사 데이터를 제어하거나 감사하지 않는다. 정확성을 평가하려면 다른 출처를 참조해야 한다.