3세대 인텔® 제온® 스케일러블 프로세서가 탑재된 AWS M6i 인스턴스를 선택하여 BERT 대용량 추론 작업 성능을 최대 64% 향상

BERT-Large:

  • m5n.16xlarge 인스턴스 대비 3세대 인텔 제온 스케일러블 프로세서가 탑재된 64 vCPU m6i.16xlarge 인스턴스에서 최대 64% 향상된 BERT-Large 성능을 얻을 수 있습니다.

  • 3세대 인텔 제온 스케일러블 프로세서와 m5n.8xlarge 인스턴스를 특징으로 하는 32-vCPU m6i.8xlarge 인스턴스에서 최대 40% 더 높은 BERT-Large 처리량을 처리합니다.

author-image

기준

다양한 인스턴스 크기에서 M6i 인스턴스는 2세대 인텔 제온 확장 가능한 프로세서를 사용하는 M5n 인스턴스보다 초당 더 많은 추론 작업을 수행했습니다.

기업은 고객 및 기타 사용자가 입력한 텍스트를 분석하는 챗봇과 같은 다양한 비즈니스 응용 프로그램에 자연어 머신 러닝 추론 워크로드를 사용합니다. 이러한 유형의 작업은 컴퓨팅 리소스에 대한 요구 사항을 충족하므로 고성능 클라우드 인스턴스를 선택하는 것이 매우 중요합니다.

BERT는 두 개의 Amazon Web Services(AWS) EC2 클라우드 인스턴스 유형의 성능을 측정하기로 선택한 범용 자연어 처리(NLP) 모델입니다. 3세대 인텔 제온 스케일러블 프로세서와 2세대 인텔 제온 스케일러블 프로세서를 탑재한 M5n 인스턴스로 두 가지 크기의 M6i 인스턴스를 테스트했습니다. 3세대 인텔 제온 스케일러블 프로세서를 탑재한 32개의 vCPU와 64개의 vCPU M6i 인스턴스가 모두 M5n보다 우수한 것으로 나타났습니다. 이러한 결과를 바탕으로 기업은 M6i 인스턴스를 선택하여 사용자에게 더 빠른 경험을 제공할 수 있습니다.

VCPU가 64개인 M6i 인스턴스

두 AWS 인스턴스 시리즈의 BERT-Large 추론 성능을 비교하기 위해 TensorFlow 프레임워크를 사용했습니다. 그림 1에서 보면, 3세대 인텔 제온 스케일러블 프로세서가 활성화한 64 vCPU m6i.16xlarge 인스턴스는 2세대 인텔 제온 스케일러블 프로세서를 탑재한 m5n.16xlarge 인스턴스보다 64% 더 높은 처리량을 제공합니다.

그림 1. BERT-Large 추론 성능은 3세대 인텔 제온 스케일러블 프로세서를 탑재한 m6i.16xlarge 인스턴스와 2세대 인텔 제온 스케일러블 프로세서가 탑재된 m5n.16xlarge 인스턴스로 달성되었습니다. 테스트는 INT8 정밀도, 배치 크기 1, 시퀀스 길이 384를 사용했습니다. 더 높을수록 좋습니다.

VCPU가 32개인 M6i 인스턴스

그림 2에서 보면, 3세대 인텔® 제온® 스케일러블 프로세서가 지원하는 32 vCPU m6i.8xlarge 인스턴스는 2세대 인텔 제온 스케일러블 프로세서를 탑재한 m5n.8xlarge 인스턴스보다 40% 더 높은 처리량을 제공합니다.

그림 2. BERT-Large 추론 성능은 3세대 인텔 제온 스케일러블 프로세서를 탑재한 m6i.8xlarge 인스턴스와 2세대 인텔 제온 스케일러블 프로세서를 탑재한 m5n.8xlarge 인스턴스로 달성되었습니다. 테스트는 INT8 정밀도, 배치 크기 1, 시퀀스 길이 384를 사용했습니다. 더 높을수록 좋습니다.

결론

3세대 인텔 제온 스케일러블 프로세서가 탑재된 M6i 인스턴스와 2세대 인텔 제온 스케일러블 프로세서가 탑재된 M5n 인스턴스의 두 AWS 인스턴스 시리즈의 BERT-Large 자연어 처리 추론 성능을 테스트했습니다. 두 가지 크기로 M6i 인스턴스는 M5n 인스턴스를 64%만큼 능가했습니다. 고객과 다른 사용자에게 더 빠른 경험을 제공하려면 3세대 인텔 제온 스케일러블 프로세서를 사용하여 Amazon M6i 인스턴스에서 NLP 추론 워크로드를 실행하십시오.

더 알아보세요

3세대 인텔 제온 스케일러블 프로세서로 Amazon M6i 인스턴스에서 NLP 추론 워크로드를 실행하려면 https://aws.amazon.com/ec2/instance-types/m6i/ 방문하십시오.

2021년 11월 30일 인텔에서 단일 VM 테스트를 거쳤습니다. Ubuntu 20.04 LTS로 구성된 모든 VM, 5.11.0-1022-aws, EBS 스토리지, GCC=8.4.0, Python=3.6.9, Tensorflow=2.5.0, Docker=20.10.7, 컨테이너=1.5.5, BERT 모델, 배치 크기 1, 시퀀스 길이 384, INT8 정밀도. 인스턴스 세부 정보: m6i.8xlarge, 32vcpus, 인텔® 제온® Platinum 8375C CPU @ 2.90GHz, 128GB 총 DDR4 메모리; m5n.8xlarge, 32vcpus, 인텔® 제온® Platinum 8259CL CPU @ 2.50GHz, 128GB 총 DDR4 메모리; m6i.16xlarge, 64vcpus, 인텔® 제온® Platinum 8375C CPU @ 2.90GHz, 256GB 총 DDR4 메모리; m5n.16xlarge, 64vcpus, 인텔® 제온® Platinum 8259CL CPU @ 2.50GHz, 총 256GB 총 DDR4 메모리.

이 페이지의 콘텐츠는 원본 영어 콘텐츠에 대한 사람 번역 및 컴퓨터 번역의 조합으로 완성되었습니다. 이 콘텐츠는 편의와 일반적인 정보 제공을 위해서만 제공되었으며, 완전하거나 정확한 것으로 간주되어선 안 됩니다. 이 페이지의 영어 버전과 번역 간 모순이 있는 경우, 영어 버전이 우선적으로 적용됩니다. 이 페이지의 영어 버전을 확인하십시오.