과제
Meituan에서 비전 AI는 비즈니스 모델 혁신을 추진하고, 사용자에게 더 정확하고 개인 맞춤형 인터넷 서비스를 제공하며 경쟁 우위를 강화하는 핵심 요소로 자리 잡았습니다. 그러나 Meituan의 AI 추론 비전 또한 컴퓨팅 성능과 비용 측면에서 다양한 과제에 직면해 있습니다.
성능
Meituan의 비즈니스와 사용자 기반 서비스가 눈덩이처럼 불어나면서 비전 AI를 통한 지능형 프로세스 개발이 필요한 응용 프로그램이 늘어나고 있습니다. Meituan은 더욱 지적인 운영을 서포트하기 위해 정확성을 갖춘 비전 AI 추론의 처리량을 늘려야 합니다.
비용
대규모 데이터에서 비전 AI 추론을 수행하려면 엄청난 인프라 투자가 필요합니다. 개별 GPU는 성능 요구 사항을 충족하지만 상대적으로 비용이 높습니다. 트래픽이 적은 롱테일 모델 추론 서비스의 경우 대체로 CPU가 비용 면에서 더 효율적입니다.
유연성
Meituan은 여러 아키텍처에서 유연한 리소스 스케줄링을 통해 비전 AI 서비스의 속도를 개선하고, 롱테일 시나리오의 AI 추론 요구 사항을 충족하고자 합니다.
솔루션 개요
현재 인공 지능(AI) 기반의 컴퓨터 비전은 기업이 데이터 인사이트를 얻고 비즈니스의 지능형 혁신을 주도하는 중요한 방법이 되었습니다. 비전 AI는 향상된 딥 러닝 신경망을 활용하여 더 정교한 방식으로 데이터를 캡처하고, 분석을 한 단계 발전시켜 업무 효율성을 최적화하며, 비용 절감 및 수익 개선을 통해 고객 만족도를 높입니다. 시각적인 데이터가 폭발적으로 증가하고 지속적인 비즈니스 개발이 이루어지면서 기업은 컴퓨터 비전 AI 모델 훈련을 가속화하고 추론 성능을 개선하는 동시에 더 많은 투자 수익을 얻고자 합니다.
선도적인 리테일 기술 기업 Meituan은 "리테일+기술" 전략을 통해 사람들이 더 잘 먹고 더 잘 살 수 있도록 하는 것을 사명으로 합니다. Meituan은 케이터링, 여행, 관광, 쇼핑, 엔터테인먼트 등의 비즈니스 지원에 혁신적인 비전 AI 기술을 사용하는 것을 매우 중요하게 여깁니다. Meituan은 AI 추론을 가속화하기 위해 4세대 인텔® 제온® 스케일러블 프로세서와 내장형 인텔® Advanced Matrix Extensions(인텔® AMX) 등의 고급 하드웨어 기능을 활용합니다. FP32에서 BF16으로 모델을 변환하는 등의 방법을 통해 기존 비전 모델의 추론 성능을 약 3.38~4.13배 향상할 수 있습니다.1 Meituan은 동적 스케일링 등의 헤더 서비스 최적화 전략과 이러한 기술을 결합함으로써 온라인 리소스의 전반적인 효율성을 3배 이상 높이고 서비스 비용을 70% 절감했습니다.2
그림 1. Meituan 비즈니스에서 비전 AI 기술을 응용하는 일반적인 분야.
Meituan, 비전 AI 응용 프로그램을 활용하여 지능형 혁신 지원
비전 AI는 콘텐츠 제작, 콘텐츠 검토, 배포, 사용자 상호 작용, 가치 실현 및 기타 Meituan 비즈니스의 연결 고리에 적용되고 있습니다. Meituan 비전 AI는 시나리오 기반 제품과 혁신적인 도구를 통해 업계를 지원합니다. 이는 지능형 이미지 처리, 가맹점 등록증 식별, QR 코드 자전거 잠금장치, 의약품 패키지 스캔, 신원 확인 등의 경우에 성공적으로 적용되며 기업의 지능형 혁신을 실현했습니다.
그림 2. Meituan 마이크로서비스 기반 비전 AI 알고리즘 프로세스 흐름.
Meituan은 비전 AI 추론 서비스를 더욱 최적화하기 위해 기존 알고리즘 서비스 프로세스를 마이크로서비스 기반 비전 AI 알고리즘 프로세스로 전환하여 CPU 서비스를 다른 가속기 서비스와 분리함으로써 다양한 워크로드를 다양한 장치에서 실행할 수 있도록 합니다. 중간 계층의 스케줄링 서비스를 통한 스케줄링으로 하드웨어 활용도가 높아집니다.
비전 AI 추론 서비스의 비용 문제에 관하여 Meituan은 트래픽이 적은 롱테일 모델 추론 서비스를 위해 CPU 기반 전략을 채택했습니다. 인텔® 제온® 스케일러블 프로세서는 워크로드 부담과 지연 시간 요구가 상대적으로 낮은 모델 추론 서비스를 처리하는 데 사용되었습니다. 이 접근 방식을 통해 Meituan은 기존 CPU 리소스를 효율적으로 활용하고 GPU 배포와 O&M 비용을 줄일 수 있습니다.
그림 3. Meituan CPU 기반 낮은 트래픽 롱테일 모델 추론 서비스.
또한, Meituan은 지연에 민감하고, 안정성이 높으며, 트래픽이 변동하는 온라인 작업과 지연에 민감하지 않고, 안정성이 낮으며, 트래픽이 균일한 오프라인 일괄 처리 작업과 분리하는 트래픽에 민감한 헤더 서비스 최적화 전략을 채택했습니다. 동적 스케일링을 통한 오프라인 일괄 처리를 위해 사용량이 적은 시간대에 많은 리소스를 확보하여 리소스를 절약하고 전반적인 AI 추론 성능을 개선할 수 있습니다.
그림 4. Meituan의 비전 AI 추론 최적화 전략.
4세대 인텔® 제온® 스케일러블 프로세서로 비전 AI의 추론 성능 강화
Meituan은 비전 AI 추론 서비스의 성능을 더 가속화하기 위해 4세대 인텔® 제온® 스케일러블 프로세서, 통합 인텔® AMX 가속기, 인텔® 통합 성능 프리미티브(인텔® IPP) 등의 소프트웨어 제품군을 활용했습니다.
4세대 인텔 제온 스케일러블 프로세서는 혁신적인 아키텍처를 통해 사이클당 명령어 처리 횟수(IPC)를 늘렸습니다. 이 프로세서는 소켓당 최대 60개의 코어와 8채널 DDR5 메모리를 지원하여 PCIe 5.0(80채널)당 더 높은 메모리 대역폭을 달성하는 동시에 메모리 대역폭과 속도를 높입니다. 4세대 인텔 제온 스케일러블 프로세서는 비즈니스 수요에 따라 규모를 조정하는 기능과 함께 최신 성능 및 보안을 제공합니다. 이 프로세서는 내장 가속기를 통해 사용자에게 AI, 분석, 클라우드 및 마이크로서비스, 네트워킹, 데이터베이스, 스토리지 및 기타 워크로드 전반에서 최적화된 성능을 제공합니다. 강력한 에코시스템과 결합한 4세대 인텔 제온 스케일러블 프로세서는 사용자가 더 효율적이고 안전한 인프라를 구축할 수 있도록 지원합니다.
4세대 인텔 제온 스케일러블 프로세서는 AI 성능을 한 단계 발전시키며 혁신적인 인텔 AMX 가속기를 갖추고 있습니다. 이전 인텔 제온 스케일러블 프로세서에 제공된 인텔® Advanced Vector Extensions 512(인텔® AVX-512)와 달리 인텔 AMX는 새로운 명령어 세트 및 회로 설계를 채택했습니다. 매트릭스 작업을 제공하면 AI 응용 프로그램의 사이클당 명령어 처리 횟수가 크게 증가하고 AI 워크로드 훈련 및 추론 성능이 향상합니다.
그림 5. 인텔® AMX는 인텔® AVX-512보다 매트릭스 작업 효율성이 크게 향상됐습니다.3
실제 워크로드에서 인텔 AMX는 BF16 및 INT8 데이터 유형을 지원할 수 있습니다. BF16은 표준 IEEE-FP32와 동적 범위가 동일하지만, FP32보다 정밀도가 낮습니다. 대체로 BF16은 FP32와 모델 추론 정밀도가 동일하지만, BF16은 FP32의 절반 크기 데이터만 처리하면 되므로 처리량은 훨씬 많고 필요한 메모리 리소스도 훨씬 적습니다. 인텔 AMX는 사이클당 및 물리적 코어당 2,048개의 INT8 작업과 1,024개의 BF16 작업을 할 수 있습니다.3 인텔 AVX-512 가속 기술과 비교하여 AI 워크로드의 효율성이 크게 향상됐습니다.
그림 6. 인텔® IPEX 아키텍처.
Meituan은 또한 인텔® Extension for PyTorch(인텔® IPEX)를 통합하여 PyTorch를 가속합니다. 인텔 IPEX는 인텔에서 시작한 오픈소스 확장 프로젝트로, PyTorch 확장 메커니즘을 기반으로 구현되었습니다. 인텔 IPEX는 하드웨어 기능을 완전히 활용할 수 있도록 추가 소프트웨어 최적화를 제공함으로써 네이티브 PyTorch를 통해 인텔® 프로세서에 대한 딥 러닝 추론 및 훈련을 수행하는 컴퓨팅 성능을 향상합니다.
그림 7. FP32/BF16 모델 추론 성능 비교.1
Meituan은 인텔 AMX 가속 기술을 통해 다양한 비전 AI 모델의 데이터 유형을 FP32에서 BF16으로 동적 변환하여 처리량을 늘리며 허용 가능한 범위 내에서의 정밀도 손실로 처리량을 늘리고 추론을 가속합니다. Meituan은 최적화 후 성능을 검증하기 위해 인텔 AMX 가속 기술을 사용하여 변환한 BF16 모델의 추론 성능을 베이스라인 FP32 모델과 비교했습니다. 그림 7의 테스트 데이터에서 볼 수 있듯이 모델의 추론 성능은 BF16으로 변환한 후 3.38~4.13배 향상되었습니다. "Top1" 및 "Top5" 섹션의 정밀도 손실은 대부분 0.01~0.03% 범위 내에서 제어할 수 있습니다.1
이점
4세대 인텔 제온 스케일러블 프로세서를 채택하고 마이크로서비스로의 전환, 온라인/오프라인 분리, 동적 스케일링, 최적화된 시작 등의 최적화 전략을 통합함으로써 Meituan은 다양한 이득을 얻었습니다.
- Vit-p32, Twins-svt-small, Twins-pcpvt-small, Swin-tiny 및 기타 모델의 최적화 후 성능은 3.38~4.13배 향상됐으며, "Top1" 및 "Top5" 섹션의 정밀도 손실 대부분은 0.01~0.03% 범위 내에서 제어할 수 있습니다. 온라인 리소스의 전반적인 효율성은 3배 이상 향상됐습니다.2
- 향상한 성능을 통해 강화된 Meituan은 기존 인프라의 잠재력을 최대한 활용하고, 비전 AI 서비스의 투자 요구 사항을 줄이며, 서비스 비용을 70%까지 절감할 수 있습니다.2
- 민첩한 리소스 스케줄링은 비전 AI 서비스의 효율적인 혁신을 지원합니다.
Outlook
Meituan의 비전 AI 추론 최적화는 인텔 AMX 가속 엔진과 통합된 4세대 인텔 제온 스케일러블 프로세서가 AI 추론 성능을 향상하고 비전 AI 추론 서비스의 총 소유 비용(TCO)을 줄일 수 있음을 보여줍니다. 또한, Meituan과 인텔은 하드웨어 혁신과 소프트웨어 최적화를 통해 추론 성능을 지속적으로 개선하고 비전 AI 서비스의 가치를 완전히 실현하려 노력하고 있습니다.
인텔은 인텔리전트 및 디지털 혁신 추세에 따라 Meituan 및 기타 파트너와 긴밀히 협력하여 컴퓨팅, 스토리지, 네트워크 및 기타 기능을 통해 비즈니스 혁신을 지원하고, AI 부문의 발전을 가속하며 AI 기술과 실천이 구현되도록 추진할 것입니다. 인텔과 파트너는 최종적으로 사용자에게 더 정확하고 개인화된 서비스를 제공하는 동시에 AI 배포에 필요한 성능, 비용, 기술의 문턱을 낮추고 업계의 지능형 혁신을 주도하는 것을 목표로 하고 있습니다.
Meituan 소개
기술 중심 리테일 기업인 Meituan은 "리테일+기술"에 전략적 초점을 맞추고 있으며 "사람들이 더 잘 먹고 더 잘 살도록 돕는다."라는 사명을 갖고 있습니다. 2010년 3월에 설립된 이래로 Meituan은 공급과 수요 양 측면에서 서비스와 상품 리테일의 발전된 디지털 업그레이드를 이루었습니다. 인텔은 파트너와 함께 소비자에게 양질의 서비스를 제공합니다. 2018년 9월 20일, Meituan은 홍콩 증권거래소의 메인 보드에 상장되었습니다. Meituan은 항상 고객을 중시하는 기업이었으며, 앞으로도 인텔과 함께 신기술에 대한 R&D 투자를 계속 늘릴 것입니다. Meituan은 모든 파트너와 협력하여 사회적 책임을 완수하고 사회를 위해 더 많은 가치를 창출할 것입니다.