Numenta, 강력한 추론 성능 제공

Numenta는 Intel과 협력하여 변압기 네트워크를 극적으로 가속화를 위한 신경 과학 기반 솔루션을 개발했습니다.

개요:

  • 컴퓨터 업계의 개척자 Jeff Hawkins와 Donna Dubinsky가 2005년에 설립한 Numenta는 20년 동안 신경 과학에서 독점 기술을 도출하는 연구를 해왔습니다.

  • Numenta는 20년 동안의 신경 과학 연구와 AI 기술의 획기적인 발전을 기반으로 하는 강력한 AI 플랫폼을 개발하여 고객이 딥 러닝 추론에서 성능 향상을 달성할 수 있도록 했습니다.

author-image

기준

도전 과제

텍스트 분류 작업부터 감정 분석, ChatGPT까지 광범위한 자연어 처리(NLP) 응용을 위해서는 높은 처리량, 짧은 대기 시간 기술이 필요합니다. BERT 및 GPT와 같은 변압기 모델은 복잡한 텍스트 입력을 처리하고 정확한 결과를 제공할 수 있기 때문에 이 분야에서 핵심이 되었습니다. 그러나 이러한 대규모 언어 모델의 크기와 복잡성이 계속해서 증가함에 따라 실행하는 비용도 증가하므로 생산 환경에 변압기를 배치하기가 점점 더 어려워지고 있습니다.

오늘날의 정교한 NLP 응용 프로그램이 요구하는 엄격한 처리량과 대기 시간을 충족시키기 위해 고객들은 일반적으로 딥 러닝 추론 실행을 위해 GPU(그래픽 처리 장치)에서 변압기를 실행하는데, 이는 GPU가 고도로 병렬화되고 대규모 계산을 빠르고 효율적으로 수행할 수 있기 때문입니다. 그러나 GPU는 더 비용이 많이 들 수 있으며, 하드웨어를 추가하면 IT 부서의 유지 관리 비용이 증가할 수 있습니다. 고객은 막대한 비용 없이 탁월한 성능 이점을 제공하는 더 간단한 솔루션이 필요합니다.

"이러한 획기적인 결과는 변압기를 실행하는 데 CPU를 최적의 옵션으로 만듭니다. 성능에 민감한 AI 응용 프로그램을 사용하는 고객은 Numenta와 4세대 인텔 제온 스케일러블 프로세서의 조합을 사용하여 가볍고 비용 효율적으로 실시간 응용 프로그램을 활용할 수 있습니다." - Numenta CEO, Subutai Ahmad

Numenta 솔루션

Numenta는 20년 동안의 신경 과학 연구와 AI 기술의 획기적인 발전을 기반으로 하는 강력한 AI 플랫폼을 개발하여 고객이 딥 러닝 추론에서 10배에서 100배 이상의 성능 향상을 달성할 수 있도록 했습니다.1 2 3

Numenta는 인텔과 협력하여 Numenta의 독점적인 신경 과학 기반 솔루션을 결합하여 4세대 인텔® 제온® 스케일러블 프로세서의 새로운 인텔® Advanced Matrix Extensions(인텔® AMX)로 변압기 네트워크를 극적으로 가속화했습니다.

CPU를 통한 AI 컴퓨팅의 새로운 시대

ChatGPT는 전 세계에 변압기의 힘과 대규모 딥 러닝 모델에 대한 수요가 계속 증가하고 있음을 보여주었습니다. 우리가 수많은 놀라운 가능성을 내다보고 있는 가운데, Numenta의 결과는 최적화된 모델과 CPU를 통한 딥 러닝의 새로운 시대를 제시합니다. Numenta 솔루션과 인텔® CPU의 비용 효율적이고 고성능의 조합을 통해 고객은 가장 정교하고 복잡한 NLP 응용 프로그램에 필요한 높은 처리량과 짧은 대기 시간 추론 결과를 얻을 수 있습니다.3

Numenta는 4세대 인텔 제온 스케일러블 프로세서에서 변압기 네트워크를 극적으로 가속화하여 다음과 같은 여러 이점을 제공합니다:

 

  • 딥 러닝 추론을 위한 GPU와 관련된 비용과 복잡성 방지
  • 변압기 모델을 보다 더 유연하고 스케일러블하게 배포
  • 최종적으로 변압기 모델을 생산 환경에 배치할 수 있는 AI 및 NLP 응용 프로그램에 대한 새로운 가능성 실현

향상된 성능: 인텔® CPU 기반 Numenta 대비 NVIDIA GPU

Numenta는 인텔 AMX를 최대한 활용하여 짧은 텍스트 시퀀스와 배치 크기에 BERT-Large 추론 시 NVIDIA A100 GPU에 비해 처리량이 35배 개선된 것을 확인했습니다.1 2 4 배치 크기 1은 입력 데이터가 지속적으로 변하는 실시간 시나리오에서 가장 높은 유연성을 제공하므로 대기 시간이 짧은 응용 프로그램에 적합합니다.

일반적으로 GPU는 더 높은 배치 크기에서 더 나은 성능을 발휘하지만, NVIDIA A100의 배치 크기가 8인 경우에도 Numenta는 8배 더 나은 성능을 발휘합니다.2 4

그림 1:NVIDIA A100 Tensor Core GPU에서 실행되는 표준 BERT-Large 모델과 비교하여 2소켓 4세대 인텔® 제온® 스케일러블 프로세서에서 실행되는 Numenta의 최적화된 BERT-Large 모델에서 추론 처리량이 관찰됨.

이러한 알고리즘과 하드웨어 발전의 시너지 결합은 CPU에 대한 BERT-Large 추론에 대해 비교할 수 없는 성능 향상을 가져왔습니다. 이러한 극적인 성능 가속화로 CPU는 GPU의 실행 가능한 대안일 뿐만 아니라 생산 환경에서 변압기를 실행하는 데 이상적인 옵션이 되었습니다.

터보 과급 CPU 추론 처리량

Numenta와 인텔® 기술의 결합은 여러 가지 영향을 미칩니다. Numenta는 각 구성 요소의 효과를 이해하기 위해 두 가지 다른 시나리오에서 처리량과 대기 시간 사이의 절충점을 살펴보고 이를 무너뜨렸습니다.

Numenta는 처리량을 최적화할 때 초당 5,100개 이상의 쿼리를 제공하는데, 이는 현재 세대의 AMD Milan CPU 구현에 비해 70배 향상된 처리량입니다.3 하지만 Numenta에서 이러한 개선이 얼마나 많이 이루어질까요? 이 시나리오에서 Numenta 없이 3세대 인텔 제온 스케일러블에서 4세대 인텔 제온 스케일러블 프로세서로 이동하면 6.5배 속도가 향상됩니다.3 Numenta는 추가로 처리량 9배 향상을 제공합니다.3

그림 2: 다양한 여러 프로세서 아키텍처에서 실행되는 표준 BERT-Large 모델과 비교하여 최신 4세대 인텔® 제온® 스케일러블 프로세서에서 실행되는 Numenta의 최적화된 BERT-Large 모델이 처리량을 최적화할 때 추론 처리량 향상이 관찰됨.

실시간 응용 프로그램이 엄격한 대기 시간 요구 사항을 갖는 상황에서 객관적인 변화로 최소 대기 시간 요구 사항을 존중하면서 최고 처리량을 달성합니다. 이를 입증하기 위해 Numenta는 실시간 응용 프로그램의 주요 임곗값으로 간주되는 10ms의 대기 시간 제한을 부과했습니다.

아래 차트에서 볼 수 있듯, 10ms의 대기 시간 목표를 가진 4세대 인텔 제온 스케일러블 프로세서의 Numenta는 현재 세대의 AMD Milan CPU 구현에 비해 처리량이 123배 향상되었습니다.3 이 시나리오에서 Numenta의 기여도는 훨씬 더 두드러집니다. Numenta 없이 3세대 인텔 제온 스케일러블에서 4세대 인텔 제온 스케일러블 프로세서로 이동하면 인텔의 속도가 약 3배 향상됩니다.3 Numenta는 4세대 인텔 제온 프로세서 가속화 외에도 추가로 19배 더 빠른 속도를 제공합니다.3

그림 3: 다양한 여러 프로세서 아키텍처에서 실행되는 표준 BERT-Large 모델과 비교하여 최신 4세대 인텔® 제온® 스케일러블 프로세서에서 실행되는 Numenta의 최적화된 BERT-Large 모델을 사용하여 최대 10ms의 대기 시간으로 추론 처리량 향상이 관찰됨.

"인텔 제온 CPU Max 시리즈와 4세대 인텔 제온 스케일러블 프로세서를 통해 Numenta의 AI 솔루션에 상당한 성능 향상을 제공하기 위해 Numenta와 인텔은 협력하고 있습니다. 우리는 대화식 AI와 대규모 문서 처리와 같은 이전에 대역폭이 제한된 또는 대기 시간이 제한된 AI 응용 프로그램에 대해 상당한 처리량 성능 가속화를 실현하기 위해 협력하게 되어 매우 기쁩니다." - 인텔 AI 및 HPC 응용 프로그램 레벨 엔지니어링 부사장 겸 총괄 매니저 Scott Clark

Numenta용 인텔이 필요한 이유는 무엇입니까?

또한 Numenta의 AI 기술은 광범위한 문서 컬렉션을 분석하는 데 의존하는 NLP 응용 프로그램을 극적으로 가속화합니다.1 예를 들어, 문서를 이해하는 데 변압기를 적용할 때 문서의 전체 맥락을 통합하려면 긴 시퀀스 길이가 필요합니다. 이러한 긴 시퀀스는 높은 데이터 전송 속도가 필요하며 이에 따라 오프칩 대역폭이 제한 요소가 됩니다. Numenta는 새로운 인텔® 제온® CPU Max 시리즈를 사용하여 BERT-Large 모델을 최적화하여 대용량 텍스트 문서를 처리함으로써 512의 긴 시퀀스 길이에 대해 20배의 탁월한 처리량 속도를 제공할 수 있음을 보여줍니다.1이러한 유형의 혁신은 Numenta 고객에게 절대적으로 혁신적이며, 처음으로 비용 효율적인 확장이 가능합니다.

Numenta 정보

컴퓨터 업계의 개척자 Jeff Hawkins와 Donna Dubinsky가 2005년에 설립한 Numenta는 20년 동안 신경 과학에서 독점 기술을 도출하는 연구를 해왔습니다. Numenta는 신경 과학 연구의 근본적인 통찰을 활용하여 광범위한 AI 사용 사례에서 파괴적인 성능 향상을 제공하는 최첨단 AI 플랫폼을 개발했습니다.

Numenta는 모델 개발부터 배포까지 AI의 전 분야에 걸쳐 플랫폼 기술을 적용하고 궁극적으로 완전히 새로운 범주의 응용 프로그램을 가능하게 하기 위해 여러 Global 100 회사와 협력합니다.