언어 AI의 개발 및 배포를 위해 대안적 접근 방식을 고려해 보십시오
기업, ISV 및 기타 기술 조직들은 혁신적이고 실현 가능한 AI를 만들 수 있는 방법을 모색하고 있습니다. 언어 AI 모델의 개발 및 배포는 전통적으로 별도 GPU 또는 기타 특수 하드웨어를 탑재한 서버와 워크스테이션의 지원을 받는 대형 언어 모델(LLM)에 의존해 왔습니다. 그러나 이러한 유형의 솔루션을 구현하는 데 필요한 노력과 인프라는 많은 조직에 진입 장벽으로 작용하는 경우가 많습니다.
그 결과, 실용적인 혁신가들은 SLM 기반 솔루션을 선택하고 있습니다. SLM은 전문화된 가벼운 모델로, 채팅봇과 같은 도메인 특화 언어 기반 응용 프로그램을 보다 효율적으로 구현할 수 있습니다. 비용 효율성을 더욱 높이기 위해 이러한 SLM 혁신가들은 배포 위치가 클라우드이든 온프레미스 데이터 센터이든 에지이든 CPU 전용 아키텍처에서 SLM 워크로드를 실행할 수 있는 방법을 모색하고 있습니다.
도메인 특화 언어 AI를 보다 효율적으로 구현하는 방법을 더 잘 이해하는 데 도움이 되도록, SLM과 인텔® 제온® 프로세서와 같은 AI 지원 CPU의 조합이 강력한 이유를 살펴보겠습니다.
SLM을 통한 언어 AI 솔루션 간소화
SLM은 효율성, 개인정보 보호, 비용 효율성을 우선시하는 기업에 AI 기능으로 향하는 탁월한 경로를 제공합니다. 광범위하고 범용적인 LLM과 달리, SLM은 특정 작업을 효율적으로 수행하도록 설계된 컴팩트한 AI 모델입니다. 그 결과, AI 파이프라인의 각 단계에서 그리 많은 컴퓨팅 성능과 데이터가 필요하지 않습니다. 인기 있는 SLM의 예로는 Mistral 7B와 Llama 3.2 컬렉션을 들 수 있습니다.
효율성과 비용 이점
일반적으로 SLM은 증류, 가지치기와 같은 기법을 통해 LLM에서 파생됩니다. SLM은 그리 많은 데이터를 필요로 하지 않으므로 상당한 전기 또는 클라우드 리소스 비용을 들이지 않고도 자주 훈련 및 재훈련을 거칠 수 있습니다. 이러한 유연성 덕분에 과도한 예산을 소비하거나 일정을 감당하지 않고도 모델의 성능을 미세 조정하고 개선할 수 있습니다.
보안 및 개인정보 보호 이점
SLM은 개인정보 보호 및 보안 측면에서의 이점도 제공합니다. SLM은 그리 많은 훈련 데이터가 필요하지 않고 덜 광범위하게 사용되기 때문에 민감한 정보를 수집하고 보유할 가능성이 작습니다. 더 작은 데이터 세트와 더 간단한 아키텍처가 사용되므로 결과를 설명하고 편향이나 환각을 식별하기가 더 쉽습니다. 또한, SLM은 더 적은 리소스로 운영되므로 사이버 보안 위협에 노출되는 공격 표면도 더 작습니다.
도메인 특화 AI의 이점
SLM은 더 작고 더 전문화된 데이터 세트를 기반으로 구축되므로 도메인 특화 응용 프로그램에 사용하기에 적합합니다. 특정 산업, 분야 또는 기업에 맞춰 구축된 데이터 세트로 학습하면 SLM이 심층적이고 정교한 이해력을 개발하여 오류 발생 위험을 낮출 수 있습니다. 보다 심층적인 전문화 덕분에 작업 완료율, 정확도와 같은 지표의 최적화도 용이해집니다. 뿐만 아니라, SLM에는 데이터와 훈련이 그리 많이 필요하지 않으므로 더 빠른 처리 시간과 더 신속한 ROI를 달성할 수 있습니다.
CPU 기반 SLM을 통한 효율성 극대화
SLM과 AI 지원 CPU를 함께 사용하면 성능 저하 없는 실제 언어 AI 구현을 지원하는 가볍고 비용 효율적인 솔루션을 제공할 수 있습니다. 소규모 언어 모델에 GPU나 기타 특수 하드웨어 대신 CPU를 사용하면 비용, 복잡성, 리소스 소비를 최소화할 수 있습니다.
예를 들어, 최신 인텔® 제온® 프로세서 4세대 이상 기반의 서버를 사용하면, CPU 전용 아키텍처 기반의 프라이빗 환경에서 경제적이면서도 저지연으로 SLM을 실행할 수 있습니다. 유연성과 성능 덕분에 소형 언어 모델에 이러한 프로세서를 사용하면 온프레미스 배포에서 SLM 응용 프로그램을 구현하는 데 특히 매력적인 경로를 구축할 수 있습니다. 온프레미스 배포는 특히 엄격한 데이터 보안 요구 사항이 있는 경우 선호될 수 있습니다.
인텔® 제온® 프로세서의 통합 가속기
인텔® 제온® 4, 5, 6 프로세서는 SLM의 컴퓨팅 효율성을 향상하기 위해 증가된 메모리 대역폭을 결합하는 통합 인텔® Advanced Matrix Extensions(인텔® AMX) 가속기 또한 제공합니다. 또한, 모델 크기가 작으면 단일 인텔® 제온® 프로세서 기반 노드에서 전체 응용 프로그램을 실행할 수 있어 비용을 대폭 절감하고 우수한 대기 시간과 처리량을 경험할 수 있습니다.
인텔® AMX는 딥 러닝(DL) 훈련 및 추론 성능을 개선하므로 자연어 처리와 같은 워크로드에 이상적입니다. 인텔® AMX 명령 세트를 활용하도록 AI 기능을 코딩하거나, 프로세서 명령 세트 아키텍처를 사용하도록 비 AI 기능을 코딩할 수 있습니다.
최신 인텔® 제온® 프로세서는 인텔® AMX 외에도 다양한 최적화 및 가속화 엔진을 내장하여 보안, 네트워킹 등 여러 사용 사례를 지원한다는 점도 중요한 고려 사항입니다.
인텔® 제온® 프로세서 기반 Llama 3.2 3B
벤치마킹 결과에 따르면, 5세대 인텔® 제온® 프로세서 및 인텔® 제온® 6 P-core 프로세서에서 1,024개의 토큰 입력과 128개의 토큰 출력을 사용하여 Llama 3.2 3B를 실행하는 경우 뛰어난 처리량을 달성하면서도 다음 토큰 대기 시간을 50ms 미만으로 유지할 수 있습니다(P99).1
인텔® 제온® 프로세서 기반 Microsoft Phi-3
Phi-3 SLM 제품군은 생성형 AI(genAI) 응용 프로그램의 구축을 위한 유용하고 비용 효율적인 옵션을 제공합니다. Phi-3-medium 4K 및 128K 버전의 벤치마킹 결과에 따르면, 인텔® 제온® 프로세서는 LLM 추론 배포에 적합한 성능 옵션입니다.2
SLM 및 CPU 기회 평가
SLM을 CPU에서 실행하면, 실행 가능하고 비용 효율적이면서도 정확하고 안전한 경로를 통해 조직에서 언어 AI 및 도메인 특화 모델을 보다 실용적으로 구현할 수 있습니다.
게다가 인텔® 제온® 프로세서를 비롯한 CPU 아키텍처에서 SLM을 실행하는 경로는 예상보다 더 간단할 수 있습니다.
CPU 기반 SLM 옵션을 평가하기 위해 지금 바로 수행할 수 있는 네 가지 단계는 다음과 같습니다.
- 인프라 팀과 함께 현재 투자 상황을 평가하십시오. 많은 조직이 인텔 제온 프로세서 기반 서버를 보유하고 있으며, 인텔 AMX를 탑재한 인텔 제온 6 프로세서로 마이그레이션하여 기존 인프라를 업그레이드하면 SLM의 TCO 측면에서 막대한 이점을 누릴 수 있습니다.
- 클라우드 공급업체에 문의하십시오. 인텔® AMX 가속기가 탑재된 인텔® 제온® 프로세서 기반 인스턴스는 모든 주요 클라우드 공급업체에서 제공되므로 바로 활용할 수 있습니다.
- 기술 파트너와 옵션에 대해 논의하십시오. 에지에서 클라우드에 이르기까지 인텔® 파트너들은 인텔® 제온® 프로세서를 포함하여 소형 언어 모델을 위한 인텔 기술을 최대한 활용할 수 있도록 지원할 준비가 되어 있습니다.
- 기존의 AI 응용 프로그램을 얼마나 쉽게 CPU 아키텍처에 포팅할 수 있는지 알아보십시오. 인텔은 한 번 작성한 코드를 어디에나 배포할 수 있도록 OpenVINO™ 툴킷을 비롯한 다양한 개발 도구를 제공합니다.