OpenVINO™ 툴킷의 인텔® Distribution

753640
3/6/2024

소개

이 패키지에는 Linux*, Windows* 및 macOS*용 OpenVINO™ Toolkit 소프트웨어 버전 2023.3 LTS 인텔® Distribution 포함되어 있습니다.

사용 가능한 다운로드

  • 크기: 24.7 MB
  • SHA256: A4A3591409D172426AACA10AA3E1C475CB4B9E645974D1C861D34A2C8AAA6B65
  • 크기: 48.4 MB
  • SHA256: BCC452F4B0D278A0DCCA31CDECB6242C92720DA322B8F298BC3E4B38001E9259
  • 크기: 41.7 MB
  • SHA256: DD1957FC1ED132A585BCF1312D3FBB2ACDD9C9CC3807C3CA82B21ECC4AD52CDD
  • 크기: 45.6 MB
  • SHA256: CB83304D6046F497F2E83F51671B343B458ABE853B316FD7DDB625A5A895347D
  • 크기: 44.6 MB
  • SHA256: 6307E2C08DEAB7B869493594437355097CBF00D787EC6B56B02B9387D6D85C03
  • 크기: 41.7 MB
  • SHA256: 9F949F10681285DE4E1DE63ECEC47454953824B35F54445CB9D3ADC01C36DC31
  • 크기: 36.1 MB
  • SHA256: 8FCD52411C38AC64452F88309CABA7F04D88795935B0CF7EDB6F8F59F7800CC1
  • macOS*
  • 크기: 30.3 MB
  • SHA256: 7BDC40C927037B83313CC7AF58AF44AAE1565E19723FA3E67928D34E66CD5C5B
  • macOS*
  • 크기: 124.8 MB
  • SHA256: EE286D13D2CDD0112BE550BB95BC15969BD9D2A2FECA76DEB7CFD5B9CED260D3
  • 크기: 95.9 MB
  • SHA256: 764BA560FC79DE67A7E3F183A15ECEB97EEDA9A60032E3DD6866F7996745ED9D

세부 설명

새로운 기능

코드 변경을 최소화하기 위해 더 많은 Generative AI 적용 범위 및 프레임워크 통합.

  • OpenVINO™ 툴킷 토크나이저 설치를 통해 TensorFlow* 문장 인코딩 모델에 대한 즉각적인 경험을 개선했습니다.
  • OpenVINO™ 툴킷은 이제 파이프라인을 통해 보다 효율적인 생성 모델을 처리하는 데 도움이 되는 새로운 아키텍처인 MoE(Mixture of Experts)를 지원합니다.
  • 이제 JavaScript 개발자는 OpenVINO API에 원활하게 액세스할 수 있습니다. 이 새로운 바인딩을 사용하면 JavaScript API와 원활하게 통합할 수 있습니다.
  • 검증을 거친 새롭고 주목할 만한 모델: Mistral, StableLM-tuned-alpha-3b, StableLM-Epoch-3B.

광범위한 LLM(Large Language Model) 지원 및 더 많은 모델 압축 기술.

  • 널리 사용되는 기술인 활성화 인식 가중치 양자화를 신경망 압축 프레임워크(NNCF)에 추가하여 LLM의 INT4 가중치 압축 품질을 개선했습니다. 이 추가는 메모리 요구 사항을 줄이고 토큰 생성 속도를 높이는 데 도움이 됩니다.
  • 인텔® CPU에서 향상된 LLM 성능, 내부 메모리 상태 향상 및 KV 캐시를 위한 INT8 정밀도를 경험하십시오. ChatGLM과 같은 다중 쿼리 LLM에 맞게 특별히 조정되었습니다.
  • OpenVINO™ 2024.0 릴리스는 더 많은 OpenVINO™ 기능을 Hugging Face* 에코시스템과 통합하여 개발자가 더 쉽게 수행할 수 있도록 합니다. 인기 모델에 대한 양자화 구성을 Hugging Face에 직접 저장하여 정확도와 성능을 유지하면서 모델을 INT4 형식으로 압축합니다.

이동성과 성능 향상으로 에지, 클라우드 또는 로컬에서 AI를 실행할 수 있습니다.

  • 인텔® Core™ Ultra 프로세서의 일부인 통합 NPU(Neural Processor Unit)의 미리보기 플러그인 아키텍처가 이제 PyPI의 기본 OpenVINO™ 패키지에 포함됩니다.
  • ARM 스레딩 라이브러리를 활성화하여 ARM*의 성능이 향상되었습니다. 또한, 이제 멀티코어 ARM 플랫폼을 지원하고 MacOS*에서 기본적으로 FP16 정밀도를 활성화했습니다.
  • 다중 배치 입력 및 RAG(Retrieval Augmented Generation)를 위한 OpenVINO™ Model Server의 새롭고 향상된 LLM 제공 샘플.

OpenVINO™ 런타임

일반적인

  • CPP 및 Python 바인딩에 대한 레거시 API가 제거되었습니다.
  • StringTensor 지원은 토크나이저 연산자에 대한 지원 및 TensorFlow Hub 규정 준수를 개선하기 위한 기반으로 Gather, Reshape 및 Concat과 같은 연산자에 의해 확장되었습니다.
  • oneDNN이 CPU 기기용 v3.3으로, GPU 기기 타겟용 v3.4로 업데이트되었습니다. (oneDNN 릴리스 노트: https://github.com/oneapi-src/oneDNN/releases).

CPU 장치 플러그인

  • 동적 양자화 및 내부 메모리 상태 최적화(예: KV-캐시용 INT8 정밀도)를 사용하여 AVX2 및 AVX512 기반 시스템에서 인텔® CPU 플랫폼의 LLM 성능이 향상되었습니다. 13세대 및 14세대 인텔® 코어™ 프로세서와 인텔® Core™ Ultra 프로세서는 CPU 실행에 AVX2를 사용하며, 이러한 플랫폼은 속도 향상의 이점을 누릴 수 있습니다.
  • 구성 파일에서 "DYNAMIC_QUANTIZATION_GROUP_SIZE":"32" 및 "KV_CACHE_PRECISION":"u8"을 설정하여 이러한 기능을 활성화합니다.
  • "ov::affinity" API 구성은 이제 더 이상 사용되지 않으며 릴리스 2025.0에서 제거됩니다.
  • 다음 사항이 개선 및 최적화되었습니다.
    • 4세대 및 5세대 인텔® 제온® 스케일러블 프로세서의 BF16용 다중 쿼리 구조 LLM(예: ChatGLM 2/3).
    • Mixtral 모델 성능.
    • 8비트 압축 LLM 컴파일 시간 및 메모리 사용량은 Qwen과 같은 대규모 임베딩이 있는 모델에 유용합니다.
    • ARM 플랫폼에서 FP16 정밀도의 컨볼루션 네트워크.

GPU 장치 플러그인

  • 다음 사항이 개선 및 최적화되었습니다.
    • 인텔® Core™ Ultra 프로세서에서 컨텍스트 크기가 큰 INT4 압축 모델을 사용하는 통합 GPU(iGPU) 플랫폼의 LLM에 대한 평균 토큰 지연 시간.
    • iGPU에서의 LLM 빔 검색 성능. 평균 및 첫 번째 토큰 대기 시간 감소는 더 큰 컨텍스트 크기에서 예상될 수 있습니다.
    • iGPU 플랫폼에서 YOLOv5의 다중 배치 성능.
  • LLM의 메모리 사용이 최적화되어 16Gb 플랫폼에서 더 큰 컨텍스트를 가진 7B 모델을 사용할 수 있습니다.

NPU 디바이스 플러그인(프리뷰 기능)

  • OpenVINO™용 NPU 플러그인은 이제 PyPI를 통해 사용할 수 있습니다("pip install openvino" 실행).

파이썬 API OpenVINO

  • .add_extension 메서드 시그니처가 정렬되어 API 동작이 개선되어 사용자 경험이 개선되었습니다.

OpenVINO C API

  • 이제 ov_property_key_cache_mode(C++ ov::cache_mode)을 사용하여 optimize_size 및 optimize_speed 모드에서 모델 캐시를 설정/가져올 수 있습니다.
  • Windows*의 VA 표면 예외가 수정되었습니다.

OpenVINO Node.js API

  • OpenVINO - JS 바인딩 은 OpenVINO C++ API와 일치합니다.
  • 이제 새 배포 채널을 사용할 수 있습니다. 노드 패키지 관리자(npm) 소프트웨어 레지스트리(설치 안내서 확인)
  • Linux* 이외의 플랫폼에 대한 일부 제한이 제거되어 이제 Windows* 사용자가 JavaScript API를 사용할 수 있습니다.

TensorFlow 프레임워크 지원

  • 문자열 텐서는 이제 기본적으로 지원되며 입력, 출력 및 중간 레이어에서 처리됩니다(#22024).
    • TensorFlow Hub 범용 문장 인코더 다국어는 즉시 유추됩니다.
    • Gather, Concat 및 Reshape 작업에 지원되는 문자열 텐서입니다.
    • openvino-tokenizers 모듈과의 통합 - openvino-tokenizers를 가져오면 토큰화가 있는 모델에 필요한 변환기로 TensorFlow 프론트엔드를 자동으로 패치합니다.
  • 레거시 프론트엔드에 대한 작업에 의한 Model Optimizer의 대체는 더 이상 사용할 수 없습니다. .json 구성에 의한 대체는 Model Optimizer가 중단될 때까지 유지됩니다(#21523).
  • 다음에 대한 지원이 추가되었습니다.
    • HashTable*, Variable, VariableV2와 같은 변경 가능한 변수 및 리소스 #22270
    • 새로운 텐서 유형: tf.u16, tf.u32 및 tf.u64 #21864
    • 14개의 새로운 옵스*. 여기에서 목록을 확인하십시오(신규로 표시됨).
    • 텐서플로우 2.15 #22180
  • 다음 문제가 수정되었습니다.
    • 입력 유형을 int16으로 사용할 때 UpSampling2D 변환이 충돌했습니다 #20838
    • Squeeze에 대한 IndexError 목록 인덱스 #22326
    • 부호 있는 정수에 대한 올바른 FloorDiv 계산 #22684
    • tf에 대한 잘못된 캐스트 오류를 수정했습니다. TensorShape를 ov로 변환합니다. PartialShape #22813
    • 메모리의 모델에 대한 tf.string 속성 읽기가 수정되었습니다(#22752).

ONNX 프레임워크 지원

  • ONNX* 프런트엔드는 이제 OpenVINO API 2.0을 사용합니다.

PyTorch 프레임워크 지원

  • dict 또는 tuple에서 압축을 푼 출력의 이름이 이제 더 명확해졌습니다. #22821
  • FX 그래프(torch.compile)는 이제 kwarg 입력을 지원하여 데이터 유형 적용 범위를 개선합니다. #22397 으로

OpenVINO 모델 서버

  • 사용된 OpenVINO™ 런타임 백엔드는 이제 2024.0입니다.
  • 텍스트 생성 데모는 이제 스트리밍 및 단항 클라이언트를 통해 다중 배치 크기를 지원합니다.
  • REST 클라이언트는 이제 python 파이프라인 노드를 포함하여 미디어 파이프 그래프를 기반으로 제공하는 기능을 지원합니다.
  • 포함된 종속성이 보안 관련 업데이트를 받았습니다.
  • 들어오는 요청(자동 모양 및 자동 배치 크기)에 따라 런타임에 모델을 재구성하는 것은 더 이상 사용되지 않으며 나중에 제거될 예정입니다. 대신 OpenVINO의 동적 형상 모델을 사용하는 것이 좋습니다.

신경망 압축 프레임워크(NNCF)

  • 이제 데이터 인식 4비트 가중치 압축을 위한 AWQ(Activation-aware Weight Quantization) 알고리즘을 사용할 수 있습니다. 이는 4비트 가중치의 높은 비율로 압축된 LLM에 대한 더 나은 정확도를 용이하게 합니다. 활성화하려면 nncf.compress_weights() API의 전용 'awq' 선택적 매개 변수를 사용합니다.
  • ONNX 모델은 이제 nncf.quantize_with_accuracy_control() 메서드를 통해 정확도 제어를 통한 학습 후 양자화에서 지원됩니다. OpenVINO IR 및 ONNX 형식의 모델에 사용할 수 있습니다.
  • 이제 가중치 압축 예제 튜토리얼을 사용할 수 있으며, 허깅 페이스 트랜스포머 및 기타 LLM에서 TinyLLama 모델에 적합한 하이퍼파라미터를 찾는 방법을 일부 수정하여 보여줍니다.

OpenVINO 토크나이저

  • 정규식 지원이 개선되었습니다.
  • 모델 적용 범위가 개선되었습니다.
  • 토크나이저 메타데이터가 rt_info에 추가되었습니다.
  • Tensorflow 텍스트 모델에 대한 제한된 지원이 추가되었습니다: 문자열 입력으로 TF Hub용 MUSE 변환.
  • OpenVINO 토크나이저는 이제 자체 저장소를 가지고 있습니다: https://github.com/openvinotoolkit/openvino_tokenizers

기타 변경 사항 및 알려진 문제

Jupyter 노트북

다음 노트북이 업데이트되거나 새로 추가되었습니다.

알려진 문제

구성 요소: PyTorch FE.

ID: N/A

설명: 릴리스 2024.0부터 PyTorch 프레임워크 동작에 맞게 명시적으로 설정되지 않는 한 모델 입력 및 출력에 더 이상 텐서 이름이 없습니다.

구성 요소: GPU 런타임.

회원번호: 132376

설명: 인텔® Core™ Ultra 프로세서의 LLM에 대한 첫 번째 추론 대기 시간이 느려집니다. 긴 시퀀스 처리를 위한 급진적 메모리 최적화로 인해 최대 10-20%의 드롭이 발생할 수 있습니다(약 1.5-2GB 메모리 사용량 감소).

구성 요소: CPU 런타임.

ID: N/A

설명: 성능 결과(첫 번째 토큰 대기 시간)는 소켓이 2개 이상인 인텔® 제온® 플랫폼에서 긴 프롬프트가 있는 LLM의 "대기 시간" 힌트 추론에 대해 이전 OpenVINO 버전에서 제공한 결과와 다를 수 있습니다. 그 이유는 애플리케이션을 실행하는 단일 소켓의 모든 CPU 코어가 사용되어 numa 컨트롤이 사용되지 않을 때 LLM의 메모리 오버헤드를 낮추기 때문입니다.

해결 방법: 동작이 예상되지만 스트림 및 스레드 구성을 사용하여 모든 소켓의 코어를 포함할 수 있습니다.

지원 중단 및 지원

더 이상 사용되지 않는 기능 및 구성 요소는 사용하지 않는 것이 좋습니다. 새로운 솔루션으로 원활하게 전환할 수 있으며 향후 중단될 예정입니다. 단종된 기능을 계속 사용하려면 해당 기능을 지원하는 마지막 LTS OpenVINO 버전으로 되돌려야 합니다.

자세한 내용은 레거시 기능 및 구성 요소 OpenVINO 페이지를 참조하십시오.

2024.0에서 단종됨:

  • 런타임 구성 요소:
    • 인텔® Gaussian & Neural Accelerator (인텔® GNA). 인텔® Core™ Ultra세대 또는 14세대 이상과 같은 저전력 시스템에 NPU(신경망 처리 장치)를 사용하는 것이 좋습니다.
    • C++/C/Python 1.0 API를 OpenVINO(참조는 2023.3 API 전환 가이드 참조).
    • 모든 ONNX 프런트 엔드 레거시 API(ONNX_IMPORTER_API라고 함)All ONNX Frontend legacy API (known as )
    • OpenVINO Python API의 일부인 'PerfomanceMode.UNDEFINED' 속성'
  • 도구:

더 이상 사용되지 않으며 향후 제거될 예정입니다.

  • OpenVINO™ 개발 도구 패키지(pip install openvino-dev)는 OpenVINO 2025.0부터 설치 옵션 및 배포 채널에서 제거됩니다.
  • Model Optimizer는 OpenVINO 2025.0과 함께 중단됩니다. 대신 OpenVINO 모델 변환기 (API 호출: OVC)를 사용하는 것이 좋습니다. 자세한 내용은 모델 변환 전환 가이드를 참조하세요.
  • OpenVINO 속성 Affinity API는 OpenVINO 2025.0에서 중단됩니다. CPU 바인딩 구성(ov::hint::enable_cpu_pinning)으로 바뀝니다.
  • OpenVINO Model Server 구성 요소:
    • 들어오는 요청(자동 모양 및 자동 배치 크기)에 따라 런타임에 모델을 재구성하는 것은 더 이상 사용되지 않으며 나중에 제거될 예정입니다. 대신 OpenVINO의 동적 형상 모델을 사용하는 것이 좋습니다.

시스템 요구 사항

면책 조항. 특정 하드웨어(GPU 및 NPU를 포함하되 이에 국한되지 않음)는 올바르게 작동하고 하드웨어 기능을 최대한 활용하기 위해 특정 드라이버 및/또는 기타 소프트웨어 구성 요소를 수동으로 설치해야 합니다. 이를 위해서는 Linux 커널을 포함하되 이에 국한되지 않는 운영 체제 업데이트가 필요할 수 있습니다. 자세한 내용은 해당 문서를 참조하십시오. 이러한 수정 사항은 사용자가 처리해야 하며 OpenVINO 설치의 일부가 아닙니다. 이러한 수정 사항은 사용자가 처리해야 하며 OpenVINO 설치의 일부가 아닙니다. 시스템 요구 사항은 릴리스 노트 시스템 요구 사항 섹션을 확인하십시오.

설치 지침

운영 체제에 따라 OpenVINO™ 런타임 설치 방법을 선택할 수 있습니다.

다운로드 패키지에 포함된 내용

  • C/C++용 OpenVINO™ 런타임/추론 엔진

유용한 링크

참고: 링크가 새 창에서 열립니다.

이 다운로드는 아래 나온 제품에 적용할 수 있습니다.

이 페이지의 콘텐츠는 원본 영어 콘텐츠에 대한 사람 번역 및 컴퓨터 번역의 조합으로 완성되었습니다. 이 콘텐츠는 편의와 일반적인 정보 제공을 위해서만 제공되었으며, 완전하거나 정확한 것으로 간주되어선 안 됩니다. 이 페이지의 영어 버전과 번역 간 모순이 있는 경우, 영어 버전이 우선적으로 적용됩니다. 이 페이지의 영어 버전을 확인하십시오.