GPU에 대한 모델 로드 시간이 CPU보다 긴 이유는 무엇입니까?
콘텐츠 유형: 유지 관리 및 성능 | 문서 ID: 000057525 | 최종 검토: 2026-03-05
입력 모델의 중간 표현(IR)을 GPU에 로드하는 것은 동일한 모델을 CPU에 로드하는 것보다 시간이 더 오래 걸립니다.
응용 프로그램의 작업 디렉터리에 cl_cache 디렉터리를 수동으로 만듭니다.
드라이버는 이 디렉터리를 사용하여 컴파일된 커널의 이진 표현을 저장합니다. 이는 지원되는 모든 OS에서 작동합니다.
또는 환경 변수를 설정합니다.
export INTEL_OPENCL_CACHE=1
대기 시간을 최적화하려면 Model Caching 개요에 대한 이 문서를 참조하십시오.
GPU 스택은 OpenCL*을 기반으로 하기 때문에 IR(Intermediate Representation) 형식의 입력 모델을 GPU에 로드하는 것은 동일한 모델을 CPU에 로드하는 것보다 시간이 더 오래 걸립니다. 로드 시간은 OpenCL* 커널의 컴파일 시간에 따라 다릅니다.
cl_cache 활성화하면 모델을 처음 로드할 때 OpenCL* 커널이 컴파일되기 때문에 시간이 오래 걸립니다. 그러나 동일한 모델의 각 후속 로드는 훨씬 빠릅니다.
OpenVINO™ 2026.0의 프로그래밍 방식 캐시 구성:
core.set_property("GPU", {"CACHE_DIR": "./cl_cache"})