GPU에 대한 모델 로드 시간이 CPU보다 길어지는 이유는 무엇입니까?

요약

GPU에서 모델 로드 시간을 개선하기 위한 빠른 단계

설명

입력 모델의 중간 표현(IR)을 GPU에 로드하는 데는 동일한 모델을 CPU에 로드하는 것보다 더 오래 걸립니다.

해결 방법

응용 프로그램의 작업 디렉토리에서 수동으로 cl_cache 디렉토리를 생성합니다.

드라이버는 이 디렉토리를 사용하여 컴파일된 커널의 바이너리 표현을 저장합니다. 이 작업은 지원되는 모든 OSes에서 작동합니다.

추가 정보

cl_cache 관리에 대한 자세한 내용은 이 문서를 참조하십시오.

GPU 스택이 OpenCL*을 기반으로 하므로 입력 모델을 중간 표현(IR) 형식으로 GPU에 로드하는 데는 동일한 모델을 CPU에 로드하는 것보다 더 오래 걸립니다. 로드 시간은 OpenCL* 커널의 컴파일 시간에 따라 달라집니다.

cl_cache 활성화하면 OpenCL* 커널이 컴파일되기 때문에 모델을 처음 로드하는 데는 여전히 오랜 시간이 소요됩니다. 그러나 동일한 모델의 각 후속 로드는 훨씬 빨라집니다.

언어 선택