FP16 형식은 FP32 형식의 동일한 모델과 비교할 때 더 빠른 추론을 수행할 것으로 예상됩니다. benchmark_app를 사용하여 두 포맷 모두에 대해 애플리케이션의 기본 설정으로 추론을 실행하지만, FP16 포맷 모델과 FP32 포맷 모델을 비교할 때 성능 향상(더 높은 FPS)은 없습니다.
benchmark_app 사용하면서 FP32 모델을 F32 형식으로 실행하려면 선택한 장치에 -infer_precision f32를 추가합니다.
예를 들어:
$ benchmark_app -m intel/bert-large-uncased-whole-word-masking-squad-0001/FP32/bert-large-uncased-whole-word-masking-squad-0001.xml -d GPU -t 5 -api async -hint throughput -infer_precision f32
GPU 플러그인의 경우 정밀도로 실행되는 <compressed f16 OpenVINO IR 형식을 제외하고 GPU 프리미티브의 부동 소수점 정밀도는 OpenVINO IR의 작업 정밀도를 f16 기반으로 선택됩니다.
CPU 플러그인의 경우 CPU 프리미티브의 기본 부동 소수점 정밀도는 f32입니다. f16 OpenVINO™ IR을 지원하기 위해 플러그인은 내부적으로 모든 f16 값을 f32로 변환하고 모든 계산은 f32의 기본 정밀도를 사용하여 수행됩니다. 기본적으로 bfloat16 계산을 지원하는 플랫폼(AVX512_BF16 또는 AMX 확장자가 있음)에서는 성능 향상을 위해 f32 대신 bf16 유형이 자동으로 사용됩니다(실행 모드 힌트 참조).
CPU/GPU 플러그인의 데이터 타입에 대한 자세한 내용은 다음을 참조하십시오.