Photon Vectorized 쿼리 엔진이 활성화된 이 인스턴스는 의사 결정 지원 워크로드에서 AMD EPYC™ 프로세서를 탑재하고 더 나은 가치를 제공하는 r5a.2xlarge 인스턴스를 크게 능가했습니다.
많은 조직이 데이터브릭스의 Lakehouse Platform에 의존하여 구조화 및 구조화되지 않은 데이터를 저장하고 분석합니다. 의사 결정 지원 쿼리를 신속하게 실행하려면 강력한 하드웨어가 지원하는 클라우드 인스턴스를 선택하는 것이 중요합니다. 그러나 이 기준을 충족하는 인스턴스를 결정하는 것은 어려울 수 있습니다.
인텔은 의사 결정 지원 워크로드를 위해 클라우드 인스턴스를 쇼핑하는 기업을 지원하기 위한 테스트를 수행했습니다. 특히 2세대 인텔® 제온® 스케일러블 프로세서에서 활성화된 R5d 인스턴스와 AMD EPYC 프로세서를 탑재한 R5a 인스턴스 등 AWS 인스턴스 시리즈를 살펴보았습니다. 이 두 인스턴스 유형의 Databricks Runtime 9.0 클러스터를 만들어 의사 결정 지원 워크로드를 실행했습니다. R5d 클러스터에서는 SQL 쿼리 성능을 개선하기 위해 설계된 Photon이라는 벡터화된 쿼리 엔진을 활성화한 VM을 사용했습니다. 이 테스트 당시 Databricks의 Photon 엔진은 R5a 인스턴스에서 지원되지 않습니다.
R5d 인스턴스 완료 의사 결정 지원 워크로드 단축
인텔은 주어진 쿼리 집합을 실행하는 데 필요한 시간을 반영하여 더 낮은 점수를 생성하는 의사 결정 지원 벤치마크로 두 AWS 인스턴스를 테스트했습니다. 시간이 적게 걸리는 인스턴스를 선택하면 먼저 중요한 정보를 더 빨리 받고 인스턴스 가동 시간 및 관련 비용을 줄여 지출 비용을 줄이는 두 가지 방법을 사용할 수 있습니다. 그림 1에서 알 수 있듯이, 2세대 인텔 제온 스케일러블 프로세서와 Photon이 탑재된 r5d.2xlarge 인스턴스는 AMD EPYC 프로세서를 사용하는 r5a.2xlarge 인스턴스보다 74% 적은 시간 내에 설정된 1TB 데이터에서 완료된 쿼리를 활성화했습니다. 10TB 데이터 세트를 사용하면 r5d.2xlarge 클러스터의 쿼리 완료 시간이 r5a.2xlarge 클러스터보다 76% 단축되었습니다.
쿼리 시간이 짧아서 수익에 도움이 되는 방법
회사가 투자하는 모든 리소스의 경우와 마찬가지로 달러에 대한 좋은 가치를 얻는 것이 우선 순위입니다. 이전 페이지에서 논의한 테스트 시나리오를 수행하는 데 드는 비용이 얼마나 드는지 계산했습니다. 테스트 시 각 인스턴스, 스토리지 및 Databricks DBUs의 시간당 가격을 그림 1의 시간과 함께 사용하여 네 개의 시나리오 모두에 대한 TB당 가격을 결정했습니다. 그림 2에서 알 수 있듯이, Photon 지원 r5d.2xlarge 인스턴스에서 의사 결정 지원 워크로드를 실행하면 회사가 훨씬 적은 지출을 할 수 있습니다. 1TB 데이터 집합의 경우, 2세대 인텔® 제온® 스케일러블 프로세서가 지원하는 r5d.2xlarge 클러스터는 AMD EPYC 프로세서가 탑재된 r5a.2xlarge 클러스터보다 46% 낮은 가격/성능을 제공할 수 있습니다. 10TB 데이터 집합의 경우 Photon 지원 r5d.2xlarge 클러스터는 가격/성능 비용을 51% 절감합니다.
결론
인텔은 2세대 인텔 제온 스케일러블 프로세서와 AMD EPYC 프로세서를 탑재한 r5a.2xlarge 인스턴스를 특징으로 하는 Photon 지원 AWS r5d.2xlarge 인스턴스에서 두 개의 서로 다른 데이터 세트 크기에 대한 Databricks 쿼리 집합을 완료하는 시간을 측정했습니다. r5d.2xlarge 인스턴스는 최대 76% 더 적은 시간에 쿼리 집합을 완료했습니다. 이 시간을 두 인스턴스의 시간당 가격과 결합했을 때, r5d.2xlarge 인스턴스는 동일한 양의 작업을 실행하는 데 훨씬 적은 비용이 들며, 이는 최대 51%의 비용 절감입니다. 회사에서 더 일찍 실행 가능한 인사이트를 확보하고 AWS 인스턴스에 대한 지출을 줄이려면 2세대 인텔 제온 스케일러블 프로세서가 탑재된 Photon 지원 r5d.2xlarge 인스턴스를 선택하십시오.
더 알아보세요
2세대 인텔 제온 스케일러블 프로세서를 탑재한 Photon 지원 Amazon R5d 인스턴스에서 Databricks 클러스터를 실행하려면 https://aws.amazon.com/quickstart/architecture/databricks/ 방문하십시오.
Databricks의 Photon Vectorized 쿼리 엔진에 대한 자세한 내용은 https://databricks.com/product/photon 및 https://docs.databricks.com/runtime/photon.html 방문하십시오.
이 보고서의 모든 결과에 대해 당사는 TPC-DS에서 파생된 의사 결정 지원 워크로드를 사용했습니다. 모든 테스트는 2021년 12월 us-east-1 AWS 지역에서 수행되었습니다. 모든 테스트는 Ubuntu 18.04.1, 커널 버전 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12와 함께 20 노드 클러스터를 사용했습니다. 두 인스턴스 유형 모두 VCPU 8개와 64GB RAM이 있었습니다. r5d.2xlarge에는 300GB NVMe SSD, 10Gbps 네트워크 BW 및 4,750Mbps 스토리지 BW가 있었습니다. r5a.2xlarge 인스턴스에는 250GB EBS 볼륨, 10Gbps 네트워크 BW 및 2,880Mbps 스토리지 BW가 있었습니다.