2세대 인텔® 제온® 확장 가능한 프로세서가 탑재된 Amazon® R5d 인스턴스를 통해 최대 76% 더 적은 시간 내에 Databricks 쿼리를 실행하고 비용을 절감하십시오.

데이터브릭스:

  • Photon이 활성화된 2세대 인텔 제온 스케일러블 프로세서가 탑재된 r5d.2xlarge 인스턴스를 사용하여 최대 76% 더 적은 시간 내에 의사 결정 지원 쿼리를 실행합니다.

  • Photon이 활성화된 2세대 인텔 제온 스케일러블 프로세서가 탑재된 r5d.2xlarge 인스턴스를 사용하여 의사 결정 지원 쿼리를 실행하려면 최대 51% 적게 지출하십시오.

author-image

기준

Photon Vectorized 쿼리 엔진이 활성화된 이 인스턴스는 의사 결정 지원 워크로드에서 AMD EPYC™ 프로세서를 탑재하고 더 나은 가치를 제공하는 r5a.2xlarge 인스턴스를 크게 능가했습니다.

많은 조직이 데이터브릭스의 Lakehouse Platform에 의존하여 구조화 및 구조화되지 않은 데이터를 저장하고 분석합니다. 의사 결정 지원 쿼리를 신속하게 실행하려면 강력한 하드웨어가 지원하는 클라우드 인스턴스를 선택하는 것이 중요합니다. 그러나 이 기준을 충족하는 인스턴스를 결정하는 것은 어려울 수 있습니다.

인텔은 의사 결정 지원 워크로드를 위해 클라우드 인스턴스를 쇼핑하는 기업을 지원하기 위한 테스트를 수행했습니다. 특히 2세대 인텔® 제온® 스케일러블 프로세서에서 활성화된 R5d 인스턴스와 AMD EPYC 프로세서를 탑재한 R5a 인스턴스 등 AWS 인스턴스 시리즈를 살펴보았습니다. 이 두 인스턴스 유형의 Databricks Runtime 9.0 클러스터를 만들어 의사 결정 지원 워크로드를 실행했습니다. R5d 클러스터에서는 SQL 쿼리 성능을 개선하기 위해 설계된 Photon이라는 벡터화된 쿼리 엔진을 활성화한 VM을 사용했습니다. 이 테스트 당시 Databricks의 Photon 엔진은 R5a 인스턴스에서 지원되지 않습니다.

R5d 인스턴스 완료 의사 결정 지원 워크로드 단축

인텔은 주어진 쿼리 집합을 실행하는 데 필요한 시간을 반영하여 더 낮은 점수를 생성하는 의사 결정 지원 벤치마크로 두 AWS 인스턴스를 테스트했습니다. 시간이 적게 걸리는 인스턴스를 선택하면 먼저 중요한 정보를 더 빨리 받고 인스턴스 가동 시간 및 관련 비용을 줄여 지출 비용을 줄이는 두 가지 방법을 사용할 수 있습니다. 그림 1에서 알 수 있듯이, 2세대 인텔 제온 스케일러블 프로세서와 Photon이 탑재된 r5d.2xlarge 인스턴스는 AMD EPYC 프로세서를 사용하는 r5a.2xlarge 인스턴스보다 74% 적은 시간 내에 설정된 1TB 데이터에서 완료된 쿼리를 활성화했습니다. 10TB 데이터 세트를 사용하면 r5d.2xlarge 클러스터의 쿼리 완료 시간이 r5a.2xlarge 클러스터보다 76% 단축되었습니다.

그림 1. 2세대 인텔 제온 스케일러블 프로세서와 1TB 및 10TB 데이터 세트 모두에서 AMD EPYC 프로세서가 탑재된 r5a.2xlarge 클러스터가 있는 Photon 지원 r5d.2xlarge 인스턴스 클러스터에서 벤치마크 쿼리 집합을 완료하는 상대 처리 시간.

쿼리 시간이 짧아서 수익에 도움이 되는 방법

회사가 투자하는 모든 리소스의 경우와 마찬가지로 달러에 대한 좋은 가치를 얻는 것이 우선 순위입니다. 이전 페이지에서 논의한 테스트 시나리오를 수행하는 데 드는 비용이 얼마나 드는지 계산했습니다. 테스트 시 각 인스턴스, 스토리지 및 Databricks DBUs의 시간당 가격을 그림 1의 시간과 함께 사용하여 네 개의 시나리오 모두에 대한 TB당 가격을 결정했습니다. 그림 2에서 알 수 있듯이, Photon 지원 r5d.2xlarge 인스턴스에서 의사 결정 지원 워크로드를 실행하면 회사가 훨씬 적은 지출을 할 수 있습니다. 1TB 데이터 집합의 경우, 2세대 인텔® 제온® 스케일러블 프로세서가 지원하는 r5d.2xlarge 클러스터는 AMD EPYC 프로세서가 탑재된 r5a.2xlarge 클러스터보다 46% 낮은 가격/성능을 제공할 수 있습니다. 10TB 데이터 집합의 경우 Photon 지원 r5d.2xlarge 클러스터는 가격/성능 비용을 51% 절감합니다.

그림 2. 1TB 및 10TB 데이터 집합의 r5a.2xlarge 인스턴스와 비교하여 Photon 지원 Amazon r5d.2xlarge 인스턴스에서 Databricks 환경에 대한 의사 결정 지원 워크로드를 실행하기 위해 가격/성능을 정상화했습니다.

결론

인텔은 2세대 인텔 제온 스케일러블 프로세서와 AMD EPYC 프로세서를 탑재한 r5a.2xlarge 인스턴스를 특징으로 하는 Photon 지원 AWS r5d.2xlarge 인스턴스에서 두 개의 서로 다른 데이터 세트 크기에 대한 Databricks 쿼리 집합을 완료하는 시간을 측정했습니다. r5d.2xlarge 인스턴스는 최대 76% 더 적은 시간에 쿼리 집합을 완료했습니다. 이 시간을 두 인스턴스의 시간당 가격과 결합했을 때, r5d.2xlarge 인스턴스는 동일한 양의 작업을 실행하는 데 훨씬 적은 비용이 들며, 이는 최대 51%의 비용 절감입니다. 회사에서 더 일찍 실행 가능한 인사이트를 확보하고 AWS 인스턴스에 대한 지출을 줄이려면 2세대 인텔 제온 스케일러블 프로세서가 탑재된 Photon 지원 r5d.2xlarge 인스턴스를 선택하십시오.

더 알아보세요

2세대 인텔 제온 스케일러블 프로세서를 탑재한 Photon 지원 Amazon R5d 인스턴스에서 Databricks 클러스터를 실행하려면 https://aws.amazon.com/quickstart/architecture/databricks/ 방문하십시오.

Databricks의 Photon Vectorized 쿼리 엔진에 대한 자세한 내용은 https://databricks.com/product/photonhttps://docs.databricks.com/runtime/photon.html 방문하십시오.

이 보고서의 모든 결과에 대해 당사는 TPC-DS에서 파생된 의사 결정 지원 워크로드를 사용했습니다. 모든 테스트는 2021년 12월 us-east-1 AWS 지역에서 수행되었습니다. 모든 테스트는 Ubuntu 18.04.1, 커널 버전 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Scala 2.12와 함께 20 노드 클러스터를 사용했습니다. 두 인스턴스 유형 모두 VCPU 8개와 64GB RAM이 있었습니다. r5d.2xlarge에는 300GB NVMe SSD, 10Gbps 네트워크 BW 및 4,750Mbps 스토리지 BW가 있었습니다. r5a.2xlarge 인스턴스에는 250GB EBS 볼륨, 10Gbps 네트워크 BW 및 2,880Mbps 스토리지 BW가 있었습니다.

이 페이지의 콘텐츠는 원본 영어 콘텐츠에 대한 사람 번역 및 컴퓨터 번역의 조합으로 완성되었습니다. 이 콘텐츠는 편의와 일반적인 정보 제공을 위해서만 제공되었으며, 완전하거나 정확한 것으로 간주되어선 안 됩니다. 이 페이지의 영어 버전과 번역 간 모순이 있는 경우, 영어 버전이 우선적으로 적용됩니다. 이 페이지의 영어 버전을 확인하십시오.