예측 데이터 및 분석 — 정의와 중요한 이유

데이터 중심 비즈니스의 새로운 시대에 예측 분석이 조직의 경쟁력 창출에 어떤 도움이 되는지 알아봅니다.

예측 분석이란?

소유하고 있지만 완전히 활용하지 못하는 모든 데이터를 생각해 보십시오. 일반 고객 트랜잭션으로 생성된 데이터 뿐만 아니라 소셜 미디어, 웹, 음성 파일, 이미지 문서를 포함한 비전형 소스로부터 수집한 데이터도 있을 것입니다. 이제 구조화 및 비구조화 데이터를 포함한 이러한 데이터를 모두 활용하여 경쟁 우위를 확보할 수 있습니다. 이러한 인사이트를 얻을 수 있는 열쇠 중 하나가 분석, 그 중에서도 특히 예측 분석입니다.

예측 분석은 가능한 미래의 결과에 대한 인사이트를 얻기 위해 조직이 만들고 수집하는 다양한 종류의 데이터를 모두 활용하는 프로세스입니다. 가능한이라는 단어에 주목하십시오. 예측 분석은 가상 시나리오를 실행하고 기존 데이터로 가능성을 평가함으로써 미래 발생의 합리적인 확률을 예측하는 데 도움이 됩니다.

예측 분석은 고급 분석 기법으로 간주됩니다. 고급 분석 기법은 비즈니스가 과거가 아닌 미래를 바라보게 해준다는 점에서 기존의 분석 기법과 다릅니다. 그러니까 무슨 일이 있었는지가 아닌 무슨 일이 일어날 것인지 질문한다는 것이죠. 예를 들어 이 엘리베이터는 50시간 내에 수리를 해야하는 상태가 될 것인가? 또는 분석에 관한 경험과 전문 지식이 쌓임에 따라 이와 관련하여 앞으로는 무엇을 할 것인가? 가장 좋은 점은 고급 분석을 마스터한 후에는 시스템을 신뢰하고, 데이터를 분석하여 비즈니스에 가장 효과적인 일을 할 수 있다는 것입니다.

분석 배포는 주로 5단계의 성숙도 곡선으로 나타납니다. 기존의 분석은 성숙도 곡선의 처음 두 가지 유형의 분석으로, 고급 분석은 그 다음의 세 가지 유형으로 구성됩니다.

조직에서는 어떤 방법으로 예측 분석의 혜택을 얻을 수 있을까요?

오늘날 수많은 기업은 기존의 비즈니스 인텔리전스(BI)를 뛰어넘어 예측 분석과 같은 고급 분석으로 나아가기 위해 노력하고 있습니다.

비즈니스에서는 예측 분석으로 무엇을 할 수 있을까요?

많은 것이 가능합니다. 급속히 확장되는 구조화 및 비구조화 데이터 볼륨을 모두 실시간으로 활용하여 인력 충원, 가격 설정, 재고 관리는 물론 데이터 센터 가동 시간과 SLA 등의 운영 문제에 대한 물음에 답할 수 있습니다.

두 가지 실제 사례:

  •  최근의 규정 변경으로 인해 환자의 재입원율을 줄여야 하는 압박에 처한 한 대형 병원에서는 예측 분석 모델을 구축했습니다. 이 모델은 새로운 데이터와 특수 데이터(특히 환자가 빈곤, 낮은 문해력, 제한된 영어 구사력, 가정 내 사회적 지원 부족, 열악한 생활 환경으로 인해 고통을 받았는지 여부)를 고려하고 이를 환자의 전자 의료 기록과 결합하여 재입원의 위험이 높은 환자를 파악했습니다. 병원은 이러한 환자를 대상으로 지정하고 이들을 특별히 관리함으로써 재입원 확률을 크게 줄이고 수백만 달러의 벌금 부과를 피하는 동시에 가용 리소스를 늘려 더 많은 환자를 치료할 수 있었습니다.1
  • 한 메이저 의류 업체는 제품에 RFID 태그를 부착하고 예측 분석 모델에서 데이터를 추적하여 재고를 실시간으로 100% 확인할 수 있었습니다. 이 모델을 통해 매장을 방문한 쇼핑객이 원하는 물건을 찾을 수 있도록 매장이 비치해야 할 제품의 스타일과 사이즈를 예측하고 특정 품목이 가장 잘 판매되는 위치와 시간을 예측하는 것이 가능해졌습니다. 결과적으로 브랜드의 판매량이 증가했을 뿐 아니라 재고를 더욱 효율적으로 추적하고 보충할 수 있었습니다.

예측 분석을 위한 최적의 인프라는 무엇일까요?

각각의 분석 유형에는 저마다 고유한 인프라 요구 사항이 있기 마련입니다. 우선 첫 번째 단계는 기존의 인프라를 살피는 것입니다. 컴퓨팅, 네트워킹, 스토리지 성능이 노후화되어 발목을 잡는 부분이 어디인지를 분석하십시오.

예측 분석에 필요한 성능, 보안, 메모리 또는 스토리지를 제공하려면 인프라를 현대화할 필요가 있습니다. 인프라는 상용 소스와 오픈 소스 예측 분석 솔루션을 모두 실행할 수 있을 정도로 유연해야 하고, 성장하기에 충분한 공간을 제공해야 합니다. 이제 선형적인 성장만으로는 부족하며 목표를 이루기 위해서는 인프라가 일반적인 기대를 넘어서는 수준으로 성장해야 할지도 모릅니다.

인프라를 통해 실시간, 인메모리 SAP HANA* 또는 Oracle* Exadata* 데이터베이스에서 스트리밍 분석(Storm*, Flink*)과 빅 데이터 하둡* 배포에 이르기까지 다양한 분석 워크로드를 실행할 수 있어야 합니다. 지금은 하둡* 데이터 레이크의 구축을 원하지만 미래에는 독립형 스파크* 환경이 필요할 수 있습니다. 인프라는 두 가지를 모두 소화할 수 있을 만큼 유연해야 합니다.

클라우드도 잊지 마시기 바랍니다. 대규모 예측 분석을 목표로 하는 경우 클라우드 컴퓨팅과 스토리지 성능이 인프라의 성능을 높여주고 온프레미스와 오프프레미스의 성장에 도움을 줄 수 있습니다. 클라우드는 현재 계획에 없는 인프라나 플랫폼 솔루션의 배포 속도를 높여주기도 합니다.

이러한 결과를 모두 달성하려면 업계 표준을 준수하는 인프라 구성 요소를 선택하되 그에 안주해서는 안 됩니다. 이것은 최소한에 불과하기 때문입니다. 구성 요소를 예측 분석 워크로드에 맞춰 테스트 및 최적화하고 대상 분석 워크로드, 메모리, 스토리지, 이더넷, 상호 연결 및 플랫폼을 딥 러닝에 최적화된 수준으로 가속화하기 위해서는 일반 프로세서의 성능을 넘어 맞춤형 FPGA에 도달해야 합니다.

오픈 소스는 예측 분석에서 어떤 역할을 할까요?

오픈 소스 도구를 평가하지 않아도 예측 분석을 배포할 수는 있지만 놓치는 부분이 생깁니다. 오픈 소스 분석 커뮤니티는 광범위하고 심층적이며, 하둡*에서 스파크*, 하이브*를 비롯한 여러 가지 고급 분석 도구의 찬란한 포트폴리오를 만들어냈고 이러한 도구는 글로벌 오픈 소스 커뮤니티를 통해 지속적인 개선과 발전을 거듭하고 있습니다. 

표면상으로는 오픈 소스 예측 분석 도구가 독점 분석 플랫폼보다 배포 비용이 훨씬 저렴합니다. 따라서 예측 분석을 이제 막 시작한 기업에 매력적으로 다가옵니다. 또한 유연성이 매우 우수하므로 다양한 분석 워크로드에 맞는 다수의 배포 옵션을 제공할 수도 있습니다. 

그러나 높은 유연성이 사용 난이도를 높이기도 합니다. 오픈 소스로 방향을 잡을 경우 데이터 과학자, 데이터 엔지니어, 데이터 분석가와 같이 최신 고급 기술을 갖춘 인력이 필요합니다. 이들을 고용하지 않는다면 사내에서 전문가를 직접 양성할 수도 있지만 적잖은 시간이 소요됩니다. 결국 컨설턴트를 고용하는 회사가 많은데, 이렇게 되면 오픈 소스 이니셔티브의 비용이 늘어납니다. 

일부 기업은 오픈 소스를 사용하여 예측 분석 시스템의 개념 증명(POC) 테스트를 진행한 다음 실제 생산 시에는 독점 솔루션으로 돌아서기도 합니다. 그러나 기업의 구조화 및 비구조화 데이터를 모두 활용하고 흥미진진한 새로운 분석 개념을 테스트할 기회를 주기 때문에 생산 솔루션에서 오픈 소스가 핵심 역할을 수행하는 사례는 점점 많아지고 있습니다. 오픈 기술과 독점 기술의 혼합으로 이어지는 경우도 많은데, 이렇게 되면 다양한 업무에 가장 적합한 솔루션을 고르고 이를 결합하여 최적의 결과를 산출할 수 있습니다.

조직 내에서 예측 분석 관련 비즈니스 사례 만들기

예측 분석의 가장 큰 장애물 중 하나는 제안된 이니셔티브가 비즈니스에 제공할 가치를 평가하는 일입니다. 

BI 솔루션 없이 살 수 없는 이들이라면 BI 솔루션의 가치를 잘 알고 있을 것입니다. 하지만 예측 분석의 가치는 어떻게 밝혀야 할까요? 먼저 새 인프라의 구축, 기술 고용 또는 성장, 분석 플랫폼 또는 도구의 구매에 필요한 당장의 비용을 정당화해야 합니다. 해당 투자가 기존의 분석이 지난 10년간 제공해왔던 백미러 영상 이상의 가치를 비즈니스에 제공하리라는 사실을 입증해야 하는 것입니다. 

가치 확립을 위한 제일의 규칙은 비즈니스의 참여를 이끄는 것입니다. 예측 분석은 외부와 단절되어 있지 않으며, 비즈니스 문제를 해결하려면 이를 활용해야 합니다. 비즈니스 사용자에게 예측 분석으로 해결 가능한 애로 사항을 파악하도록 요청하십시오. 이들이 해결하기 위해 애써왔으나 기존의 데이터 소스 및 분석 시스템의 역량으로는 불가능했던 문제를 선별하십시오. 또는 데이터 소스가 새롭거나 테스트되지 않았거나 비구조적이어서 이들이 해결할 수 있으리라 생각지 못한 새로운 문제를 선택합니다.

두 번째 규칙은 작은 규모로 시작하는 것입니다. 예측 분석은 심히 압도적일 수 있습니다. 끊임없이 변화하는 고도로 복잡한 영역인 것입니다. 시장에는 항상 새로운 솔루션과 도구가 등장하고 있지만(특히 오픈 소스 분야의 경우) 이러한 도구를 서로 어떻게 통합할 수 있을지는 분명치 않습니다. 데이터 보안에 관한 사항도 고려해야 합니다. 

먼저 비즈니스를 위해 이루고자 하는 바가 정확히 무엇인지에 대한 기본적인 질문을 스스로 던져 보십시오. 예측 분석은 어떻게 기존의 분석보다 더 많은 인사이트를 제공할까요? 얻고자 하는 데이터가 비즈니스의 경쟁력을 높여줄까요? 기대되는 ROI는 어떤가요?

인텔 파트너십의 장점

인텔은 예측 분석의 발전을 뒷받침하는 혁신을 주도하고 있습니다. 인텔® 기술은 인프라의 모든 측면을 아우르며 비즈니스가 예측 분석으로 경쟁력을 높일 수 있도록 지원합니다.

특히, 인텔은 컴퓨팅, 네트워크, 스토리지의 표준을 정의하고 주도합니다. 인텔의 혁신은 업계 예측 분석 솔루션의 가장 광범위한 에코시스템에서 테스트와 최적화를 거쳤으며, 오픈 소스 또는 독점 플랫폼에서 실행되는지 여부에 상관없이 예측 분석이 가능한 인프라의 다양한 워크로드를 지원합니다. 새로운 예측 분석 플랫폼은 모두 인텔 아키텍처에 기반하므로 사용자는 어디서나 분석을 수행하고 모든 배포의 일부로 분산형 분석을 활용할 기회를 얻을 수 있습니다.

컴퓨팅의 경우, 인텔® 프로세서는 예측 분석 요구 사항의 모든 범위를 커버합니다. 포트폴리오는 범용 인텔® 제온® 프로세서를 넘어 분석 워크로드, 메모리, 스토리지, 이더넷, 상호 연결을 가속화하기 위한 맞춤형 FPGA 등의 주요 보조 기술까지 확장됩니다.

예측 분석을 위해 스토리지를 현대화할 때는 인텔 기술이 획기적인 응용 프로그램 성능을 제공하므로 인사이트의 획득 시간이 줄어듭니다. 인텔® 프로세서, 칩셋, 펌웨어, 소프트웨어, 드라이버와 함께 원활한 성능과 고급 기능을 발휘하도록 설계된 인텔 스토리지 솔루션은 빠른 속도와 저렴한 가격, 성능을 제공합니다.

인텔은 예측 분석의 네트워킹 측면에도 도움을 줍니다. 데이터를 담아둔 데이터 레이크나 데이터 웨어하우스에서 분석 컴퓨팅 인프라로 데이터를 전송할 때 지연이 발생하면 이는 곧 비용 증가로 이어집니다. 인텔은 이와 같은 조직의 지연을 방지하기 위해 시장에서 가장 빠른 패브릭 중 하나를 제공하여 네트워크 파이프 전반에서 예측 분석 워크로드의 속도를 높여줍니다.

물론 보안도 빼놓을 수 없습니다. 인텔 하드웨어 및 소프트웨어 보안 도구를 사용하면 액세스 보안 뿐 아니라 미사용 데이터와 이동 중인 데이터의 보안도 확보됩니다.

인텔이 조직의 예측 분석 전략을 어떻게 지원하는지 자세히 알아보려면 여기를 클릭하십시오.

제품 및 성능 정보

1http://www.intel.com/content/www/us/en/healthcare-it/solutions/documents/predictive-analytics-reduce-hospital-readmission-rates-white-paper.html?wapkw=hospital+readmission+rates