데이터 분석이란?

데이터는 그 어느 때보다 빠르게 생성되고 있습니다. 그러나 수집하는 데이터에서 최대한의 결과를 얻고 계십니까?

데이터 분석 개요

  • 데이터 분석은 원시 데이터를 보다 나은 결정을 내리도록 사용할 수 있는 지식과 인사이트로 변환합니다.

  • 데이터는 분석됨에 따라 가져오기 (데이터 수집), 준비 (데이터 처리), 분석 (데이터 모델링) 및 행동 (의사 결정) 이라는 네 가지의 파이프라인 단계를 거칩니다.

  • 머신 러닝 및 인공 지능(AI)을 사용하는 고급 분석은 성숙한 분석 능력을 갖춘 조직을 위한 가장 최첨단 기술입니다.

author-image

By

모든 종류의 기업 및 조직에게 데이터를 실행 가능한 인텔리전스로 변환하는 작업은 어려움과 번창함의 차이를 의미할 수 있습니다. 정보의 가치를 극대화하려면 원시 데이터를 분석하여 결론을 도출하는 과정인 데이터 분석이 필요합니다.

거의 모든 조직은 어느 정도 데이터를 분석하지만, 현대 분석은 전례없는 수준의 이해와 인사이트를 활성화합니다. 귀사는 데이터 주도의, 분석 주도 문화로 얼마나 나아갔으며, 다음 단계는 무엇입니까?

이 모든 것은 데이터 파이프라인으로 시작합니다.

데이터 파이프라인 이해하기

잘 개발된 데이터 분석 접근 방식을 구축하는 일은 시간과 헌신이 필요한 진화적 과정입니다. 다음 단계를 취하고 싶은 조직의 경우에는 데이터 파이프라인과 해당 파이프라인을 지나가는 데이터의 수명 주기를 이해하는 것이 매우 중요합니다.

  • 가져오기: 데이터 수집
    데이터 파이프라인의 첫 번째 단계는 가져오기입니다. 이 단계에서 데이터를 소스에서 수집하며, 저장할 수 있는 시스템으로 옮깁니다. 데이터는 연속적인 스트림 또는 일련의 개별 이벤트로 수집할 수 있습니다.

    대부분의 비구조화 데이터의 경우 (IDC는 80~90%로 추정합니다1 가져오기는 데이터 수명 주기의 시작이자 끝입니다. "다크 데이터"라고 부르는 이 정보는 가져오지만 절대로 조직의 나머지 부분에 영향을 주기 위해 분석하거나 사용하지 않습니다.

    오늘날, 가장 거대한 고급 데이터 분석 동향은 바로 가져오기 단계에서 시작합니다. 이 경우에는 스트리밍 데이터의 실시간 분석이 가져오기 과정과 함께 발생합니다. 이는 에지 분석으로 알려져 있으며, 전력을 적게 소모하면서 컴퓨팅 성능이 높아야 합니다. 에지 분석은 종종 공장 기계, 도시 거점, 농업 장비, 또는 기타 연결된 물건 등의 장치에서 정보를 수집하는 IoT 장치 및 센서를 필요로 합니다.

  • 준비: 데이터 처리
    데이터 파이프라인의 다음 단계는 사용자와 응용 프로그램이 접근할 수 있는 시스템에서 정보를 사용 및 저장하기 위한 데이터를 준비합니다. 데이터 품질을 극대화하기 위해서는 반드시 쉽게 액세스하고 쿼리화 할 수 있는 정보로 클리닝하고 변환해야 합니다.

    일반적으로 정보는 데이터베이스에서 준비 및 저장합니다. 다양한 유형의 데이터베이스는 다양한 형식으로, 다양한 목적을 위해 데이터를 이해하고 분석하는 데 사용합니다. SAP HANA* 또는 Oracle DB*와 같은 SQL* 관계형 데이터베이스 관리 시스템은 일반적으로 구조화된 데이터 세트를 처리합니다. 이러한 데이터 세트는 금융 정보, 크레딧 증명, 또는 주문 추적을 포함할 수 있습니다. 비구조화 데이터 워크로드와 실시간 분석은 Cassandra 및 HBase 같은 NoSQL* 데이터베이스를 사용할 가능성이 높습니다.

    데이터 파이프라인의 이 단계를 최적화하려면 빠른 쿼리를 위해 컴퓨팅 및 메모리 성능뿐만 아니라 데이터 관리를 해야 합니다. 또한 대량의 데이터를 수용할 수 있는 확장 가능성이 필요합니다. 데이터는 긴급성과 유용성에 따라 저장하고 계층화할 수 있으므로 가장 중요한 데이터를 가장 빠른 속도로 액세스할 수 있습니다.

    인텔® 기술은 오늘날의 가장 저장 집약적이고 메모리 집약적인 데이터베이스 사용 사례 중 일부를 강화시킵니다. 인텔® Optane™ 솔리드 스테이트 드라이브를 사용하여 Alibaba Cloud*는 각 POLARDB 인스턴스에 100TB의 스토리지 용량을 제공할 수 있었습니다.

  • 분석: 데이터 모델링
    데이터 파이프라인의 다음 단계에서 저장된 데이터를 분석하며, 모델링 알고리즘을 생성합니다. 데이터는 SAP, Oracle, 또는 SAS와 같은 엔드투엔드 분석 플랫폼으로 분석하거나, Apache Spark* 등의 도구로 확장 처리할 수 있습니다.

    데이터 파이프라인의 이 단계에 드는 비용을 가속화하고 줄이는 행위는 경쟁 이점을 위해 매우 중요합니다. 라이브러리 및 툴킷은 개발 시간과 비용을 절감할 수 있습니다. 한편, 하드웨어 및 소프트웨어 최적화는 반응 시간을 개선하는 동안 서버와 데이터 센터 비용을 절감할 수 있게 도와줍니다.

    메모리 분석 등의 기술은 데이터 분석 기능을 향상시키며, 분석 투자를 보다 비용 효율적으로 만들 수 있습니다. 인텔과 화학 기업 Evonik은 SAP HANA *데이터 테이블을 위한 17배 더 빠른 재시작을 달성했습니다.2

  • 행동하기: 의사 결정
    데이터를 가져오고, 준비하며, 분석한 후, 바로 실행할 준비가 되어 있습니다. 데이터 시각화 및 보고는 분석 결과를 전달하도록 지원합니다.

    전통적으로 데이터 과학자 또는 분석가의 해석은 이러한 결과를 보다 광범위하게 실행할 수 있는 비즈니스 인텔리전스로 변환해야 합니다. 그러나 기업은 유지 관리 승무원을 보내거나, 방의 온도를 바꾸는 등의 작업을 분석을 기반으로 자동화하기 위해 AI를 사용하기 시작했습니다.

데이터 파이프라인에 대한 보다 심층적인 리소스와 조직이 그들의 분석 기능을 발전시킬 방법에 대해 알아보기 위해 저희의 이북인 데이터에서 인사이트로: 데이터 파이프라인 극대화하기를 읽어보십시오.

귀사는 데이터 주도의, 분석 주도 문화로 얼마나 나아갔으며, 다음 단계는 무엇입니까?

네 가지 유형의 데이터 분석

데이터 분석은 설명 분석, 진단 분석, 예측 분석 및 처방 분석이라는 네 가지 기본 유형으로 나눌 수 있습니다. 이 단계는 분석 성숙도를 향한 단계로, 각 단계는 데이터 파이프라인의 "분석" 및 "행동" 단계 간의 거리를 단축시킵니다.

  • 설명 분석
    설명 분석은 과거 데이터를 요약하고 시각화하는 데 사용합니다. 즉 이 방식은 이미 발생한 일을 조직에 알려줍니다.
    분석의 가장 간단한 유형인 설명 분석은 작년 판매 수치를 분석하는 차트로 기본이 될 수 있습니다. 모든 분석 노력은 설명 분석의 확고한 기반에 따라 달라집니다. 많은 기업은 여전히 대시보드, 데이터 시각화 및 보고 도구를 포함하는 이러한 형태의 분석에 주로 의존합니다.

  • 진단 분석
    분석 노력이 성숙해지면 조직은 그들의 과거 데이터에 대하여 보다 강력한 질문을 던지기 시작합니다. 진단 분석은 무슨 일이 발생했는지뿐만 아니라 이 일이 왜 일어났는지를 검토합니다. 진단 분석을 수행하기 위해서 분석가는 동향과 인과 관계를 식별하기 위한 상세한 쿼리를 만들 수 있어야 합니다.
    진단 분석을 활용하여 변수 간의 새로운 관계를 발견할 수 있습니다. 스포츠 의류 회사의 경우 중서부의 판매 수치 증가는 맑은 날씨와 상호 관련이 있을 수 있습니다. 진단 분석은 패턴에 데이터를 일치시키며, 이례적이거나 특이한 데이터를 설명하기 위해 노력합니다.

  • 예측 분석
    처음 두 가지 유형의 분석은 과거 데이터를 검사하는 반면, 예측 분석 및 처방 분석은 미래를 살펴봅니다. 예측 분석은 과거 데이터에서 파생된 동일한 동향 및 통계 모델을 기반으로 둔 잠정적 결과를 예측합니다.
    예측 분석 전략을 구축하려면 최적화된 시뮬레이션을 만들기 위한 모델 구축 및 검증이 필요합니다. 따라서 비즈니스 의사 결정자는 최고의 결과를 얻을 수 있습니다. 머신 러닝은 일반적으로 예측 분석에 사용하며, 매우 확장된 데이터 세트에 대한 교육 모델은 보다 지능적인 예측을 생성하도록 설정합니다.

  • 처방 분석
    또 다른 고급 유형 분석은 처방 분석입니다. 예측 분석을 기반으로 하는 최고의 솔루션을 제안하는 처방 분석을 통해 진정한 데이터 주도 의사 결정으로 향하는 발전을 완료합니다.
    처방 분석은 머신 러닝 분석 및 신경 네트워크에 매우 의존합니다. 이러한 워크로드는 고성능 컴퓨팅 및 메모리 상에서 실행합니다. 이러한 분석 유형에는 다른 세 가지 유형의 분석을 기반으로 하는 확고한 기반이 필요하며, 노력에 상당한 자원을 투입할 의향이 있는 고도로 발전한 분석 전략을 보유한 기업에서만 실행할 수 있습니다

데이터 분석 사용 사례

인텔® 기술은 현대 기업 조직이 분석을 수행하는 방식을 변화시킵니다. 많은 산업, 그리고 세계를 확장하는 사례를 활용하여 인텔은 기업이 성능 및 비용 효율성 최적화를 돕는 반면 지속적으로 분석을 추진하기 위해 노력합니다.

  • 제조
    자동차 업체의 경우, 품질 제어는 비용을 절감하고 생명을 지킵니다. Audi의 자동화된 공장에서 분석가는 용접 품질을 보장하기 위해 샘플링을 사용했습니다. 인텔의 산업 에지 인사이트 소프트웨어에 구축한 에지의 예측 분석을 사용하여, 제조업체는 모든 차량에서 용접을 모두 자동으로 확인하고, 용접 생성 시 센서가 감지한 내용에 기초하여 용접 문제를 예측할 수 있습니다.

  • 의료
    흉부 X-레이를 읽도록 AI를 훈련하면 환자와 공급업체가 진단을 빠르게 얻는 데 도움이 됩니다. 인텔® 제온® 스케일러블 프로세서를 사용하여 신경 네트워크를 활용하면서 연구 조직 SURF는 정확도를 향상시킨 반면 훈련 시간은 한 달에서 여섯 시간으로 감소시켰습니다.

  • 통신
    스마트폰 및 모바일 인터넷은 전례없는 양의 모바일 데이터를 생성했습니다. 고객 경험을 향상시키기 위해서 통신 기업 Bharati Airtel은 인텔® 제온® 프로세서와 인텔® SSD를 사용하여 고급 네트워크 분석을 배치해 네트워크 문제를 빠르게 탐지하고 교정합니다.

분석을 위한 인텔® 기술

기업이 내일의 솔루션을 만들 수 있도록 기술 및 파트너의 광범위한 생태계를 활용하여 인텔은 전 세계 기업을 위한 고급 분석을 강화합니다. 데이터 센터에서 에지까지, 인텔은 분석 생태계의 모든 지점에서 작동하며 최대 가치와 성능을 제공합니다.

  • 인텔® 제온® 스케일러블 프로세서는 에지이든, 데이터 센터 또는 클라우드이든 상관없이 빠른 속도로 대량의 데이터를 분석할 수 있게 해줍니다.
  • 인텔® Optane™ 기술은 데이터가 이동하고 저장되는 방식으로 병목 현상을 극복하도록 지원하는 메모리 및 스토리지에 대한 혁신적 접근 방식을 보여줍니다.
  • 인텔® FPGA는 응답 시간을 향상시키기 위해 데이터 센터 내 가속을 제공합니다.
  • 인텔® 셀렉트 솔루션은 최적의 성능을 증명하고, 추측 작업을 제거하며, 솔루션 배치를 가속화합니다.

자주 묻는 질문

데이터 분석은 원시 데이터를 기업이 행동할 수 있는 인사이트로 옮기는 과정입니다.

빅 데이터 분석은 매우 확장된 데이터 세트를 사용하여 새로운 관계를 밝히고 대량의 정보를 보다 잘 이해합니다.

고급 분석은 특정 기술 또는 기술 세트가 아닙니다. 이는 머신 러닝, 증강 분석 및 신경 네트워크 같은 고급 기술을 활용하는 사용 사례 및 솔루션을 위한 분류입니다.

데이터 분석은 조직이 과거 사건을 이해하고, 미래의 사건을 예측하며, 행동 과정을 계획하도록 지원할 수 있는 비즈니스 정보 생성에 사용됩니다.

데이터 파이프라인의 네 단계는 가져오기, 준비하기, 분석하기, 그리고 행동하기입니다.

설명 및 진단 분석은 모두 과거를 살펴봅니다. 설명 분석은 발생한 에 대한 질문에 답하는 반면, 진단 분석은 이것이 발생한 이유를 살펴봅니다.

설명 분석은 이미 발생한 일을 말하기 위해 과거를 살펴보며, 모든 다른 분석 유형의 기반입니다. 처방 분석은 기존 데이터 및 예측 알고리즘을 기반으로 하는 행동에 대한 제안을 만듭니다.

예측 및 처방 분석은 모두 미래에 대한 인사이트를 생성합니다. 예측 분석은 예측된 사건에 대한 전망을 생성하고, 처방 분석은 이러한 예측을 기반으로 하는 행동 과정을 제안합니다.

예측 분석은 미래의 사건을 보다 잘 예측하기 위해 사용합니다. 예측 분석은 경제 상황이 미래 판매 전망에 영향을 미칠 가능성이 높은 요소를 개발 또는 평가하기 전에 유지 관리 요구 사항을 식별할 수 있습니다.

법적 고지 및 면책 사항
인텔® 기술은 지원되는 하드웨어, 소프트웨어 및 서비스 활성화를 요구할 수 있습니다. // 어떤 제품 또는 구성 요소도 절대적으로 안전하지는 않습니다. // 비용과 결과는 달라질 수 있습니다. // 인텔은 타사 데이터를 제어하거나 감사하지 않습니다. 정확성 평가를 위해서는 기타 소스를 참고해야 합니다.

제품 및 성능 정보

1“What Your Data Isn’t Telling You: Dark Data Presents Problems And Opportunities For Big Businesses,” Forbes, June 2019,  forbes.com/sites/marymeehan/2019/06/04/what-your-data-isnt-telling-you-dark-data-presents-problems-and-opportunities-for-big-businesses/#3086fe21484e .
2SAP HANA*는 SAP HANA* 표준 응용 프로그램 벤치마크 버전 2용 SAP BW 에디션을 위해 2018년 5월 30일 현재 워크로드를 시뮬레이션했습니다. 성능 테스트에 사용된 소프트웨어 및 워크로드는 인텔® 마이크로프로세서에만 적합하도록 최적화되었을 수 있습니다. SYSmark* 및 MobileMark와 같은 성능 테스트는 특정 컴퓨터 시스템, 구성 요소, 소프트웨어, 운영 및 기능을 사용하여 측정됩니다. 이러한 요소 중 하나라도 변경되면 결과가 달라질 수 있습니다. 고려 중인 제품을 제대로 평가하려면 다른 제품과 결합하여 사용할 경우 해당 제품의 성능을 포함한 기타 정보 및 성능 테스트를 참고해야 합니다. 자세한 내용은 www.intel.co.kr/benchmarks를 참조하십시오. 성능 결과는 구성에 표시된 날짜의 테스트를 기반으로 하며 공개된 모든 업데이트가 반영되어 있지 않을 수도 있습니다. 구성 백업 상세 정보를 확인하십시오. 어떤 제품 또는 구성 요소도 절대적으로 안전할 수는 없습니다. 기존 DRAM을 사용한 기본 구성: 8개의 인텔® 제온® 플래티넘 8176M 프로세서(28개 코어, 165와트, 2.1GHz)가 장착된 Lenovo ThinkSystem SR950 서버. 전체 메모리는 SAP HANA* 스토리지용 48개의 16GB TruDDR4* 2,666 MHz RDIMM 및 5개의 ThinkSystem* 2.5인치 PM1633a 3.84TB 용량 SAS 12GB 핫 스왑 SSD(Solid-State Drive)로 구성됩니다. 운영 체제는 SUSE* Linux Enterprise Server 12* SP3이고 6TB 데이터 세트가 탑재된 SAP HANA* 2.0 SPS 03을 사용합니다. 10회 반복 테이블 프리로드 후 완료된 모든 데이터의 평균 시작 시간: 50분. DRAM과 인텔® Optane™ DC 영구 메모리를 조합한 새로운 구성: 4개의 CXL QQ89 AO 프로세서(24개의 코어, 165W, 2.20GHz)를 갖춘 인텔 Lightning Ridge SDP. 총 메모리는 24개의 32GB DDR4 2666 MHz 및 24개의 128GB AEP ES2, 그리고 1개의 3710 인텔® SSD DC S3710 시리즈 800GB, 3개의 인텔® SSD DC P4600 시리즈 2.0TB, 3개의 인텔® SSD DC 시리즈 S4600 1.9TB 용량으로 구성됩니다. 바이오스 버전 WW33’18. 운영 체제는 SUSE* Linux*4 Enterprise Server 15이고 1.3TB 데이터 세트가 탑재된 SAP HANA* 2.0 SPS 03(SUSE의 특정 PTF 커널이 적용됨)을 사용합니다. 최적화된 테이블 프리로드의 평균 시작 시간(17배 향상).