Alibaba, 엔드투엔드 PPML 솔루션 구축

Alibaba Cloud와 인텔은 BigDL PPML과 Alibaba Cloud Data Trust의 시너지 효과를 통해 AI 및 빅 데이터의 E2E 개인정보를 보호합니다.

개요:

  • Alibaba Cloud는 클라우드 컴퓨팅과 인공 지능 분야의 글로벌 리더입니다.

  • Alibaba Cloud와 인텔은 협력을 통해 기업이 인텔® Software Guard Extensions(인텔® SGX)를 사용하여 AI와 빅 데이터 응용 프로그램의 종단 간 개인정보를 더 강력하게 보호할 수 있도록 지원합니다.

author-image

기준

개요

빅 데이터와 인공 지능(AI) 등 혁신적인 디지털 기술이 세상을 빠르게 재구성하고 있습니다. 이러한 기술은 인간의 삶에 더 많은 가능성을 제공함으로써 사회 및 경제 개발 모델을 바꾸고 있습니다. 데이터가 중요한 자산 중 하나가 되었음을 인지하고 데이터 중심 혁신의 추세를 포착하는 기업이 점점 더 늘어나고 있습니다. 그러나 데이터 요소는 조직 내외의 저장, 처리, 유통 과정에서 심각한 보안 위험에 처해 있기도 합니다. 따라서 데이터 보안 보호는 이제 디지털 혁신의 성패를 결정하는 중요한 요소 중 하나입니다.

인텔은 인텔® Software Guard Extensions(인텔® SGX)를 기반으로 종단 간 빅 데이터와 AI 파이프라인을 보호하기 위해 BigDL PPML(개인정보 보호 머신 러닝)을 구축했습니다. 인텔은 Alibaba Cloud DataTrust와의 협력을 통해 종단 간 워크플로와 관련 비즈니스 시나리오에서 PPML 솔루션을 검증했으며, BigDL PPML을 기반으로 종단 간 개인정보 보호 응용 프로그램을 신속하게 구축하는 모범 사례를 시연했습니다.

배경: 보안 위험에 처한 빅 데이터 및 AI를 위한 데이터 퓨전

디지털 혁신은 데이터 가치의 중요성을 강조하고 데이터 흐름을 가속하는 반면에, 여러 당사자 간에 복잡한 데이터 저장, 유통, 처리를 초래합니다. 조직 하나가 모든 데이터, 특히 AI 및 빅 데이터 응용 프로그램에 필요한 데이터를 준비하기는 어렵습니다. 따라서 여러 당사자가 협력하여 데이터 융합을 실현하고 활용해야 합니다. 금융 AI 알고리즘 훈련을 예로 들면, 개별 금융 기관이 자체 데이터만으로는 요구 사항을 충족하지 못합니다. 이 경우 여러 당사자가 협력하여 AI 모델을 생성 및 유지 관리하고, 궁극적으로 데이터를 공유할 수 있습니다.

그러나 기관 및 산업 간 데이터 퓨전, 분석, 모델링에 대한 필요성이 커지면서 데이터 보안 위험도 상당히 증가했습니다. 한편으로는 데이터가 쉽게 복사되고 퍼질 수 있으므로 기존 보안 모델에서 공유한 데이터를 추적하기가 어렵습니다. 다른 한편으로는 지속적인 데이터 흐름이 불분명한 책임 분담, 어려운 권한 제어, 까다로운 책임 추적성 파악 등의 문제를 일으키게 됩니다. 따라서 데이터 보안과 신뢰성이 최우선 과제가 됩니다.

그러나 AI 및 빅 데이터 응용 프로그램에 대한 기존 보안 솔루션은 종종 다음과 같은 과제에 직면합니다.

 

  • 공동 분석 및 모델링에서는 데이터를 빈번하게 공유하고 융합해야 하지만, 기존 데이터 보안 솔루션은 사용 중인 데이터가 아닌 미사용 또는 전송 중인 데이터를 보호하도록 설계되었습니다. 그 결과 일부 보안 위협이 보안 방어선을 뚫고 데이터 유출 등의 사고를 일으킬 수 있습니다.
  • AI 및 빅 데이터 응용 프로그램에는 데이터 입력, 데이터 분석, 머신 러닝, 딥 러닝 등 여러 프로세스가 포함됩니다. 이러한 프로세스의 취약성은 데이터 유출을 비롯하여 심각한 결과를 초래할 수 있습니다. 따라서 종단 간 보안을 보장하는 것이 중요합니다.
  • AI 및 빅 데이터에 대한 공격은 다양한 공격 기술과 도구뿐만 아니라 알려지거나 알려지지 않은 폭넓은 보안 위협을 포함합니다. 그러나 기존 솔루션은 일반적으로 소프트웨어 수준에서 작동하지만, 하드웨어 하단 계층을 거의 보호하지 못하여 보호 효율성이 더 개선될 수 없도록 방해합니다.
  • 데이터 보안 조치는 종종 상대적으로 복잡한 계산에 의존하므로 특정 성능 손실을 초래하고 데이터 뱅크의 운영 효율성에 부정적인 영향을 미칠 수 있습니다.

솔루션: BigDL PPML 기반 Alibaba Cloud E2E PPML

기업이 AI 및 빅 데이터 응용 프로그램의 종단 간 개인정보를 더 강력하게 보호할 수 있도록 지원하기 위해, Alibaba Cloud와 인텔은 협력하여 BigDL PPML과 Alibaba Cloud DataTrust의 시너지 효과를 통해 종단 간 워크플로 및 관련 비즈니스 시나리오에서 Alibaba Cloud E2E PPML을 검증했습니다.

그림 1. BigDL PPML 소프트웨어 스택.

BigDL PPML

인텔의 통합 오픈 소스 AI 솔루션 플랫폼인 BigDL을 통해 데이터 과학자와 데이터 엔지니어가 종단 간 분산 AI 응용 프로그램을 더 쉽게 구축할 수 있습니다. BigDL은 인텔의 신뢰 실행 환경(TEE)인 인텔® SGX를 사용하고 다른 하드웨어 및 소프트웨어 보안 조치와 통합하여 종단 간 분산 AI 파이프라인(데이터 수집, 데이터 분석에서 머신 러닝 및 딥 러닝까지)을 보호하는 분산형 PPML 플랫폼을 구축해 왔습니다.

BigDL PPML의 중요한 기반 기술인 인텔 SGX는 시스템의 운영 체제(OS) 및 가상 머신(VM) 소프트웨어 계층을 우회하여 이러한 많은 공격에 대해 상당한 추가 보호를 제공합니다. 이를 통해 데이터 보안을 추가하고 더 많은 기밀 컴퓨팅의 요구 사항을 충족합니다. 인텔 SGX는 메모리에서 특정 응용 프로그램 코드와 데이터를 격리하는 하드웨어 기반 메모리 암호화를 제공합니다. 인텔 SGX에서는 사용자 수준 코드를 사용하여 엔클레이브라고 하는 프라이빗 메모리 영역을 할당할 수 있습니다. 엔클레이브는 더 높은 수준의 권한으로 실행되는 프로세스로부터 보호되도록 설계되었습니다.
 

그림 2. 인텔® SGX는 하드웨어의 하단 계층을 보호합니다.

인텔 SGX는 엄격한 테스트를 거쳐 널리 배포된 하드웨어 기반 데이터 센터 신뢰 실행 환경(TEE)이며 시스템 내에서 사용할 만한 공격 표면이 가장 적습니다. 인텔 SGX의 증명 메커니즘은 소프트웨어 기반 공격을 방어하는 데 도움이 될 뿐만 아니라 사용자가 응용 프로그램 및 하드웨어가 손상되지 않았으며 프로세서에 최신 보안 업데이트가 설치되어 있음을 검증할 수 있도록 지원합니다.
개발자는 BigDL PPML 플랫폼을 사용하여 다음을 수행할 수 있습니다.

 

  • 암호화된 데이터를 통해 표준 분산 AI 응용 프로그램(예: 빅 데이터 분석, 머신 러닝, 딥 러닝)을 개발하고 실행합니다.
  • 인텔 SGX와 같은 하드웨어 기반 보안 기술을 사용하여 컴퓨팅 프로세스와 해당 메모리 데이터를 보호합니다.
  • AI 응용 프로그램에 종단 간 보안 및 개인정보 보호를 제공합니다(예: 인텔 SGX 하드웨어를 사용하여 Kubernetes 환경에서 신뢰할 수 있는 클러스터를 생성 및 인증하고, 키 관리 시스템(KMS)을 통해 분산 데이터에 대한 암호화 및 암호 해독 기능을 제공하며, 인텔 SGX, 암호화 및 암호 해독, TLS, 보안 인증과 같은 기술을 기반으로 보안이 적용된 분산 컴퓨팅 및 데이터 통신을 지원함).

Alibaba Cloud DataTrust

Alibaba Cloud DataTrust는 업계 최고의 개인정보 보호 강화 컴퓨팅 플랫폼으로, TEE, 다자간 보안 컴퓨팅(MPC), 연합 학습(FL), 차등 개인정보 보호(DP) 등 개인정보 보호 강화 기술을 기반으로 합니다. 데이터 가치 흐름에 대한 보안을 실현하고, 데이터 유통에 보안을 적용하기 위해 업계에 올바르고 사용하기 쉬운 고가용성 제품을 제공하도록 최선을 다하고 있습니다.

그림 3. Alibaba Cloud DataTrust의 아키텍처.

인텔 SGX를 기반으로 구축된 Alibaba Cloud DataTrust는 MPC 및 FL과 같은 기술을 채택하고, Alibaba Cloud 데이터 센터의 풍부한 응용 프로그램 시나리오를 활용합니다. 이를 통해 다자간 데이터 공동 분석, 훈련, 예측을 실행하는 동시에 데이터 보안을 보장하고, 기업에 데이터 서비스 네이티브 솔루션을 제공하여 데이터 유통에 보안을 적용하고 비즈니스 성장 촉진을 지원합니다.

종단 간 솔루션 워크플로

BigDL PPML은 개인정보 컴퓨팅의 핵심 기능을 기반으로 종단 간 개인정보 보호 컴퓨팅 워크플로의 더 많은 구성 요소(예: 증명 서비스, 키 관리 서비스, Kubernetes 기반 보안 컨테이너 배포)를 통합합니다.

그림 4. BigDL PPML 기반 종단 간 보안 컴퓨팅 워크플로.

BigDL PPML을 기반으로 하는 위의 종단 간 보안 컴퓨팅 워크플로에서 각 프로세스의 기능에 대한 설명은 다음과 같습니다.

그림 5. BigDL PPML을 기반으로 하는 종단 간 보안 컴퓨팅 워크플로의 기능.

BigDL PPML 솔루션은 위의 워크플로 체계를 통합하며 여기에는 Apache Spark, Spark SQL, 머신 러닝, 딥 러닝을 지원하는 인텔 SGX 기반 신뢰 컴퓨팅 핵심 구성 요소, 증명 서비스의 추상화된 클라이언트 API, 키 관리 서비스의 추상화된 클라이언트 API, 암호화된 데이터 전송 및 저장, 맞춤형 Kubernetes 컨테이너 이미지가 포함됩니다.

위의 사전 구성된 워크플로를 사용하여 개발자는 비즈니스 로직 개발에 더 집중하고 BigDL PPML을 활용하여 응용 프로그램의 종단 간 보안과 개인정보 보호를 보장할 수 있습니다. 사용자는 프라이빗 컴퓨팅 응용 프로그램의 개발 효율성을 크게 개선하고 프라이빗 컴퓨팅 솔루션에 대한 시간을 크게 단축할 수 있습니다.

응용 프로그램 실습

Alibaba Cloud DataTrust는 Spark SQL 인스턴스를 실행하여 BigDL PPML 솔루션을 검증합니다. 기본 단계는 다음과 같습니다.

1. Alibaba Cloud에서 보안 ECS 인스턴스 생성

그림 5와 같이 암호화된 메모리로 g7t 인스턴스를 생성합니다. 생성 후 아래 목록에서 인스턴스 사양을 확인합니다.

그림 6. ECS 인스턴스 사양.

2. BigDL PPML을 위한 운영 환경 준비

첫 번째로 Kubernetes 클러스터, 인텔 SGX 플러그인, NFS 서비스를 배포하고, BigDL PPML의 도커 이미지를 받고, 보안 키와 비밀번호를 생성합니다. 두 번째로 RABC 구성과 Kubernetes 비밀 생성을 포함한 Kubernetes 보안 구성을 수행합니다. 마지막으로 BigDL PPML 클라이언트 컨테이너를 시작합니다.

3. ECS에서 BigDL PPML로 사용자 샘플을 실행하여 종단 간 보안 보호 테스트

첫 번째로 BigDL PPML 클라이언트 컨테이너에 들어가서 앱 ID, 앱 키, KMS 키를 생성하고, KMS 키를 사용하여 입력 데이터를 암호화합니다. 두 번째로 spark-executor-template을 구성합니다. Yaml로 작성하고 암호화된 데이터와 KMS 키를 NFS 경로에 배치합니다. 마지막으로 작업을 Kubernetes 클러스터에 제출하고 샘플 프로그램을 실행합니다.

위의 증명 프로세스를 통해 Alibaba Cloud ECS g7t.32xlarge 인스턴스에 업계 벤치마크 TPC-DS 기반 쿼리를 실행합니다. 테스트 구성은 다음과 같습니다.

99개의 쿼리문에서 소요된 시간의 기하 평균을 메트릭으로 삼았을 때 인텔 SGX 기반 BigDL PPML의 실행 시간은 인텔 SGX 보호가 없는 구성의 실행 시간보다 1.89배 빠릅니다.1

테스트 데이터에 따르면 인텔 SGX가 활성화된 후 특정 성능이 손실되지만, 이러한 성능 손실은 허용 범위 내에 있습니다. 또한, 인텔 SGX가 초래하는 성능 손실은 일반적으로 기존 보안 솔루션보다 훨씬 적으므로 데이터 보안을 보호하는 동시에 컴퓨팅 리소스를 절약할 수 있습니다.

표 1. 테스트 구성.

이점: 데이터 가치 흐름의 보안 주도

BigDL PPML을 기반으로 하는 Alibaba Cloud 종단 간 PPML 솔루션은 TEE의 이점을 유지합니다. 기존 데이터 보안 솔루션보다 성능 손실이 더 적으면서도 더 높은 수준의 보안 및 데이터 유용성을 제공합니다. 

기업은 이 솔루션을 활용하여 데이터 수집, 데이터 분석, 머신 러닝, 딥 러닝 등 여러 단계의 AI 및 빅 데이터 응용 프로그램에 대한 보호 기능을 통해 종단 간 보안 워크플로를 구축하여 보안 위협을 방지합니다. 한편, 이 솔루션은 하드웨어 하단 계층에서 더 높은 수준의 데이터 보호를 지원하여 기존 보안 솔루션으로는 차단하기 어려운 공격을 방어하여 중요한 데이터가 유출되는 위험을 줄입니다.

이 솔루션을 통해 기업은 보안이 적용된 데이터 퓨전 서비스를 제공할 것입니다. 원본 데이터를 공개하는 대신 공동 분석, 훈련, 예측에는 로직 데이터를 응용 프로그램에만 사용할 수 있는 권한이 부여되므로 시나리오 기반 데이터 퓨전의 보안 요구 사항을 충족합니다. 자율성, 제어 가능성, 보안과 같은 비즈니스 요구 사항도 충족하여 고객에게 안전한 유통을 위한 투명하고 제어 가능한 환경을 제공할 수 있습니다. 또한, 영구적인 데이터 제어 권한을 통해 관리 인터페이스에 쉽게 액세스하고 종료할 수 있습니다. 또한, 이 솔루션은 최첨단 보안 기술을 사용하고 다양한 비즈니스 시나리오에 맞게 패키징되어 기업 데이터 유통의 보안에 효과적입니다.

다음은 이 솔루션의 일반적인 응용 프로그램 시나리오입니다.

 

  • 세계적이고 세밀한 운영: 브랜드 소유자는 개인 프라이버시와 데이터 보안을 보호한다는 전제하에 연결된 플랫폼 및 타사의 모든 도메인 데이터에 디지털 및 지능형 운영 기능을 구축하고, 소비자, 제품, 마켓플레이스의 복합성을 최적화하며, 비즈니스 성장을 촉진합니다.
  • 공동 지능형 위험 제어: 기업 또는 기관은 자체 환경 내에 원본 데이터를 유지하면서 개인정보 보호 강화 컴퓨팅 기술을 사용하여 다자간 데이터에 대한 위험 제어를 실현하고, 위험 식별 효율성을 개선하며, 건전한 비즈니스 성장을 추진합니다.
  • 광고 추천: 소비자 개인정보와 자사 및 타사 데이터 보안을 보호한다는 전제하에 보안이 적용된 데이터를 기반으로 공동 모델링을 구현하고, 알고리즘 정확성과 광고 효과를 개선하며, 지속 가능하고 효율적인 비즈니스 성장을 촉진합니다.

요약 및 전망

데이터 보안 및 개인정보 보호에 관한 법률과 규정이 끊임없이 도입됨에 따라 조직에서 고객 데이터의 개인정보를 보호하는 것이 그 어느 때보다 중요해졌습니다. PPML을 기반으로 조직은 처리 및 분석 중에 대규모의 민감한 데이터에 따르는 위험을 줄이면서 강력한 AI를 계속 탐색할 것입니다.

인텔 SGX, BigDL, 기타 여러 보안 구성 요소를 기반으로 하는 BigDL PPML 솔루션은 데이터 보안과 빅 데이터 및 AI의 성능을 보장하는 플랫폼을 만들었습니다. BigDL PPML 워크플로는 Alibaba Cloud와 인텔이 공동으로 검증했습니다. 이 협력을 통해 BigDL PPML을 사용하여 종단 간 개인정보 보호 응용 프로그램을 개발하는 모범 사례를 선보였으며, 해당 응용 프로그램 개발 가속화에서 BigDL PPML의 중요한 역할을 입증했습니다. 인텔과 Alibaba Cloud는 성과를 이어가고, 종단 간 개인정보 보호를 더 혁신하고 실천하여 사용자가 더 안전한 데이터 퓨전을 달성하고 데이터 가치 활용을 촉진하도록 지원할 것입니다.

PDF 다운로드