• <Intel.com에 대한 자세한 내용

빅데이터 분석 스토리: 유전체 배열 순서 규명

채플 힐에 위치한 노스캐롤라이나 대학교에서 유전체 배열 순서 규명 기술을 통해 환자에 대한 더 좋은 치료법을 알아내기 위해
빅데이터를 사용하고 있습니다.

Charles Schmitt, UNC의 RENCI 소속 정보 과학 및 데이터 과학 부서장

 

미국 채플힐에 위치한 노스캐롤라이나 대학교(UNC)는 자체 건강 관리 시스템의 임상치료 임무를 지원하고 게놈 및 생물학 연구를 확대하기 위해 게놈 배열 기술에 집중 투자하기로 결정했습니다. 이 기관 전체 계획은 임상의사 및 연구원의 다양한 요구사항을 충족시킬 수 있도록 수백에서 수천개까지 이르는 개별 게놈을 관리 및 분석하는 데이터 중심 프로젝트입니다.

이 빅데이터 도전과제를 해결하기 위해 우리는 3단계 프로세스를 사용합니다. 첫 번째 단계는 환자의 조직 세포가 수집되는 해중 실험실에서 시작됩니다. 그런 다음 Illumina and Pacific Biosciences에서 만들어진 11개의 고속 분석기 조합으로 각 환자의 수억 개의 짧은 DNA 시퀀스를 생성합니다. 이 데이터로 연구원은 병렬화된 컴퓨터의 워크플로우를 사용하여 게놈을 재조합하고 그 때 발생하는 오류를 수정합니다.

게놈이 모두 수집되면 두 번째 단계에서 각각의 변이를 감지 하는데, 이 작업에서 시퀀스 데이터에 있는 모호성을 명확히 하기 위해 많은 수의 환자들을 대조군으로 사용합니다. 이 데이터는 표준 변형을 저장하고 보관하기 위한 관계형 데이터베이스, 데이터를 유지하기 위한 고성능 파일 시스템 및 데이터 중심 분석을 위한 하둡* 기반 접근법을 사용하는 하이브리드 솔루션에서 구성됩니다. 공용 도메인 및 개인용 데이터베이스에 대한 연결을 통해 연구원이 단백질 형성에 있어서 변형의 영향, 임상적 관련 조건에 연관된 것으로 알려진 변이가 있는지 여부 및 기타 변형의 알려진 특징을 식별하는 데 도움을 줍니다.

마지막은 프로세스의 세 번째 단계인 의료진에게 보고하는 것입니다. 이 단계의 핵심은 “clinical binning” 이라고 하는 UNC에서 개발한 소프트웨어의 맞춤형 프로그램을 사용하여 수행 됩니다. 이 프로세스는 임상의와 환자가 걱정하는 변이의 종류를 확인 할 수 있도록 모든 변이에 대해 임상적 연관성을 부여합니다. 변이가 제거되면 웹 사이트를 사용하여 개인의 정보를 담당 의료진에게 전달합니다. 또한 이 단계에서는 식별된 변이의 단계별 각각의 검증을 제공함을 포함하여 채혈에서 분석 결과 보고까지 전체 프로세스를 관리 합니다.

우리의 솔루션은 50개의 인텔® 프로세서 기반 블레이드 서버를 사용해 일주일에 최대 30개의 게놈을 분석 할 수 있습니다. 우리는 현재 EMC Isilon* 데이터 시스템에 200에서 300 테라바이트의 게놈 데이터를 보유하고 있습니다.

게놈 데이터의 관리는 엔터프라이즈 iRODS*라고 하는 UNC 기반 데이터 그리드 기술을 통해 수행됩니다. 민감한 게놈 및 환자 데이터의 보안은 UNC 구축 Secure Medical Workspace* 기술을 통해 유지됩니다.

하둡 시스템은 전형적인 비즈니스 인텔리전스 도구에서 찾을 수 없거나 SQL* 관계 유형 구조에서 작동하는 정밀한 사용자 정의 분석을 수행할 수 있도록 해줍니다. 우리의 분석은 MapReduce* 구조를 적절하게 수정합니다. 다른 문제는 많은 양의 데이터를 처리하는 데 아주 긴 시간이 소요되는 추출, 변형, 로드(ETL) 작업을 사용하는 데이터베이스로 테스트하는 것입니다. 하둡을 사용하면 ETL 과정이 없으므로 시스템에 파일을 추가하기만 하면 됩니다.

우리는 이러한 과정을 통해 빅데이터 분석에 대해 많이 배웠습니다. 예를 들어 우리에게 정말로 필요한 것이 무엇인지 알기 전에, 서로 다른 컴퓨터를 사용하는 클러스터에서 워크플로우를 실행하는 데 유연성을 제공하도록 설계된 몇 가지 기술에만 투자가 이루어졌습니다. 대신 특정한 분석관련 요구사항을 기존 인프라에 맞게 조정하면서 비용을 절감했습니다. 서로 균형을 맞추는 것은 언제나 어렵죠.

제일 잘했던 건 모든 과정에서 빠르게 대응하고 기술적으로 유연하게 접근했던 것입니다. 결국 게놈 시퀀스는 새로운 기술이고, 변화가 빠르다는 것입니다. 요즘 사람들이 묻는 질문은 계속 빠르게 변하며, 거기에 따른 정보 관련 기술도 지속적으로 맞출 수 밖에 없죠.

Charles Schmitt

Charles Schmitt

 

“하둡 시스템은 전형적인 비즈니스 인텔리전스 도구에서 찾을 수 없거나 SQL 관계 유형 구조에서 작동하는 정밀한 사용자 정의 분석을 수행할 수 있도록 해줍니다.”