기존에 쌓아온 데이터베이스를 기반으로 결과를 분석하고 가치를 창출하는 ‘빅데이터’시대가 도래 했다. 이는 정치, 경제, 사회, 과학, 기술, 문화 전 분야에 걸쳐 나타나는 현상으로 세계경제포럼은 지난 2012년 미래를 이끌어갈 핵심 기술의 첫 번째로 빅데이터 기술을 꼽기도 했다. 특히 바이오분야에서는 급증한 DNA, RNA, 단백질 서열 및 유전자 관련 데이터를 활용해 인류의 건강과 삶을 증진시킬 수 있을 것으로 기대되고 있다.
최근 우리 사회 화두는 단연 ‘건강한 삶’과 ‘웰빙’이다. 이러한 니즈에 따라 많은 빅데이터 분야 중에서 인간게놈의 바이오 빅데이터가 가장 빨리 실용화될 것으로 예상된다.
그 선도적인 역할을 하고 있는 정종선 대표는 같은 영역의 실현 가능한 1단계 고부가가치로 인간게놈정보와 병원 전자의무기록(EMR:Electronic Medical Records) 및 전자건강기록(EHR:Electronic Health Records)의 융합을 꼽았다. 이 분야의 성공은 질병 치료와 예방의 혁명일 뿐 아니라 다른 빅데이터 기반 융합학문의 실용화를 선도하게 될 것이라는 게 정 대표의 설명이다.
의료서비스 패러다임 바꿀 고부가가치 산업

인간의 DNA는 유전정보를 가지고 있고 DNA의 염기 수는 약 30억 개에 달한다. 방대한 인간의 DNA를 해독하는 장비는 차세대 시퀀싱 장비의 선두주자인 미국의 Illumina가 개발한 X-ten이다. 이 장비는 한 대당 가격이 100억 원에 달하고 하루 60명의 인간 유전체를 해독할 수 있다. 또한 해독된 1명의 인간 DNA는 몇 배수(X)로 해독되었느냐에 따라서 크기가 20GB에서 200GB로 다양하다. 현재 X-ten 장비는 우리나라와 미국, 호주, 중국에 6대가 공급됐으며 1년에 10만 명 이상의 전장유전체를 해독하고 있다. 이러한 인간의 DNA 유전정보는 세포, 조직, 및 장기에 따라 수많은 다른 방식의 전사방식을 가지게 되고, 환경에 기인한 다양한 표현형이 만들어져 현재의 70억 명의 서로 다른 인류가 된다.
또한 병원에 입원한 환자들의 뇌 영상, CT촬영 영상 이미지들도 진료 및 진단의 자료가 되고 의료영상 부문의 의료정보 빅데이터가 되며, 인간게놈 유전정보와 함께 상호보완적인 큰 영역이 될 것이다. 이 중에서 진단과 치료에 도움이 되는 자료들로 구성된 데이터베이스(DB)가 전자의료기록(EMR)에 포함되는데, 아직까지 인간게놈의 유전정보는 아주 간단한 변이들을 제외하고 EMR에 포함되지 않은 상태다. 지난 2007년에 시작된 미국의 국립보건성(NIH) eMERGE(Electronic Medical Records and Genomics) 프로젝트와 같은 관련연구가 진행되고 있는데, 이와 같이 유전 정보를 EMR에 올리고 운영하는 것은 새로운 고부가가치를 창출하는 영역으로서 대기업 및 병원들의 치열한 경쟁이 예상되고 있다.
암·희귀질환 변이의 절대적 단서

인간의 DNA는 인류 진화의 산물로서 정상인의 수십만 DNA가 수집되면 암과 희귀질환을 일으키는 변이를 찾는데 절대적인 단서가 될 것이다. ‘1대 10만인’ 유전체 비교 시스템이 필요한 이유다. 이에 정 대표는 “인간은 무한한 잠재성을 지니고 있고 수많은 감수성 및 저항성 유전형질을 지니고 있다. 그러나 성장환경이나 영양상태, 교육 및 발달과정에 기인해 본래의 모습이 감춰진 형태로 평생을 살아가는 경우가 많다”라며 “인간 본연의 유전 형질을 알면 더 발전된 방식으로 음식물, 약물 및 건강보조식품을 선택할 수 있으며 적성이나 직업, 취미를 선택하는 기준이 될 수 있다. 그 자체가 무한한 인간 DNA 잠재성 발견의 열쇠이자 질병치료의 실마리가 될 수 있을 것으로 기대된다”라고 말했다.
그렇다면 30억 개의 유전정보 중 EMR에 올려야할 정보는 얼마나 될까. 정 대표는 “무엇보다 DNA의 안정성 및 특이/희귀 변이 정보는 모두 올려야 한다”고 강조한다.
“엄마와 아빠 사이에서 새롭게 만들어지는 대립유전자 형질정보는 약 1,000만 개로 이러한 정보는 반수체(Haplotype) DB생성의 핵심자료이자 인간 ID(바코드)의 대상이 된다. 현재 개인 EMR 레코드는 단순 진료 및 추적진료 등을 목적으로 생성됐지만 인간게놈 EMR은 본인과 타인의 가치 발견, 건강 웰빙 및 맞춤 치료를 목적으로 해 최소 100년을 보고 장기간 보관해야할 중요한 정보다.”
EMR과 인간게놈 유전정보 융합에 필수 ‘마하NGS플랫폼’
그러나 인간게놈 유전정보와 병원 EMR의 융합은 매우 어려운 영역이다. 즉 현재의 인간게놈정보기반 100만 개 이상의 암-희귀변이 및 염기다형성 정보들을 선별하고 EMR에 새로운 레코드를 생성해 10만여 명의 환자 레코드의 정상변이와 비교하는 NoSQL DB 시스템이 요구된다.

개인의 특이한 대립유전자의 유전형질정보 중 의미가 있는 것만 약 100만 개로 추산되는데, 1인당 100만 개의 유전형질정보를 저장한다면 100만 개의 레코드가 필요하고, 우리나라 전 국민을 대상으로 하면 50조 개의 레코드가 필요하다. 때문에 EMR과 인간게놈 유전정보 융합에는 NoSQL DB가 필수적이다. 정 대표는 자체 개발한 NoSQL DB 엔진, RVR(Records Virtual Rack) 기반 ADISCAN(Allele Depth Imbalance Scanning) 및 IDA(Index Data Analysis)가 완성돼 상용화 전 단계라고 발표한 바 있다. 이 기술은 국제검증 및 테스트의 일환으로 세계최대규모의 국제암컨소시엄의 연구학자들에게 제공할 예정으로 현재 공동연구 중에 있다.
특히 (주)신테카바이오는 지난 4월 미래창조과학부 대덕특구사업의 일환으로 한국전자통신연구원이 개발한 마하슈퍼컴퓨팅 기술을 기술이전해 한국전자통신연구원 연구소 기업이 되었으며 ETRI와 공동으로 오는 8월 ‘마하NGS플랫폼’ 공식 출시를 앞두고 있다. 그간 바이오테크놀로지 중심이었던 (주)신테카바이오가 ‘마하NGS플랫폼’ 기반사업을 병원 EMR 정보와 연계한 X-ten 전용 미니-슈퍼컴 개발환경인 병원유전정보의무기록(EGMR:Electronic Genetic & Medical Records) 사업에 출사표를 던짐에 따라 업계의 이목이 집중되고 있다. 그 첫 번째 발걸음으로 X-ten 장비 보유국을 대상으로 EGMR시스템 서비스를 수행할 예정이다.
아울러 (주)신테카바이오는 바이오 빅데이터 시대에 대비해 지난 5년간 차세대 시퀀싱 및 단백질-약물 시뮬레이션 기술을 기반으로 한 바이오 빅데이터에서의 암-희귀변이, 만성질환 바이오마커 발굴을 준비해왔으며 병원 적용 직전 단계의 여러 기술을 보유하고 있다. 정 대표는 “대규모 병원의무기록 및 인간게놈정보기반 데이터 마이닝 영역의 초강점을 활용해 동 분야에서 세계 최고의 지위를 유지하고자 노력할 것이다”라며 “EGMR 시스템을 성공시켜 질병의 치료와 예방의 새로운 패러다임을 제시하고 빅데이터 기반 융합학문의 실용화를 선도해갈 것이다”라며 당찬 포부를 밝혔다.
