인간게놈의 해독방법에서 다국적 팀과 셀레라의 연구방법 차이

From Biospecies

Jump to: navigation, search

인간게놈의 해독방법에서 다국적 팀과 셀레라의 연구방법 차이

 

Human Genome Project (HGP)

 

인간 유전체(게놈)의 전체염기서열을 밝히기 위해 제일 먼저 한 일은 24개의 염색체에 나뉘어 있는 33억 염기쌍을 BAC(Bacterial Artificial Chromosome) 클론이라는 조각으로 나누는 일이었다. 하나의 BAC 클론은 평균 크기가 약 15만 염기쌍 정도로 작기 때문에 실험실에서 다루기 쉽다. 이론적으로는 22천개의 BAC 클론이 있으면 인간 유전체를 전부 넣을 수 있는데, 실제로는 약 3만개의 BAC 클론을 겹치게 사용했다. 게놈지도에 앞서 공개된 ‘물리지도’는 이 BAC 클론들이 몇번 염색체의 어느 부분에 있는지를 보여주는 지도다.하나의 BAC 클론의 염기서열을 처음부터 끝까지 한번에 읽으면 좋겠지만, 요즘 사용하고 있는 자동염기서열분석장치는 한번에 읽을 수 있는 염기의 수가 약 5백개 정도다. 따라서 BAC 클론을 다시 여럿으로 나눠 읽을 수밖에 없다. BAC 클론을 무작위로 자른 뒤, 1천개보다 큰 조각을 수집해 그 조각의 염기서열 앞뒤로 각각 5백 염기 정도를 염기서열분석장치로 읽는다. 이 정보들을 모아서 원래의 서열을 ‘짜깁기하는 작업’(contig assembly)을 수행한다. 짜깁기 작업은 서열 정보들을 서로 비교하면서 겹치는 것을 찾아내서 이들을 연결해 하나의 긴 서열을 재구성하는 작업이다. HGP에서는 전부 580만번에 걸쳐 염기서열분석장치로 읽었는데, 염기 수로 231억개를 읽은 셈이다. 이는 인간 유전체의 8배에 해당하는 양인데, 짜깁기 작업의 정확성을 위해 중복해서 읽었기 때문이다. 짜깁기 작업은 각 BAC 클론별로 대용량 메모리를 갖춘 컴퓨터가 수행했다. 요즘 펜티엄 컴퓨터도 상당히 빨라져서 수천개 수준의 짜깁기 작업은 수분 안에 처리할 수 있다. 짜깁기 작업을 해보면 불행히도 전체가 하나의 서열로 얻어지는 것이 아니고, 수십개의 단편으로 얻어지게 된다. 이 상태가 ‘초안’이라는 것이다. 이들 단편들을 서로 연결해 원래의 상태로 재구축하는 작업을 ‘완성작업’(finish)이라고 한다. 2001 2월 ‘네이처’에 발표된 논문에 따르면 HGP의 초안은 40만개의 단편으로 구성돼 있다. 2003년까지 단편들 사이에 존재하는 틈새를 없애고 전체 24개의 염색체로 재구성하는 작업을 모두 마칠 예정이다. 2001 7월말 현재, 전체의 47%가 완성됐고, 51%는 초안 상태에 있기 때문에 이를 합쳐보면 인간 유전체의 98%에 대한 정보를 갖고 있는 셈이다.

셀레라사

 

BAC 클론을 사용하는 대신, 전체 유전체를 수천만개의 조각으로 무작위로 잘랐다. 그리고 이들 조각의 염기서열을 읽은 후, 짜깁기 작업을 했다. BAC 클론을 자르고 찾는 과정이 없어서 실험적으로는 훨씬 간편하다. 그러나 수천개의 염기정보를 상호 비교하는 것이 아니고, 수천만개의 정보를 비교하게 되기 때문에 컴퓨터 작업 양은 제곱으로 늘게 된다. 이를 효율적으로 수행하기 위해 셀레라사는 독창적인 생물정보학 알고리듬을 개발했으며, 컴팩사와 공동으로 구축한 슈퍼컴퓨팅 시설을 활용해 비교적 짧은 시간 안에 HGP와 대등한 결과를 얻을 수 있었다.셀레라의 벤터와 스미스는 샷건 방식이라고 하는 다소 무모한 방법을 적용했다. 이 방식의 첫 단계는 생명의 책 10(10개의 게놈)을 무작위로 약 1천 글자씩 포함하는 쪽지로 찢는다. 그 다음 자동 염기서열 분석장치를 이용해 수천만 개의 쪽지(게놈의 조각난 DNA)를 읽어낸다. 마지막으로 수천만 개의 쪽지를 서로 비교해 생명의 책을 완성한다. 셀레라의 샷건 방식에서는 지표를 설정하지 않기 때문에 각각의 쪽지가 전체 생명의 책의 어느 쪽에 위치하는지를 전혀 알 수 없다. 그렇다면 어떻게 생명의 책을 완성할 수 있을까? 바로 각각의 쪽지들 사이에 겹치는 부분을 찾는 것이다. 책을 무작위로 찢었기 때문에 첫 번째 책에서 유래한 쪽지들과 두 번째 책에서 유래한 쪽지들 사이에는 겹치는 부분이 있을 것이다. 수천만 개의 쪽지를 슈퍼컴퓨터를 사용해 서로 비교하면 결국 전체 생명의 책을 완성할 수 있다. 벤터는 다국적 인간게놈프로젝트를 이기기 위해서는 이 방법만이 유일하다고 생각했다. 최근 초파리의 게놈을 샷건 방식으로 분석하는데 성공했다.얼마 전에는 쌀의 게놈에 도전하겠다고 선언했다. 별다른 이변이 없다면 예정대로 셀레라는 다국적 프로젝트에 한발 앞서 올 상반기중 인간게놈을 완전히 규명하게 될 것이다. HGP에서 얻은 염기서열 정보는 버뮤다선언에 따라 24시간 안에 국제 데이터베이스에 기탁돼 전 세계 누구나 활용할 수 있다. 미국의 GenBank(www.ncbi.nlm.nih .gov/Genbank), 유럽의 EMBL(www.ebi.ac.uk/ embl), 일본의 DDBJ(www.ddbj.nig.ac.jp)에서 데이터베이스를 운영하고 있다.

 

 

다국적팀을 이끈 주요 연구소들

 


1.
화이트헤드 생의학연구소 (www-genome.wi.mit.edu)

 

세계에서 가장 큰 국립 게놈연구소로써 이번에 발표된 인간 염기서열의 25%가 이 연구소에서 완성됐다. 게놈연구를 위한 기기의 자동화와 컴퓨터를 이용한 게놈분석시스템을 개발했으며 게놈 연구자료를 세계 과학계에 무료로 제공하는 정책을 선도했다. 이 연구소는 최초로 인간과 쥐 등의 유전자지도를 완성하기도 했다. 이 자료는 인간의 유전자들을 밝혀내는데 큰 도움을 주었다.
2.
생거 센터 (www.sanger.ac.uk)

 

1998년 워싱턴대 게놈 연구팀과 함께 선충(C. elegans)의 염기 10억개의 서열을 완성했다. 이 자료는 유전자의 기능을 이해하는데 귀중한 자료로 사용되고 있다. 생거 센터의 소장인 설스톤박사도 게놈 연구자료를 세계 과학계에 무료로 제공하는 정책에 크게 기여했다. 설스톤박사는 2000 6월에 인간 유전자 초안을 공개하는 자리에서 “인간이 인간을 만들 수 있는 매뉴얼이 우리 손에 쥐어지는 역사적인 시간이다”라고 말했다.
3.
워싱턴대 게놈 센터 (genome.wustl.edu/gsc)

 

1998년 생거 센터 연구팀과 함께 선충의 게놈 분석을 완성했다. 이 연구결과로 대규모 염기서열을 분석하는 탁월한 능력을 인정받았다.
4.
미 에너지성의 협력 게놈 연구소 (www.jgi.doe.gov)

 

로렌스 리버모어 연구소, 로렌스 버클리 연구소, 로스알마모스 국립연구소가 미 에너지성의 지원을 받아 1996년도부터 협력연구소로 다국적팀에 참여했다. 2000 4월에 5, 16, 19번 염색체는 모두 이 협력연구소에서 완성됐다.

 

5. 베이어 칼리지 인간 게놈 센터 (www.hgsc.bcm.tmc.edu)

 

1999 3월부터 화이트헤드 생의학 연구소, 워싱턴대 게놈 센터와 협력 관계를 맺고 대규모 염기서열을 정리해 왔다.

 

 

Human Genome Assembly

 

유전체의 염기 서열을 알아내기 위한 방법으로는 크게 Human Genome Project에서 사용한 BAC-to-BAC 방법과 Celera에서 사용한 whole shotgun sequencing 방법이 있다. 두 방법 모두 shotgun sequencing을 이용하고 있으므로 이에 대해 설명한다. 먼저 무작위로 유전체를 정해진 길이만큼 잘라낸다. 다음 시퀀서를 이용하여 잘라낸 유전체의 양 끝에서 염기 서열을 읽어낸다. 현재 시퀀서 기술로는 잘려진 유전체의 양 끝 염기 서열 500자 정도만을 읽을 수 있는데, 수백만에서 수십만에 이르는 생명체의 염기 서열의 길이에 비해서 읽어낼 수 있는 염기 서열의 길이가 너무 짧다는 점에서 근본적인 어려움이 있다. 읽혀진 염기 서열의 조각들(read) 중에서 서로 겹치는 부분을 찾고, 이 정보를 바탕으로 원래 유전체에서의 위치를 알아낸 후 대표 염기를 찾는 과정을 통해서 유전체를 재구성해낸다. 이 과정은 사람의 힘으로는 하기 어려운 일이므로, 컴퓨터의 이용이 필수적이다. 한편, shotgun sequencing 과정을 어렵게 만드는 여러 문제가 존재한다. 시퀀서에서 읽은 염기열 은 생물학 실험 과정에서의 오류로 인한 잘못된 부분을 갖고 있다. Fragment assembly 프로그램은 이러한 잘못된 입력을 처리할 수 있어야 한다. 유전체를 증식하는 과정에서 떨어져 있는 염기 조각이 서로 붙어서 하나의 read가 된 것을 키메라(chimera)라고 하는데, 이로 인해서 인접하지 않은 read들이 붙게 되는 경우가 발생한다. Fragment assembly 프로그램은 키메라를 발견하여 이를 assembly 과정에 참여시키지 말아야 한다. 가장 어려운 문제는 다양한 크기의 반복되는 부분(repeat)이 유전체에 존재한다는 점이다. Fragment assembly 프로그램은 기본적으로 원래의 유전체 서열이 모든 read들을 포함하는 가장 짧은 문자열이라고 보는데, 이 방식은 repeat가 존재할 경우에는 잘못된 결과를 내게 된다. Fragment assembly 프로그램은 read 외에 추가적인 정보를 통해서 repeat 문제 해결을 시도한다. 지금까지 개발된 fragment assembly 프로그램으로는 PHRAP, TIGR, STROLL, Celera assembler, ARACHNE, CAP3 등이 있다. 이들은 크게 다음과 같은 단계를 거쳐서 최종적인 유전자 시퀀스를 찾아낸다.  첫 번째 Overlap, 두 번째 Layout, 세 번째 Consensus를 만든다. Overlap 단계에서는 read들 중에서 서로 겹치는 부분(overlap)을 찾아낸다. read가 원래 유전체에서 같은 부분에 해당한다고 하더라도, 시퀀서가 이를 잘못 읽고 다른 결과를 낼 수 있다. 따라서 overlap을 찾을 때에는 정확하게 일치하는 부분을 찾는 것뿐 아니라 어느 정도의 오차를 감안하여 찾아낼 수 있어야 한다. Fragment assembly 프로그램은 Smith-Waterman 알고리즘을 통해서 overlap이 있는 read들 간의 오차를 감안한 pairwise alignment 정보를 만든다.

 

Layout 단계에서는 앞 단계의 결과로 얻어진 read들 간의 pairwise alignment 정보를 가지고, 이들의 전체적인 위치 정보를 구한다. 이 과정에서, 키메라와 repeat를 찾아내고, read들의 덩어리인 contig를 만든다. 마지막 단계인 consensus에서는 contig 내에서의 read들의 대략적인 위치 정보와 상호간의 pairwise alignment 정보를 이용해서, 최종적인 유전체 서열(consensus)을 만들어낸다. 대부분의 fragment assembly 프로그램은 overlap 전 단계에서, 시퀀서에서 잘못 읽은 부분을 제거하고 overlap이 될 수 있는 후보 read들을 찾는 과정을 거친다. 시퀀서에서 읽어낸 데이터는 base-calling 과정을 거치면서 A, G, T, C 등의 염기 서열뿐 아니라 이 값이 틀릴 확률을 나타내는 quality 정보를 추가적으로 제공한다. 만약 p의 확률로 읽혀진 값이 틀릴 수 있다면, quality–10 * log p 로 주어진다. Overlap 단계 전에서 먼저 후보 read들을 찾는 이유는 전체 모든 read들의 쌍에 대해서 pairwise alignment 정보를 구하는 것은 많은 시간이 걸리기 때문이다. 이 과정은 FASTA와 비슷한 방법(ARACHNE), BLAST와 비슷한 방법(TIGR, Celera assembler, CAP3), 접미사 배열(suffix array) 및 그와 비슷한 방법(STROLL, PHRAP) 등을 통해서 이루어진다.

 

Overlap 단계에서 두 read를 정렬하는 방법에는 local alignment full alignment가 있다. Local alignment는 두 read가 주어졌을 때, read의 임의의 일부분과 다른 read의 임의의 일부분을 나란히 세우는 alignment이다.  예를 들어 acgctttagac ggctaagaat가 주어졌을 때 가능한 local alignment는 그림과 같다.

 

a c g c t t t a g a c

 

g g c t – a a g a a t

 

그림 local alignment

 

Full alignment는 두 read가 주어졌을 때, read의 한 쪽을 다른 read의 반대쪽에 나란히 세우거나 또는 한 read를 다른 read에 완전히 포함되도록 나란히 세우는 alignment이다. 예를 들어 aactggatctc caa ttgggtccatt가 주어졌을 때 가능한 full alignment는 그림 4와 같다.

 

a a c t g g a t c t c c a a

 

t t g g g t c - - c a t t

 

 

그림 full alignment

 

Repeat를 처리하기 위해서 사용할 수 있는 정보로는 mate 정보가 있다. 일반적으로 read 하나로부터 이 read가 전체 유전체에서 차지하는 위치나 다른 read들 간의 거리를 알 수는 없지만, 시퀀서가 유전체 조각을 읽을 때 동시에 양 끝에서 읽어낸 한 쌍의 read(mate)은 서로간의 거리와 방향을 알 수 있다.  mate 정보는 layout 단계에서 read의 위치를 정하는데 쓰여지며, 만약 이 정보가 어긋나게 contig가 만들어졌다면 repeat 부분을 포함하고 있다고 생각할 수 있다.

 

 

Personal tools
KoBIC service