1. Human Genome Sequencing에 대한 배경
From Biospecies
human genome을 구성하는 DNA의 decoding (해독)은 human evolution (인간의 진화), 질병의 원인 그리고 human condition (인간 상태)의 정의에서 유전적 형질과 환경사이에서 상호작용하는 것을 이해하기 위한 곳을 향하여 나아가는 것에 기여하는 것이 광범위한 부분에서 예상이 된다. human genome의 완전한 nucleotide sequence의 결정을 목표로 하는 project는 1985년에 정식으로 제안 되었다 (1). 다음 년도에, 그 생각은 scientific community (과학계)에서 여러가지 반응을 보였다 (2). 그러나, 1990년에, Human Genome Project(HGP)가 완전한 genome sequence를 위해 15년간, $3십억을 가하여 National Institutes of Health (국립 보건원)와 U.S. Department of Energy (미 에너지 관리청)의 관리 아래에 미국에서 시작 되었다. 1998년에 우리는 3년 기간을 동안 human genome의 sequence를 결정하기 위한 유일한 genome-sequencing 시설을 만들기 위한 우리의 목적을 공고 하였다. 여기에 우리는 human genome euchromatic 부분의 거의 완벽한 sequence를 목표로 향한 길을 따라서 끝에서 두 번째 이정표를 보고 하고자 한다. sequencing은 sequence된 segment들을 이어서 assembly를 하는 whole-genome random shotgun method를 수행하였다.
근래의 DNA sequencing 역사는 Sanger가 chain-terminating nucleotide analog (사슬 종결 핵산 유사물)를 사용하여 DNA의 nucleotides의 순서를 결정하기 위한 그의 method에 관한 보고서를 재출 할 때인 1977년에 시작되었다 (3). 같은 년도에, 첫 번째 human gene이 분리 되고 sequence 되었다 (4). 1986년에, Hood와 동료들은 (5) nucleotide에 fluorescent dye를 붙여 computer에 의해 연속적으로 읽을 수 있는 것을 가능케 하는 것을 포함하는 Sanger sequencing method를 향상 시킨 것을 설명 하였다. 1987년에 California에 있는 Applied biosystems에 의해 개발된, 처음으로 자동화된 DNA sequencer (DNA 서열 결정 기계)는 두 gene의 sequence들이 새로운 이 technology로 획득 되었을 때 성공적이라는 것을 보여 주었다 (6). human genomic regions (human 게놈 영역)의 초기 sequencing으로부터 (7), cDNA (cDNA는 RNA를 reverse-transcribe (역전사) 한 것이다.)는 명료화 되었고 gene prediction (유전자 예측)의 annotate (해석)와 validate (교정)를 위해 필수적인 것이 되었다. 이들 연구들은 gene identification (유전자 동정) 방법인 expressed sequence tag (EST) 개발에 대한 일부를 기초로 했고, EST는 cDNA libraries를 특징지우기 위한 random selection (무작위 선택), very high throughput sequencing (아주 대량의 처리량을 가지는 서열결정)접근법이다. EST method는 human gene의 빠른 발견과 mapping (지도 제작)을 이끈다. human EST sequence 수의 증가는 대량의 sequence data를 분석하기 위한 새로운 computer algorithm의 개발을 필요로 했고 1993년에 The Institute for Genomic Research (TIGR)에서 수백, 수천의 EST를 assembly 하고 분석을 가능케 하는 algorithm이 개발 되었다. 이 algorithm은 30,00개의 EST assembly를 기반으로 human gene의 특징 부여와 annotation (분석)을 가능케 했다.
완전한 49-kbp bacteriophage lambda genome sequence가 1982년에 shotgun restriction digest method에 의해 결정 되었다 (11). 1991년에 smallpox virus genome을 sequencing 하기 위한 method들을 고려 할 때 (12), whole-genome shotgun sequencing method는 논의 되었고 그 후에 genome assembly를 위한 적당한 software tool의 부재에 기인하여 거절당했다. 그러나, 1994년에, microbial genome-sequencing project가 TIGR에서 심사숙고 할 때, whole-genome shotgun sequencing 접근법이 TIGR EST assembly algorithm의 가능성이 고려되었다. 1995년에는 1.8-Mbp의 Haemophilus influenzae genome이 whole-genome shotgun sequencing method에 의해 완성 되었다 (13). 그 다음의 몇몇 genome-sequencing 노력과 경험은 이 접근법의 넓은 적용 가능성을 확립 하였다 (14, 15).
이들 megabase-size (메가베이스 크기) 와 larger genome (커다란 rpsha)에 사용하기 위한 sequencing 접근법의 중요한 특징은 cloning 특징과 각각의 insert size들을 가지는 subclone libraries로부터 파생된 paired-end sequences (끝이 짝지어진 서열, mate pairs (한쪽이 짝지어진)라고 또한 불리는)의 사용이다. paired-end sequence는 정해진 길이를 가지는 double-stranded DNA clone (이중가닥으로 된 DNA clone)들의 양 끝으로부터 500에서 600 bp sequence이다. microbial genome의 assembly에서 bacteriophage lambda로의 DNA con화 된 long segment (18에서 20 kbp)로부터 end sequence 사용의 성공은 150 kbp bacterial artificial chromosome (BACs)로부터 end sequence 방법에 의해 human genome sequence와 동시에 map에 대한 접근법의 제안을 이끌었다 (17, 18). end sequence는 genome의 전역에 걸쳐 연속되는 long-range (긴 범위)를 제공하는 알려진 간격에 의해 양 끝을 연결하였다. BAC end-sequencing (BES) method의 변형은 Arabidosis thaliana genome에서 있는 chromosome 2를 완료하기 위해 성공적으로 적용 하였다 (19).
1997년에, Weber와 Myers (20)은 human genome의 whole-genome shotgun sequencing을 제안 하였다. 그들의 제안은 그렇게 잘 받아들여지지 않았다 (21). 그러나 1998년 초기까지, genome의 5% 미만만이 sequence 되었고, 전세계에 걸친 human genome sequencing의 진행 비율은 매우 느렸으며 2005년을 목표로 한 genome의 완성에 대해 전망은 불확실했다.
1998년 초에, PE Biosystems (현재 Applied Biosystems) 는 자동화된, high-throughput capillary DNA sequencer (대용량의 모세관 DNA 서열결정 기계)를 개발했고, 후에 ABI PRISM 3700 DNA Analyzer라고 불렀다. PE Biosystems와 TIGR 과학자들 사이의 검토는 3700 DNA Analyzer로 human genome의 sequencing에 착수하기 위한 계획과 whole-genome shotgun sequencing technique을 TIGR에서 개발하기 위한 계획으로 끝이 났다 (23). genome-sequencing 설비의 운전의 많은 원리가 TIGR 시설에서 확립 되었다 (24). 그러나 Celera의 시설 계획은 수용력이 TIGR의 그것에 50배였고, 따라서 새 확장이 whole-genome assembly와 sample preparation (시료 준비)과 tracking (추적 시스템)이 필요했었다. H. influenzae genome에서 잡한 repeat sequence를 가지는 human genome으로 확대하면 150-fold가 필요하다는 어떤 논쟁은 적합하지 않았다 (25). Drosophila melanogaster genome은 따라서 large (크고)하고 complex (복잡)한 eukaryotic genome에서 whole-genome assembly에 대한 test case (시범 사례)로 선택이 되었다. Gerald Rubin과 Berkeley Drosophila Genome Project 협력에서, Drosophila genome의 120-Mbp euchromatic 일부의 nucleotide sequence는 1년 정도의 기간 동안에 결정 되었다(26-28). Drosophila genome-sequencing 노력은 두 개의 중요한 발견이 결과로서 생겼다.: (i) assembly algorithm은 높은 정확도의 순서와 방향을 가지고 대체로 10-fold coverage (10겹을 범위를 포함하는) 보다 적은 것을 가지는 chromosome assemblies (염색체 조립품)를 만들어 내었고, (ii) 한개의 종합적인 final assembly (최종 조립본) 대신에 다수의 가 assemblies (임시의 조립) 방식은 값어치가 없다는 것이다.
Celera의 설립 이후에 (29) public genome의 노력에서 극적인 변화와 함께 이들 발견은 human genome을 위한 modified whole-genome shotgun sequencing 접근법을 이끌게 된다. 우리는 처음에는 3년의 기간 동안 genome의 10-fold sequence coverage (10겹의 서열 범위를 포함하는)를 제안 했었고 4분의 1로 이용 가능한 가 assembled sequence data (임시로 조립된 서열 데이터)를 만들기를 제안 하였다. 그 수정은 ~5-fold coverage의 random shotgun sequencing을 수행하기 위한 계획과 순서가 없고 방향이 없는 BAC sequence fragment를 사용하기 위한 계획을 포함하였고 subassemblies를 공개적으로 project를 가속하기 위한 genome 노력 자금을 제공하는 것 (30)에 의해 GenBank에 발표하였다. 우리는 보고하기 위한 가 assemblies의 빠진 것의 4분의 1 발표를 또한 단념 하였다.
비록 이 전략이 아주 초기에 적당한 결과를 제공했지만, 그것은 8-fold coverage를 가지는 whole-genome shotgun assembly로 일관 되었었는데, human genome sequence는 끝나지 않았을 뿐만 아니라 Drosophila genome은 효과적인 13-fold coverage이다. 그러나, coverage strategy (적용범위 전략)을 축소해도 확실하게 되었던 것이, Celera가 1년이 안되는 동안 human genome의 정확한 순서화와 방향을 가지는 scaffold sequence를 만들어 냈다. Human genome sequencing은 1999년 9월 8일에 시작하여, 2000년 6월 7일에 완료 되었다. 첫 assembly는 2000년 6월 25일에 완료했고, 여기에 보고된 assembly는 2000년 10월 1일에 완료 되었다. 여기서 우리는 whole-genome random shotgun sequencing 성과를 human genome에 적용했던 것을 설명한다. 우리는 Homo sapiens genome의 23쌍의 chromosome 을 연결하는 ~3십억 bp의 assembling을 위한 두 개의 서로 다른 assembly 접근법을 개발 했었다. 어떤 GenBank-derived (GenBank 파생) data는 chimeric clone (clone의 일부가 섞인), foreign DNA contamination (외부 DNA의 오염), 또는 misassembled contigs (잘못 조립된 contig)들로부터 최종 sequence가 잠재적으로 편향된 것을 제거하여 조각으로 찢어졌다. contig의 신뢰할만한 순서와 방향을 정확하고 정밀하게 genome sequence를 assembly 하는데 있어서는 human genetic code의 정확한 분석을 위해 필수적이고, 우리는 genome의 재건 품질의 서류에 대한 이 사본의 상당한 부분에 전념했다. 우리는 또한 computational method를 기본으로 human genetic code의 예비 분석을 설명 한다. Figure 1 (이 이슈와 관련된 펼쳐진 chart를 봐라: 각각의 chromosome에 대한 file은 Science Online www.sciencemag.org/cgi/content/full/291/5507/1304/DC1의 Web fig. 1에서 찾을 수 있다.)은 human genetic code가 encod한 특징과 genome의 개략적인 특징을 그래픽으로 제공하고 있다. genome의 상세한 manual curation과 해석은 시작에 있다.
- 출처 : The Sequence of the Human Genome (16 FEBRUARY 2001 VOL291 SCIENCE <html>www.sciencemag.org</html>)



