5. Gene Expression Analysis
From Biospecies
1. 유전자 발현
살아있는 세포의 molecular mechanisms을 밝히는 것은 생물학의 주요 과제 중 하나이다.
이런 메카니즘을 이해하는 것은 다양한 종류의 질병을 진단하고 치료하는 데 도움을 준다. gene expression profiling 은 gene level에서 cellular process을 연구하기 위한 한 방법을 살펴보면 RT-PCR등 single gene level에서 gene expression을 측정하기 위한 다양한 방법이 있으며, Taqman은 조직범위에서의 gene expression을 측정하였다. SAGE와 DNA microarrays는 single tissue에서 수천 개의 gene expression을 동시에 측정할 수 있게 한다. physical transcript mapping의 발전으로 인해 genome-wide gene과 gene mapping을 서로 연결할 수 있는 기회가 제공되었다. gene expression data와 gene position의 조합으로 인해 세포내의 분자 메카니 즘을 밝힐 수 있게 되었다. 암은 DNA sequence의 변화에 의해 발생하며, 이런 DNA의 변화는 각각 단백질의 아미노산 sequence의 변화를 초래하고, 이로 인해 세포기능의 변화가 초래된다. 이런 DNA의 변화는 핵당 DNA수의 변화뿐만이 아니라 소 돌연변이 및 염기의 추가 및 탈락이 포함된다. 암을 유발하는 DNA의 변화는 돌연변이 gene에 의해 직간접으로 조절되는 유전자의 expression level에 의해 반영된다. 결과적으로 암을 유발하는 여러 단계에서 정상 및 암 조직의 유전자 발현의 비교 및 분석이 암의 분자 생물학적 지식을 넓혀줄 것이다. 정상 및 암 조직의 유전자 발현을 비교하는데 있어 하나의 문제점은 많은 수의 유전자가 서로 다르게 발현한다는 사실이다. 즉 암 발생에 있어 대부분의 유전자가 암 발생에 직접적으로 관여하는 것이 아니라 스트레스나 apoptosis에 대한 세포 반응의 단계 중 한 부분에 불과한 경우가 대부분이라는 사실이다. 그러므로 연구를 위한 gene을 선택하는데 있어 염색체의 잘못된 위치에 있는 유전자를 택하는 것이 필요할 수 있다. 이런 잘못된 위치는 많은 종류의 암에서 발견되고 있으며, 암을 screening 하는데도 이용되고 있다. HTM은 이런 위치에서 유전자의 expression level을 비교할 수 있도록 개발되었다. SAGE로 얻은 genome-wide gene expression으로부터 신경아세포종에 관여되는 것으로 알려진 염색체부위의 유전자를 알 수 있는 방법이 있는가? 라는 의문점에서 대한 한 명백한 예시를 HTM은 제공한다. 비록 HTM은 gene mapping 자료와 SAGE expression profile을 통합하는 것 같지만, 이런 적용과정은 훨씬 복잡하다. HTM을 만드는 과정은 다양한 측면이 고려되어야 한다. 즉 자료를 분석하기 위한 통계학적 방법의 적용방법, 서로 다른 자료를 통합하기 위한 relational database의 구축 등. HTN은 candidate gene을 선택하기 위해 개발되었을 뿐만 아니라 인간 게놈의 구조에 대한 기본적인 지식을 제공하였다. 모든 염색체에 대한 expression profile의 조사는 각각 조직의 유전자 domains의 양상을 알려주었다. 이런 domains을 RIDGEs라 명하였으며, 이런 연구가 암 및 게놈의 정상 구조에 대한 지식을 발전시킬 것이다. HTM을 사용하는데 있어, 결과를 판독하는데 있어서 오류를 막기 위해 HTM의 기본적 원리를 잘 이해하는 것이 필요하다. public biological database는 오류가 있을 수 있기 때문에 사용하는데 있어 주의가 필요하다.
2. Serial Analysis of Gene Expression (SAGE)
SAGE는 양적인 genome-wide gene expression을 측정하기 위해 사용되는 기술이다.
SAGE는 3가지 원칙이 있다.
(1) short 10-base pair sequence tag은 전사를 확인할 수 있는 충분한 정보를 지닌다.
(2) sequence tag은 서로 연결되어 long serial molecules (concatemers)를 형성한다.
(3) 관찰되는 tag의 수를 셈으로써 그 대응되는 전사의 expression level을 알 수 있다.
sequenced concatemers는 digital tags로 구성되며, 대략 30-40개의 tag를 포함한다. sequenced concatemers는 data processing의 출발점이다. tags의 수는 10,000에서 100,000정도이며, tag의 빈도는 세포내 대응하는 전사의 분량을 반영한다. 즉 다른 말로 하자면 50,000tags로 구성된 SAGE library에 특별한 tag이 25번 조사된다면 그 대응하는 전사의 수도 50,000전사당 25회를 의미한다.
3. DNA Microarrays
DNA microarray의 원리는 labelled cDNA를 움직이지 않는 DNA sequence로 교잡하는 것이다. labelled cDNA는 target으로 언급되며, 움직이지 않는 DNA sequence는 probe라 한다. DNA micriarray는 동시에 수천 개의 전사를 정량화할 수 있게 한다. DNA microarray는 arrayed 물질에 따라 두 가지로 구분된다. 첫 번째 종류가 cDNA microarray로 그 probe는 cDNA libraries나 clone collection으로부터 생성되는 PCR의 산물이다. 두 번째 종류가 oligonucleotide array로 short 20-25mers가 photolithography에 의해 합성된다. target 준비를 위해 mRNA를 추출하고 그 mRNA를 cDNA로 전환한다. 그런 다음 target을 DNA probe에 교잡한 후 phospho imaging이나 fluorescence scanning으로 확인한다. fluorescence의 경우 서로 다른 색깔의 fluorescent dyes가 cDNA를 label시키기 위해 사용된다. 결과적으로 두 target은 섞이고 같은 array로 교잡된다.
4. SAGE와 DNA Microarray의 비교
SAGE와 DNA microarray는 몇 가지 면에서 중요한 차이가 있다. SAGE는 세포내 mRNA 부분을 직접적으로 반영하는 expression level을 측정한다. 반면에 DNA microarray 기술은 조절환경에 상대적인 expression level을 측정한다. 결과적으로 서로 다른 SAGE libraries만이 직접적으로 비교할 수 있으며, DNA microarray 기술은 오직 같은 조건의 같은 조절 조직 내에서만 비교될 수 있다. gene expression level의 비교도 같은 원리가 적용된다. SAGE와 DNA microarray의 또다른 차이점은 측정될 수 있는 유전자에 관한 것이다. DNA microarray는 오직 각각 배열이 함유하고 있는 probe에 대한 유전자만을 측정할 수 있는 반면, SAGE는 각 sample에 대한 모든 mRNA를 측정할 수 있다. 결론적으로 SAGE는 새로운 유전자를 발견하기에 적당하다. 반면에 DNA microarray는 발현에 대한 조직의 screening에 적합하다.
5. CANCER GENOME ANATOMY PROJECT (CGAP)
CGAP는 NCI의 계획이다. NCI의 주요 목적은 암의 molecular mechanism을 해독하는 것이다. CGAP와 NCBI는 많은 양의 자료를 분석하고 다루기 위한 computational 기술을 개발하기 위해 서로 협력하고 있다. HTM은 두개의 CGAP 자원을 사용한다. 그 첫째가 SAGE libraries이고 두 번째가 SAG뜨메 tag-to gene mapping이다. 게다가 SAGE자료를 분석하는 동안 CGAP tools 및 databaser가 정기적으로 사용된다. CGAP 자원은 정상 및 암세포의 cDNA 와 SAGE libraries를 포함하고 있다. 이런 libraries는 dbEST database로부터 cDNA의 3‘ 와 5’clone, CGAP subset of dbEST, MGC subset of dbEST을 포함하고 있다. MGC는 cDNA libraries, clone과 sequence를 생산하는 것을 보조하는 NIH의 시초이다. MGC의 목표는 인간 및 마우스 유전자의 cDNA clone 및 full-length sequence를 완전히 밝혀내는 것이다. ORESTES 계획은 sequencing randomly primed cDNAs를 통해 유전자 해석을 완성하는 것이다. CGAP는 또한 SAGE libraries와 그들의 sequencing을 만드는 것을 보조하고 있다. 이런 profile을 형성하는 일은 계속되고 있으며 현재 140개의 SAGE libraries가 사용 가능하다. CGAP Library Finder Tool은 dbEST나 SAGE libraries로부터 cDNA를 재생시킨다. Library Finder Tool은 tissue type, tissue preparation, tissue histology, library protocol and library name에 따라 libraries의 재생을 가능케 한다. CGAP는 cDNA나 SAGE collection으로부터 나온 유전자 발현 자료를 검사하기 위한 다양한 방법을 제공한다. GLS는 single cDNA library 나 library group에서 발현되는 유전자를 생산한다. 그런 다음 각각의 그룹에서의 유전자를 확인한다. cDNA xProfiler는 clone의 수를 셈으로써 두 librariesrks의 유전자 발현을 서로 비교할 수 있는 방법이다. DGED는 library 내의 유전자 존재유무를 다루므로써 유전자 발현을 서로 비교한다. SAG뜨메 xProfiler는 SAGE libraies에 대해 다른 종류의 분석을 시행한다. SAGEmap Virtual Northern방법은 input으로 mRNA나 EST sequence를 체택하였다. 그런 다음 가능한 tag이 추출된다. CGAP는 또한 암에서의 염색체 변이에 대한 Mitelman database로의 접근이 가능하도록 한다. 이 database는 약 40,000개의 과학저널에서 선택된 자료를 가지고 있으며, 3개 영역의 sub-database로 구성된다. sub-data "Cases"는 특이한 종양에 대한 염색체 변이의 관계에 대한 자료를 가지고 있다. “Molecular Biology and Clinical Association"은 환자 각각의 case에 대한 자료는 없으나, 분자생물학과 그와 관련된 영역에 대한 자료를 가지고 있다. ”Reference"는 모든 참고 문헌에 대한 자료를 가지고 있다. 염색체를 검사하기 위한 또 다른 방법이 CGAP FISH-mapped BACs를 사용하는 것이다. 유전학적, 물리학적 SNP가 유용한데, 이는 각각 염색체당 SNPs의 위치를 나타낸다.
6. SAGE data의 처리
SAGE data를 처리하는 데는 3가지 과정이 있다. 그 처음이 tags list를 concatemer sequence로부터 수집하는 것이다. 다음으로 SAGE tags을 확인하고, 마지막으로 통계학적으로 expression level을 비교한다. 각각의 concatemer는 CATG sequence로 구분되는 ditags로 구성되므로 concatemer sequence로부터 tags를 추출하는 것은 간단한 일이다. 각각의 ditag은 5‘->3’방향에서 한 tag을 3‘->5’방향에서 두 번째 tag을 가지다. ditags은 concatemer로부터 추출되고, duplicate ditags은 제거된다. 결과적으로 ditag의 길이는 20-24 bp여야 한다. 좀더 짧거나 긴 ditag은 제거된다. 결국 각각 추출된 ditag으로부터 sense and complementary-reverse tags이 추출되고, 그것은 SAGE tags에 추가된다. 결과적으로 tag list를 모은 다음 이 list에 있는 각각의 tag은 tag-to-gene map에 대해서 서로 맞추러 봄으로써 확인되어야 한다. 이런 tag-to-gene mapping 자료는 우선 GenBank 자료에 있는 각각의 mRNA/EST로부터 전기적으로 추출한 tag에 의해 모아져야 하며, 결과적으로 tag-to gene mapping에 주석을 단 tag을 저장하는 것이다. 이런 tag-to gene mapping을 모으는 것이 SAGE 분석의 가장 중요한 단계 중 하나이다. tag-to -gene mapping에 있어 전형적인 해석법은 다음의 예에서 볼 수 있다. 각각의 tag 해석은 5개의 부산물을 가지고 있다. 즉 10-bp tag(bold), 추출된 tag으로 부터의 clones의 sequence type (underline), UniGene cluster number 와 cluster name (italic), clones의 accession codes (comma delimited list), 그리고 두 개의 frequency number(between parentheses) sequence 종류는 GenBank sequence의 3‘-end의 결정에 대한 믿음에 대한 정보를 제공한다. 다음의 sequence type은 다음과 같이 정의된다. polyA signal과 polyA tail은 둘 다 sequence의 3‘-end에 대한 정보를 제공한다. polyA tail은 sequence의 초기에 10개의 연속된 Ts sequence의 끝에 있는 10개의 연속된 As로 정의된다. 3’-end sequence를 확인하기 위한 또 다른 정보는 cDNA sequence로부터 얻는다. frequencies number는 tag의 특성 및 믿음에 대한 정보를 제공한다. 위의 예에서 보듯 tag AAAAATACAA는 UniGene cluster 43744에 있는 네 개가 clone과 대응한다. 그러나 second frequence number로 부턴 이런 종류의 tag은 하나나 다른 두개의 UniGene clusters의 두 개의 clone으로부터 추출될 수 있다. 그러므로 이런 tag은 한 유전자에 대해 독특한 것이 아니거나 잘 못된 tag일 수 있다.
7.HTM에서의 Tag-to-gene mapping의 구축
염색체에 대한 gene expression profile의 믿을 만한 mapping을 얻기 위해선 위양성 tags을 제거하기 위한 tag-to-gene mapping을 얻는 것이 중요하다. 위양성 tags은 genome-wide expression patterns을 회손시킨다. CGAP SAGE tag-to-gene mapping은 많은 수의 위 양성 tags을 가지고 있다. SAGE 분석의 질을 높이기 위해 AMC tag-to-gene mapping process는 가능한 많은 수의 위양성 tags을 제거하기 위해 설립되었다. AMC tag-to-gene mapping은 4가지 단계로 구성된다.
1. cDNA clones의 3‘-end 발견과 tags의 전기적 추출
2. 10-bp tags내의 EST sequence errors로 인한 잘못된 tags의 제거
3. CATG sequence 내의 EST sequence errors로 인한 잘못된 tags의 제거
4. 항 sense tags의 발견
정의상 cDNA clones 의 sequencing은 5‘-end에서 3’-end 로 발생한다. 5‘->3’ sequence를 sense sequence라 하며, 3‘->5’ sequence는 complementary-reverse sequence라 칭한다. 이것은 sequenced cDNA clones의 database에 있는 sequence의 대부분의 위치가 sense이거나 complementary-reverse 란걸 의미한다. 3‘-end sequence의 경우 polyA tail은 sequence의 시작에서 T-stretch로 끝에선 S-stretch로 보여진다. 그러나 두개의 가능한 sequence orientation이 인간의 실수로 인해 GenBank database에선 보일 수 있다. 네 개의 가능한 sequence orientation의 빈도는 718,279 clones를 이용하여 분석하였다. 이런 clones중 11,476개는 > As (sense)에서 끝나던지 >30Ts (complementary-reverse)로 시작하였다. poly A tails의 오직 7%만이 sequence의 잘못된 위치에 있었으며, 이런 clones은 잘못된 sequence orientation에 기인한다. 따라서 오직 sense and complementary-reverse sequence orientation만이 AMC tag-to-gene map을 만들기 위한 전기적 tag extraction procedures이다.
8. 3‘-end cDNA Clones 과 전기적 Tag Extraction의 증명
유전자 전사의 3‘-end는 polyA tail과 polyA signal에 의해 특징된다. 두 개의 전통적인 polyA signal 이외에도 다른 polyA signal들이 보고되었다. CGAP SAGEmap tag-to-gene map에 포함된 clones은 alternative polyadenylation signals의 발생에 대해 분석되었다. sequence의 시작에서 >30 Ts 이거나 끝에서 >30As를 가지고 있는 clones이 선택되었다. Polyadenylation signals들은 polyA addition site로부터 50에서 100bp 내에서 발생하는 것으로 생각된다. 그러므로 polyA 나 polyT stretch 근처의 150 핵산염들은 두개의 전형적인 polyadenylation signals, 9개의 alternative polyA signal 과 여섯 개의 hexamer sequence의 존재에 대해 분석되었다. 두개의 전형적인 polyA signal은 각각의 clones에서 55.8%와 17.7%에서 발견되었으며 polyA tail로부터 첫 50핵산염 내에서 발생하였다. 네 개의 가능한 alternative polyaA signal은 5.7에서 8.4%의 범위로 50핵산염에서 발생하였다. 다른 다섯 개의 polyA signal과 여섯 개의 random hexamers들은 인식할 만한 발생은 없었다. 그러므로 sequence orientation algorithms 은polyA site로부터 50bp 내에 있는 여섯 개의 가장 많은 polyA signal을 찾기 위해 만들어 졌다. 여섯 개의 polyA signal과 같은 빈도와 position pattern이 적어도 10 As로 끝나거나 적어도 10 Ts로 시작하는 cDAN clones에서도 발견된다. CGAP SAGEmap tag-to-gene map에 포함된 sequences type은 3‘-end clones을 발견하는데 추가적인 정보를 제공한다. 이런 sequence type은 믿을 만한 3’-end clones을 선택하기 위해 sequence clone의 끝이나 polyA tail에서 여섯 개의 polyA signal중 하나와 경합하다. GenBank sequence로부터 잘못된 tag을 추출할 위험을 최소화하기 위해 믿을 만한 3‘-end clone이 전기적 tag 추출을 위해 사용된다.
9. 10-base pair tag sequencing errors의 발견
EST libraries sequencing의 한번의 많은 양의 처리용량이 좀더 많은 양의 error가 발생하는 원인이 된다. 그러므로 sequence error의 빈도는 염기당 1%정도이다. 그러므로 database sequence로부터 전기적으로 추출된 tag은 sequencing error를 포함할 수 있다. 그러므로 10-bp sequence 내의 errors에 대해 tag은 조사되었다. 만일 sequencing error가 각각의 염기에 대해 독립적이고 error rate가 1%라면 하나의 error가 발생할 가능성은 0.091이다. 우리는 matching tag의 어떠한 조합도 발견할 수 있는 algorithm을 고안하였다. sequencing error를 조사하기 위해 UniGene cluster 내의 모든 EST clones이 서로 비교되었으며 치환, 삽입, 제거에 대해 조사하였다. 만일 두개의 tag이 일치한다면 tag 내의 sequencing error가 포함되어 있을 수 있다. 가장 많은 수의 clones에 대응하는 tag은 정확한 tag으로 간주되었다. 잠재적으로 sequencing error를 가지고 있는 tag은 제거되었다.
10.CATG Sequencing Errors의 발견
EST의 대부분의 3‘CATG sequence 내의 sequence error들은 tag extraction에 대한 CATG의 잘못된 사용과 추출 algorithm에 의해 대응하는 tag을 빠트릴 수 있다. 또한 EST sequence error는 true most 3' CATG에서 떨어져있는 새로운 CATG를 만들 수 있다. 이것 또한 EST에 대한 잘못된 tag을 추출하는 결과를 초래한다. 이런 tag을 제거하기 위한 algorithm은 같은 유전자가 교대로 합쳐진 전사로부터 tag을 보존해야 한다. 각각의 유전자는 alternatively spliced 또는 alternatively polyadenylated 전사에 속하는 tags을 가질 수 있다. 게다가 CATG sequence 내의 SNPs는 정확한 alternative tags의 추출을 유발할 수 있으며 이는 보존되어야 한다. 우리 algorithm 은 CATG sequence errors에 의해 유발되는 모든 tag의 제거와 발견에 맞추어져 있다. 나머지 tags은 믿을만한 tag으로 간주된다.
11. Identification of Sense and Antisense Tags.
UniGene Clustering 알고리듬에서 주요 문제점 중의 하나는 한 UniGene cluster에 있는 반대편의 DNA 가닥에 중복된 유전자를 기호화할 수 있다는 것이다. 그러한 경우, tag 발췌 루틴은 tag를 양측 유전자로부터 뽑을 수 있다. 그러므로, 반대방향으로 배열된 tag들을 인식하는 알고리듬이 디자인 되었다. 그러한 cluster들에는, 가장 빈번한 tag의 방향을 'sense'로 간주한다. antisense tag는 AMC tag-to-gene 지도에 표시되고 보호된다.
12. Comparison of SAGE Libraries
HTM은 두 표현 수준이 심각하게 다른지 아니지를 설립하기 위하여 통계학적인 루틴을 포함하지 않는다. 그러므로, 일단 한 후보 유전자가 발견되면 (tag 수의 시각적인 감시에 기초하여), tag 수 간의 통계학적 차이를 계산할 수 있다. 다양한 통계학적 방법이 이용될 수 있다. 두 SAGE 라이브러리의 통계적 비교의 목표는 두 라이브러리에서 관찰된 tag 수가 동일하다는 빈 가설을 거부하는 것이다. 이 가설을 시험하는 것은 SAGE 실험들이 일반적으로 반복되지 않는다는 사실에 의해 제한 받는다. 그러므로, 각 SAGE 라이브러리는 단지 하나의 측정이다. 생물학적 변이와 실험적 정도에 필요한 정보는 자료에서 이용할 수 없다. 두 라이브러리 사이의 모든 차이점은 동일한 모집단으로부터 무작위 표본추출의 결과라는 것이 가능하다. 그러므로, 두 라이브러리에서 특정 tag의 한쌍의 양식으로 비교를 시작하기 전에 라이브러리 사이의 차이점은 무작위 표본추출로부터 온다는 빈 가설은 거부될 것이다. 이 전체의 시험은 관찰된 SAGE 라이브러리의 고여진 경계의 전 체내에서, 두 라이브러리의 가능한 많은 수의 분배의 모의실험에 기초하고 있다. 각 모의 실험된 라이브러리의 쌍에 대한 Chi-squared 통계를 계산함으로 인해, 빈 가설 하에서 통계의 분배가 구성될 수 있다.
13. Statistical Tests for Differences Between SAGE Libraries
여러 통계 시험들이 한 쌍의 양식으로 비교하는 것을 위하여 발표되었다. 모든 시험에서, 빈 가설은 비교된 두 라이브러리 사이에 tag 숫자에 차이는 없다고 하였다. SAGE 라이브러리에 있는 특정 tag 간의 대부분의 비교에서, 효과의 방향에 대한 a-priori 지식이 없다. 그리하여, 모든 결정 방식은 결과적으로 양 면의 시험으로 공식화되었다. 중요성의 수준(알파)은 많은 시험들로부터 결과될 수 있는 위 양성의 축적 비율로부터 보호하기 위하여, 0.001에 맞추어 질 수 있다. 두 SAGE 라이브러리 간의 차이점을 시험하기 위해 사용될 수 있는 다른 방법들은 치명적인 값으로 고려함에 의해 비교될 수 있다. 치명적 값은 tag의 가장 높거나 가장 낮은 숫자로 정의될 수 있다. 한 라이브러리에서 관찰된 tag의 수가 주어졌을 때, 한 쌍의 양식으로 하는 시험이 시행되었을 때 중요 수준 이하의 p 값으로 결과되는 한 라이브러리에서 발견되는 것이 필요하다. 그들은 결과적인 p 값이, 요구되는 수준의 중요성에서 빈 가설의 거부로 인도 될 때까지 반복적으로 시험하는 모의 실험되는 tag 수에 결정된다. 최초의 SAGE 논문에서, 다른 라이브러리에 있는 tag 수는, tag 수의 Monte Carlo simulation에 기초한 시험과 한 쌍의 양식으로 비교된다. 이러한 접근은 SAGE software package SAGE 30에 포함된다. 각각의 한 쌍 양식의 비교에서, SAGE300은, 관찰된 차이점과 같거나 더 많은 tag 수의 차이점을 획득할 기회를 결정하기 위하여 적어도 100에서 최대 10만의 모의실험으로 시행된다. 이것은 2분의 알파에 비교되는 한 방향의 P 값으로 끝난다. SAGE300의 Monte Carlo-based test는 같은 입력이 시험될 때마다 같은 p값을 주지 않기 때문에, 각 입력은 6배 움직이고 평균 p 값은 주어진 상위 치명적 값의 결정에 사용된다. 첫 번째와 두 번째 라이브러리에서 특정tag의 수로서 n1과 n2를 각각 가지고 계산된다. 이 시험 통계는 정상적으로 분포되게 평가되고, Z이분의 알파에 비교될 수 있다. Madden 의 시험은 통계학적 의미에 도달하고, 그리하여 좀 더 신중하기 위하여, SAGE300보다 25% 큰 차이를 필요로 한다. 단지 치명적 값의 한 세트가 주어지는데 왜냐하면 이 시험이 같은 크기의 두 라이브러리를 위해서 사용되어 질 수 있기 때문이다. 그러나, 이 시험의 단순한 수학이 favor에 있어 포인트이다. Audic과 Claverie는 다른 라이브러리에서 이미 관찰된 n1 tag의 사실이 주어진, 한 라이브러리에서 n2 이상의 tag를 찾는 것의 확률에 대한 새로운 방정식을 유도하였다. 첫 번째와 두 번째 라이브러리에서 특정tag의 수로서 n1과 n2를 각각 가지고 계산된다. n2에서 무한대의 모든 n에 대하여 이 확률의 합은 한 방향의 p 값을 주는데, 이것은 이분의 알파에 비교될 수 있다. Audic과 Claverie의 시험에 대하여, 0.001의 중요수준에 대한 상위 치명적 값이다. 같은 그리고 다른 크기의 양 라이브러리에 대하여 이들 치명적인 값들은 SAGE300의 값의 1.5%이내에 모두 있다. Z-test는 각 라이브러리에 있는 특정 tag의 비율에 중점을 두고,
14. Computational Resources for SAGE Analysis



