3. database of human genetic variation

From Biospecies

Jump to: navigation, search

1. DATABASES OF HUMAN GENETIC VARIATION
인간 유전자 변이의 거대한 영역은 아직도 크게 차트화 되지 않았으며 하나의 데이터 베이스로부터 얻을 수 없는 정보가 존재한다. 가장 좋은 데이터 안에서 몇몇 데이터를 필요로 하거나 데이터가 좋지 못할 경우에는 모든 데이터가 쉽게 이용되지는 않는다, 이런 경우에는 논문기술과 인터넷 검색 또는 생물정보학 분석의 접근이 아마도 필요하다.

2. SNP DataBase
SNP데이터가 과거 2년 전에 SNP 콘소시움과 인간지놈 프로젝트 콘소시움의 멤버인 Sanger Institute Washington University의 그룹의 데이터들이 만들어졌으며 많이 쇄도 하고 있다. SNP 데이터의 우세함은 적은 수로 밀접한 관계를 가지는 데이터를 가지고 NCBI dbSNP처럼 데이터베이스를 만든 것이다. 또 다른 유용한 데이터베이스들은 dbSNP데이터를 이용하여 계발되고 그런 툴들과 데이터베이스들은 SNP 데이터의 특이적인 영역에 초점을 가지며 다른 데이터들과 통합할 수 있게 한다.

3. The dbSNP Database
NCBI dbSNP 1998 9월에 만들어졌으며 SNPs와 작은 인셜션 과 딜리션(INDEL)을 포함하고 있다. 2002 5월에 SNP데이터의 양은 420,000,000개가 포함되어 있다. 그들 SNPs데이터 의 2700000개의 데이터는 이미 알려진 SNPs(Ref-SNPs)와 중복되지 않는다Ref-SNPs의 약 10%정도는 현재 인간 지놈 드래프트에는 맵핑 하지 않았고 약 2430000개의 SNP는 유전학적 맵핑 이용되었다. 다량의 SNP는 지놈에 따라 높은 빈도로 커버하였다. SNP연구에서 알련진 액손의 85% SNP가 존재한다.

4. The Reference SNP Dataset (RefSNPs)
중복되진 않는 RefSNP 데이터는 SNP가 동일한 지놈의 위치에 존재하는 데이터들을 모아서 만든다. RefSNP 에 사용되는 서열을 특징들은 가장 긴 SNP cluster에 의해 만들어지며 이 서열은 Cluster로부터 어셈블리에서의 구성 서열이 아니고 Cluster를 대표할 수 있는 개별적인 서열로부터 발생하는 것이다. SNPs Cluster의 각 서열과의 모든 정보에 의하여 SNP의 정보를 기록한다. RefSNP데이터의 유용성은 다른 데이터들과의 상호 통합에 의하여 상당히 유용하게 이용된다. 외부에서 개발된 데이터에서 RefSNP데이터를 이용할 때는 일반적으로 SNP 콘소시움에서 재 공하는 SNP ID를 이용한다. RefSNP 데이터는 또한 NCBI의 의 통합데이터베이스의 일부분이고 사용자들은 쉽게 Genbank,Map View, LocucLink에서 이용할 수 있다.

5. Searching dbSNP
dbSNP검색은 넓은 범위에서 접근하고 있다. SNP accession number, submitter, detection method, population studied, BLAST등에 의하여 검색할 수 있다. dbSNP는 또한 유연성 있고 복잡한 query로 검색이 가능하다. Fig 3.3. Fig3.4에서 표준적인 예를 보여주고 있다.더 진보한 형태의 는 두개 STS마커 사이에서의 SNP의 정보를 분리하여 보여주거나 golden path의 위치를 보여준다. LocusLink, SNPper, Human Genome browser 다른 많은 툴들은 dbSNP 데이터 셋을 이용하고 있다(Table 3.1). 이러한 툴들은 dbSNP를 검색하는데 좀더 강력하고 선택적인 검색방법을 제공하고 있다. 그러나 이러한 툴들과 소프트웨어들은 반복서열을 마스킹하거나 필터링하는 방법을 <sn w:st="on"></sn>하<givenname w:st="on"></givenname>용하 거나 또는 반복서열 내에서의 SNP등을 배제시킨다

6. Submitting Data to dbSNP
SNP데이터베이스는 e-Mail 또는 FTP등을 통해서 연구자들이 직접 등록한다. SNP등록 과정은 일반적으로 수백 건이나 수천 건의 SNP데이터들을 커다란 분량을 텍스트 형태로 등록할 수 있게 할 계획이다. SNP데이터 등록은 SNP를 서술할 수 있는 많은 서열들을 포함하여 등록하고 일차적으로 SNP의 분석방법과 SNP서열의 정보 그리고 유전학적으로 얼마나 많은 빈도수를 가지는지를 리포트 해야 한다. SNP등록 포맷은 등록자들이 경우에 따라서 조금씩의 문제 점을 가지고 있다. 서열등록 포맷을 만드는데 Perl과 같은 유용한 언어는 좀더 적은 양의 데이터보다는 많은 양의 데이터를 준비할 때 유용하다. 웹 기반으로 하는 등록은 현재 개발되었고 많은 문제점을 보완하였다.

7. Key SNP Data issues
인간 지놈 서열결정은 인간의 다형성을 찾는데 증대시켰다. Table 3.2는 현재 dbSNP등록현황을 보여주고 있다. 본 테이블에서 보면 dbSNP SNP데이터의 94% SNP 콘소시움과, Sanger Institute Washington University 3그룹이 주를 이루고 있음을 알 수 있다. SNP 콘소시움의 SNPs Shotgun 방법을 이용하여 서열을 결정한 기본적인 서열의 정렬에 의하여 SNP를 찾아낸 데이터이다. RRS(reduced representation shotgun)서열결정 은 지놈의 개별적인 클론들을 무작위적을 선택하여 서열을 결정하는 방법이다.이 방법은 SNPs를 찾아내는데 지놈서열에 또는 PCR 대한 사전지식을 필요 하지 않는다는 몇 가지 이점을 가지고 있다. 최근 SANGER KWOK dbSNP에서 64%를 차지하고 있다. 이러한 SNP는 인간 지놈 서열결정 센터에 의해서 찾아진 SNP이다. 이들 SNP는 지놈서열의 각 리드들을 지놈에 정렬하여 찾아낸 것이다. SNP 콘소시움(TSC)의 지놈에 정렬하여 SNP를 찾는 프로젝트는 지놈서열 결정이 끝나는 마지막 단계에서 지놈 센터로부터 지속적으로 등록될 것이다 그리고 dbSNP는 인간지놈서열이 마무리가 된 후에 의존적으로 dbSNP는 성장할 것이다. 인간 지놈은 전체나 또는 일부 영역들은 향후 몇 년 동안은 지속될 것이다. Sanger 센터는 이미 96개의 개체에서 알고 있는 인간의 액손에 대해서 5년 계획으로 재 서열 결정할 것을 알렸다. 발견된 SNP 95% 1%의 빈도를 가지고 발생한다. 새로운 SNP는 발생법칙에 의해서 더디게 증가될 것이다. 지놈상에서의 SNP의 밀도의 관찰을 통해서 dbSNP 데이터 셋은 아마 현재 존재하는 SNP 20~30% 인간 지놈에 공통적이다. 다른 SNP 발견하는 프로젝트들은 매우 다양한 샘풀과 다른 레벨에서 SNP를 찾는다. TSC SNP 24 종족에서의 다양한 개체을 이용하여 SNP를 찾았다. 24 종족에서의 찾아진 SNP 95% 5%정도의 SNP 발생빈도를 가진다. 지놈서열의 정렬에 의해서 찾아진 SNP는 적은양의 샘플링에 의해서 찾아진다. 두 개인간의 지놈서열의 정렬에 의해서 찾는 SNP SNP 자격을 가지게 된다 그러나 이러한 SNP 발견의 접근 방식은 많은 에러 율을 가지는데 이러한 방법에의 해서 찾아진 SNP의 경우는 그 집단에 전반적인 SNP를 나타내지 못하고 어느 한 개인에 국한되어 나타난다.

8. Candidate SNPs-SNP to Assay
우리는 이미 dbSNP 데이터셋의 많은 절차에 대해서 증명하였다. 대부분의 SNP의 경우 는 알지 못하는 빈도로 발생하며 실험에의 해서 확인되지 않은 데이터들이다. 대부분의 SNPs 는 어떠한 집단에도 거의 발견할 수 없다. dbSNP에 있는 SNP 60%이상은 클론들이 겹치는 부위에서 염기서열의 비교에의 하여 찾아진 SNP들을 통계학적인 방법에 의하여 찾아진 데이터들이다. Marth et al. 은 세 개의 공통집단에 분석을 통해서 추정되어지는 SNP을 결정하였다. 각 집단에서의 공통되는 SNP 52~54% 사이에서 발견되었다. 특히 30~40% SNP의 특징은 각 집단에서 찾을 수 없었다. 이런 결과들은 만약 SNP라고 추정되는 되는 부위가 공통 집단에서 모두 존재한다면 최소한 유전학적인 빈도는 66~70%의 기회를 가지는 것이고 집단에 공통적인 SNP의 빈도는 50%의 기회를 가진다. 다른 방법으로 하면 17%정도의 추정되는 SNP의 경우는 공통집단에서 다양함을 발견할 수 없고 한 개인에서 나타난다 그러나 단일형태의 SNP는 공통 집단에서는 발견할 수 없다. 지난 500년 이상집단을 섞으면        아마도 커다란 증가를 초래할 것이다. SNP을 검증하는 마지막 은 검증하기 위한 디자인이다. 많은 SNP들은 반복서열에 위치하거나 또는 AT가 많은 영역에 존재하기 때문에 검증하는 작업이 어렵고 검증 분석방법에 의존하기 때문에 10~30%정보만이 검증된다. 유전학 연구에서 SNP와 여러 분석 방법들 에서의 많은 노력이 필요로 한다. 이러한 문제들을 풀 수 있는 유일한 방법은 2000000개의 빈도를 결정하거나 공통으로 인정한 그룹에서 공통된 SNP이어야 한다

9. Human Genome Variation Database(HGVbase)

인간지놈 다양성 데이터베이스(HGVBASE)는 이전에 HGbase처럼 알려졌고 1998년에 모든 인트라제닉 서열에서의 다양성을 획득하여 만들어졌다. 1년후 전체 지놈의 다양성을 가지는 데이터베이스로 확대했으며 European consortium comparising teams, EBI, UK에 의해서 지원된다. HGbase dbSNP와 같이 같은 클래스에 다양한 정보들을 가지고 있다. HGbase dbSNP 두 데이터베이스는 데이터를 함께 연동하고있다. 2001 10 HGbase프로젝트는 HGVbase(Human Genome Variation Database; Fredman et al)로 새로운 이름으로 바뀌었다. 이러한 변화는 데이터베이스의 범위의 또 다른 변화를 가지 고왔다. HUGO HGVS를 돌연변이 서열을 축적하는 중추적인 데이터베이스처럼 소개하였다. 의심할 여지없이 SNP데이터베이스의 중심역할을 취하고있다. HGVbase는 싱글 염기서열의 모두 커버할 수 있다. HGVBASE는 또한 dbSNP의 데이터베이스와는 다른 차이를 가지고 있다. HGBbase dbSNP의 자동화된 접근에 대조적으로 추정되는 SNP와 관계되는 문제점을 찾는다. 그래서 HGVbase는 정확도를 많인 높였다. 관리자는 좀더 정확한 데이터를 제공하고 반복서열 과 low complexity 지역 에서의 SNP를 걸러내었다. HGV관리자들은 SNP와 돌연변이를 논문을 이용하여 동정한다. HGVbase는 현재 1.45MB의 중복되지 않는 인간의 다 형성데이터와 돌연변이 터를 데이터를 포함하고 있다. HGVbase haplotype tags와 실험 디자인에 유용한 데이터를 포함하고 있다. 이 툴들은 haplotype에서의 최소한 특이적인 마커들을 발견할 것이다. HGVbase blast나 키워드를 통하여 데이터베이스에서의 검색이 유용한 툴들과 연결되어있다. HGVbase Ensembl, SRS, EBI에서 제공하는 옵션들보다 더 낳은 검색 옵션들을 가지고 HGVbase에서 검색할 수 있다. HGVbase는 추정된 SNP에서 확신할 수 있는 SNP로 변환할 수 있는 높은 확률을 제공한다.

10. The Human Gene Mutation Database(HGMD)
HGMD는 인간 유전병에 대해 퍼블리쉬된 germline mutation과 비교하여 1996 4월에 구축되었다. 2001 10월 기록으로 HGMD 1153개의 gene에서 26637개의 mutation이 등록된 것으로 나타났다. HGMD의 범위는 유전되는 표현형을 결정하는데 중요한 역할을 하는 mutation과 광범위한 메커니즘을 포함하여 gene coding region안에 있는 point mutation, insertions mutation/deletion, duplication repeat expansion에 제한되어 있다. 체세포 돌연변이와 미토콘드리아 유전자내의 돌연변이는 포함되지 않았다. HGMD는 연구자들의 submission을 환영하고 있으나 대부분의 기록은 250개가 넘는 저널의 돌연변이 연구기록과 비교 가능하도록 링크되어있는 LSDB로부터 직접적으로 정리되었다. HGMD의 모든 돌연변이는 cluster를 구성하는 모든 중복된 돌연변이들이 불행하게도 보존되지 않은 상태인 non-redundant 형태로 나타나게 되고 따라서 만약 이들이 조상으로부터 결정되었다고 가정하였을 때 돌연변이를 결정하는 것은 불가능하며 돌연변이의 빈도 또한 데이터에서 찾아볼 수 없다.  

11. Sequence Variation Database (SRS)
Sequence variation database는 영국의 Hinxton에 있는 EBI Sequence Retrieval Server(SRS)의 한 파트로 형성되었다. SRS는 융통성 있는 sequence query tool이며 이것은 accession number, 키워드 그리고 sequence similarity를 통해 sequence database set을 정의할 수 있도록 검색하는 것을 사용자들에게 허가하고 있다. SRS는 또한 표3.4에 나와 있는 많은 locus specific database들과 HGvase를 포함한 Sequence variation의 몇몇 카테고리를 망라하고 있다.

12. The Protein Mutation Database (PMD)
Protein Mutation Database(PMD)는 인간의 단백질로부터 가져온 자연적이거나 인위적인 돌연변이 모두를 포함하고 있는 genetic variation database들 사이에서 유례가 없는 독특한 데이터베이스이다(Kawabata et al,. 1999). 인위적 돌연변이 데이터는 논문으로부터 추출되며 주로 site-direct random 돌연변이 생성 데이터로 구성되어 있다. 인위적 데이터의 전체적 윤곽을 명확히 그리는 것은 중요하며 그에 따라 각 기록이 자연적이거나 인위적임을 각각 명확하게 정의되어진다. PMD는 이미 알고 있는 기능적이거나 구조적인 돌연변이의 세부내용을 설명하고 인용된 원래 논문으로 링크해 두고 있다. 활동성 그리고/또는 안정성에서 눈에 띄게 다른 것은 wild-type protein와 함께 비교한 것을 표시했다는 것이다. PMD 119,190개의 자연적 인위적 돌연변이를 포함하고 있고(2002 1) 이것들은 키워드나 sequence similarity(BLAST)에 의해 검색할 수 있으며, 돌연 변이된 단백질의 sequence의 완전한 기록은 대체된 아미노산의 위치를 사용자들이 볼 수 있도록 시각화하고 있다. 3D 구조가 있는 곳은 실험적을 통해 결정되었으며 PMD 3D 구조에서 각각 다른 색으로 돌연변이가 일어난 residue를 표시하고 있다. Protein Mutation Database는 단백질의 기능연구에 매우 유용하게 사용될 수 있다. 돌연변이의 자세한 구조의 분류는 단백질에 관련된 orthologous residue에서의 다양성과 이미 알고 있는 돌연변이체와의 비교를 통해 사용자들에게 제공되고 있다. 또한 데이터베이스내의 단백질과 다른 homologous 단백질의 구조적 domain의 윤곽을 잡는데도 유용하게 사용된다

13. On-line Mendelian ingeritance in Man (OMIM)
OMIM은 인간의 유전자와 관련 mutation의 온라인 목록이며 인간에 있어서 멘델법칙에 기초하고 있다. 인간의 멘델법칙은(MIM) 1967년 존스홉킨스의 Victor McKusick(Hamosh et al. 2000)에 의해 창설되었다. OMIM은 유전자와 질병의 간단한 생물학적 배경을 입증하는데 훌륭한 자료가 되며 gene의 다형성과 일반적이거나 임상적으로 중요한 돌연변이에 대한 정보를 포함하고 있다. 그 명칭에도 불구하고 OMIM은 또한 다양한 단계의 복잡한 질병의 세부내용까지 다루고 있다. 2002 1월에는 13,285개가 넘는 entry를 포함하고 있었으며, 작은규모의 전담 큐레이터에 의해 조직되고 있다. 그러나 수동의 조직 작업은 entry가 최근의 것인지, 포괄적인 것인지를 장담하기 어렵게 한다. 이러한 경고에도 불구하고 OMIM은 매우 정확하게 조직된 형태로 나타나며 따라서 유용한 데이터베이스이다.

Personal tools
KoBIC service