1. NCBI Human Genome Data
From Biospecies
1. NCBI human genome data 받기
1) NCBI (<html>http://www.ncbi.nlm.nih.gov/</html>) 메인 홈페이지에 접속한다.

2) 1) 그림에서 왼쪽 메뉴에 FTP site (Download data and software)를 클릭하면 아래의 화면이 나오게 된다.
이 화면에서 <html>ftp.ncbi.nih.gov</html>를 클릭한다.

3) 그러면 ftp로 접속이 되면서 root 디렉터리로 들어가진다.
여기서 genomes 디렉토리를 클릭한다.

4) 그러면 생물종의 리스트가 아래와 같이 나타날 것이다. 여기서 H_sapiens를 클릭한다.

5) 그러면 아래와 같이 Homo sapiens에 관련된 genome data들이 있는 폴더가 나올 것이다.

6) 여기서 필요한 data들을 받는다.
2. NCBI Homo sapiens Genome data 디렉터리에 있는 README 파일
먼저 ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/ 안에 있는 README 파일을 열어 보면 README 파일의 위치, 업데이트 된 날짜가 제목으로 나오고, 이때까지 수정된 사항들을 날짜별로 나열시킨 것을 볼 수 있다.
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
목적:
이 FTP directory는 NCBI에서 추가 또는 분석 과정을 통해 만들어진 human genome data의 배포를 위해 2000년 12월에 만들어졌다. 이 directory는 Cotig build와 annotation 노력과 Map Viewer data file들에 의해 생겨난 reference sequence를 포함한다. 덧붙여서, 이 directory는 Fosmid End sequence, STS data와 다른 Mapping data에 관련된 다른 생물체의 구체적인 정보를 포함한다.
과거에 만들어진 data 또한 사용 가능하다.
phase 0, 1, 2와 3 high throughput genomic sequence data는 GenBank에 제출할 수 있고 아래 주소에서 사용 가능하다.
ftp://ftp.ncbi.nih.gov/genbank/genomes/H_sapiens
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
==============================================
Directory contents (디렉토리 내용)
==============================================
이 directory는 NCBI resource에서 사용하거나 또는 NCBI에서 만들어진 map data와 sequence record를 포함한다.
sequence data는 NCBI Reference Sequence와 NCBI Genome Annotation project를 통해 만들어진 chromosome, contig, RNA, 그리고 protein을 포함한다. contig는 draft, finished, 그리고 WGS sequence를 포함한다. 그 과정에는 assembly를 사용하고 contig의 annotation은 http://www.ncbi.nlm.nih.gov/genome/guide/build.html 에 설명되어 있다.
Map Viewer resource에 존재하는 map data는 또한 여기서 제공한다. NCBI Map Viewer는 human genome data의 graphical view (그래픽한 시각)를 제공한다.
http://www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606 을 봐라.
section은 아래를 포함한다.:
README_CURRENT_BUILD file
Contig와 chromosome assembly & information files
allcontig.agp.gz
ctg_coords
masking_coordinates.gz
seq_contig.md.gz
scaffold_names
CHR## - Chromosome directories
Assembled_chromosomes directory & chr_NC_gi file
RNA 와 protein directories
Sequence file 명명 협약
mapview directory
ARCHIVE directory
Mapping_data direcoty
FOSMIDS directory
sequence data는 Chromosome, RNA 와 protein 디렉터리에 있다.
=======================================
README_CURRENT_BUILD file
=======================================
이 file은 보존 data와 data, release data, build number를 포함한 가장 current build (최근에 만들어진) 세부 정보를 제공한다. 이 file은 또한 에러 수정 또는 update된 정보를 제공하기 위해 만약 updata 해서 증가 되는 것을 보여준다.
========================================
Contig와 chromosome assembly & information files
========================================
allcontig.agp.gz file:
-----------------
이 file은 contig assembly에 관한 상세한 정보를 제공한다.
columns (세로칸):
1: contig accession.version
2: contig에서 시작되는 base
3: contig에서 끝나는 base
4: contig fragment number (contig 단편 수)
5: fragment type (D=Draft, F=Finished, W=Whole genome shotgun (WGS) N= NN gap)
6: 만약 sequence일 경우, value (값) = 어느 base가 파생으로부터 sequence 구성분의 accession.version
만약 N-gap일 경우, value (값) = N의 수
7: 만약 sequence라면, value = sequence 구성분의 시작 base
만약 N-gap일 경우, value = "fragment (단편)“의 keyword
{fragment keywordsmscolne 내의 fragment 사이 또는 overlapping clone의 fragment 사이의 gap을 나타낸다.}
8: 만약 sequence라면, value = sequence 구성분의 끝 base
만약 N-gap이면, value = yes - mRNA, EST 또는 BAC end pair에 의한 순서와 방향의 어떤 정렬
만약 N-gap이면, value = no - flanking fragment 사이의 순서와 방향 없다.
9: + 만약 accession이 contig에 대해 정 방향일 때, 그렇지 않으면 -이다.
(sequence에 대해서만 column 9)
ctg_coords file:
-------------------------
** 이 파일은 allcontig.agp.gz에 의해 교체되었다.**
** ctg_coords의 생성물은 2004년 4월 이후로 중지되었다.**
masking_coordinates.gz:
masking_coordinates.gz 파일은 genomic contig에서 repetitive sequence의 조각에 대한 위치를 목록화한 것이다 (Repeatmasker http://www.repeatmasker.org/를 사용하여 결정). 이들 좌표는 contig에서 repetitive sequence의 mask를 위해 사용 할 수 있다. repetitive se벼ence는 mask 된 fasta sequence 파일 (*.mfa)에서 이미 소문자로 변환해 놓았다.
clomns:
1. contig accession.version
2. contig에서 시작 base
3. contig에서 끝 base
4. repetitive sequence의 class (종류), 또는 overlapoing repeat가 하나의 길이로 통합될 때 분류한 목록.
seq_contig.md.gz file:
------------------
seq_contig.md 파일은 chromosome을 따라 contig의 순서와 방향 정보를 제공한다.
columns:
1. tax_id: 9606은 Homo sapiens
2. chromosome: 1-22, X, Y, MT, 값|contig accession 또는 Un|contig accession, value|contig에 있는 것은 contig가 chromosome에 위치하지는 않지만 chromosome과 함께 관련된다는 것을 나타내고, 그리고 Un|contig는 어떤 chromosome에도 contig가 있지 않다는 것을 나타낸다.
3. from (어디서부터): chromosome 좌표, 1 base 좌표로 기록됨
4. to (어디까지): chromosome 좌표, 1 base 좌표로 기록됨
5. orientation (방향): +, -, 0 -, 0은 방향에서 불확실한 것을 나타낸다.
6. accession: accession.version 형식
7. id: 내부 ID
8. type (종류): 종류의 특징을 나타내다. (예를 들면 contig)
9. assembly 이 값은 특별한 assembly를 가지는 관련된 contig를 사용한다(예, reference assembly 대 alternate assemblies는 다른 group 또는 다른 haplotype을 나타내기 위해 제공된다.)
10. weight 대상에 대한 weight(가중치) 값. 모든 map에 대해, lower weight (낮은 가중치)는 map 대상에 대한 높은 신용 값을 의미한다.
1=finished sequence (MapViewer에서 파란색)
2=WGS sequence (MapViewer에서 녹색)
3=Draft sequence (MapViewer에서 오렌지색)
scaffold_names file:
---------------------
이 파일은 가각 특이적인 assembly에서 genomic scaffold에 대해 사용된 다른 이름을 제공한다.
columns:
1: assembly label, 예를 들면 reference 또는 Celera.
2: Genome Center 이름, 예를 emfuas CRA_219000001942509.
3: Genomic RefSeq Accession.version, 예를 들면 CH471051.2.
5: NCBI 이름, 예를 들면 HS7_79661_36, (RefSeq Accession.version의 할당에 대한 이전에 사용된)
=======================================
CHR_## - Chromosome directories
=======================================
chromosome directory에 있는 파일은 http://www.ncbi.nlm.nih.gov/genome/guide/build.html에서 설명하는 접근법을 사용하여 GenBank 각각의 record로부터 assembly된 contig에 대한 연관된 sequence data를 제공한다.
이들 파일에서 contig의 순서는 chromosome에서 그들의 순서를 나타내지 않는다.
chromosome FTP 디렉터리에서 contig는 NCBI Map Viewer에서 나타내는 것과 같은 것이다. contig는 두 세트로 나누어졌다.; reference assembly로부터의 contig를 포함하는 하나의 set (hs_ref_chr*), 다른 set는 djEJs alternate assembly들이나 alternate haplotypes (hs_alt_chr*)을 포함한다.
구성된 contig들은 reference sequence (RefSeq)이고 GenBank database의 부분이 아니다. GenBank는 data의 생산자에 의해 제출된 것의 sequence record의 기록보관을 하고, 이들 record에서 contig를 만들지 않는다.
더 많은 정보를 위해 RefSeq web site를 봐라:
http://www.ncbi.nih.gov/RefSeq
update: contig 파일은 각각의 assembly build cycle로 update될 것이다. contig update는 정기적인 시간 스케줄로 일어나지 않는다.
==================================
Assembled_chromosomes directory
==================================
이 디렉터리에 있는 파일들은 reference assembly의 chromosome에 대한 assembly 된 sequence를 제공하거나 alternate assembly로부터 어떤 완전한 chromosome에 대한 assembly된 sequence를 제공한다. 거듭되는 N들은 contig layout에서 gap이 있는 곳은 어디라도 sequence에 삽입된다. 예를 들면, contg 사이, centromere에서, telomere에서 또는 heterochromatin의 커다란 부분에서. chromosome 좌표의 특징은 이들 assembly들의 하나에 놓여져 있고, Map Viewer에 나타내거나 또는 /mapview 디렉터리에 위치한 map file들을 바탕으로 sequence에 제공되거나, 이들 assembly 된 chromosome sequence에서 위치와 일치한다. 좌표의 특징은 배치되지 않은 contig를 사용했고 (예를 들면, chromosome에 위치 하지 않은 contig), 그리고 다른 alternate assembly들에 위치한 어떤 contig들을 사용했고, 서로 다른 좌표 시스템을 사용했다.
chr_NC_gi file:
-------------------
chr_NC_gi 파일은 reference genome assembly를 나타내는 reference sequence (RefSeq) chromosome record에 대한 accession과 gi를 제공하고, alternate assembly들에서 어떤 완전한 chromosome의 accession과 gi를 제공한다.
columns:
1. chromosome
2. accession.versioin
3. gi
4. assembly
chromosome-specific FASTA files
---------------------------------
reference assembly의 각각의 chromosome에 대해 FASTA format에서의 sequence (*_ref_chr*.ga.gz), 그리고 alternate assembly들로부터 어떤 완전한 chromosome에 대한 FASTA format에서의 sequence. 각각의 파일은 종이나 chromosome label에 대한 약어에 따라 이름 붙여졌다.
agp files
------------
이 디렉터리느 sEh한 reference assembly의 각각의 chromosome에 대한 agp 파일(*_ref_chr*.agp.gz)과 alternate assembly들로부터 어떤 완전한 chromosome에 대한 agp 파일(*_alt_{assembly}_chr*.agp.gz)를 포함한다.
columns:
1: chromosome, chr+chromosome과 같이 지정된
2: chromosome에서 시작 base
3: chromosome에서 마지막 base
4: fragment number (단편번호)
5: fragment type (D=Draft, F=Finished, W=Whole genome shotgun(WGS) N=NN gap)
6: 만약 sequence라면, value = accession.version의 어떤 base가 파생되었는지로부터 나온 sequence 구성분.
만약 N-gap이라면, value(값)=N의 수
7: 만약 sequence라면, value = sequence 구성요소의 시작 base
만약 N-gap이라면, value = keyword "fragment"
{fragment keyword는 clone 내의 fragment(단편) 사이 또는 overlapping clone의 fragment 사이의 gap을 나타낸다.}
8: 만약 sequence라면, value = sequence 구성요소의 마지막 base
만약 N-gap이라면, value=yes - mRNA, EST 또는 BAC end pair에 의한 순서와 방향의 어떤 정렬
만약 N-gap이라면, value=no - flanking fragment (측면의 단편) 사이의 순서나 방향이 없는.
9: + 만약 accession이 chromosome에 대해 정방향
- 역방향
(sequence만에 대한 column 9)
====================================
RNA and protein directories (RNA와 protein 디렉터리들)
====================================
RNA와 protein 디렉토리는 genome annotation process의 부분으로 나온 모든 mRNA, non-coding transcript, 그리고 protein model reference sequence (RefSeq)을 나타내는 세 가지 format의 sequence 파일을 제공한다.
덧붙여서, 파일은 reference assembly에서 ab initio prediction으로 만들어진 포괄적인 세트를 제공한다. 이것은 Map Viewer의 ‘Ab inito' map과 일치한다.
RNA directory:
--------------------------
|
File Name |
Format |
Contents |
|
Gnomon_mRNA.fsa.gz |
FASTA |
ab initio transcript predictions |
|
rna.asn.gz |
ASN.1 |
annotated transcripts |
|
rna.ga.gz |
FASTA |
annotated transcripts |
|
rna.gbk.gz |
Flat File |
annotated transcripts |
|
File Name |
Format |
Contents |
|
Gnomon_prot.fsa.gz |
FASTA |
ab initio protein predictions |
|
protein.fa.gz |
FASTA |
annotated proteins |
|
pritein.gbk.gz |
Flat File |
annotated proteins |
|
Accession Format |
Molecule |
Type |
|
NM_xxxxxx |
mRNA |
curated RefSeq* |
|
NR_xxxxxx |
transcript |
curated RefSeq |
|
NP_xxxxxx |
protein |
curated RefSeq |
|
YP_xxxxxx |
protein |
curated RefSeq |
|
XM_xxxxxx |
mRNA |
model@ |
|
XR_xxxxxx |
transcript |
model |
|
XP_xxxxxx |
protein |
model |
* curated RefSeq = 이들 RefSeq record는 NCBI의 staff에 의해 curation과 정밀한 조사를 하고, build로 update된다. curation 과정은 진행중에 있다.
@ model RefSeq = 이들 RefSeq record는 genome annotation processing의 생성물이고 curation에 대한 것을 조건으로 하지 않고 build로 update 된다. Model RefSEq는 transcript와/또는 protein homology에 의해 지지되는 Gnomon 예측을 나타낸다..
덧붙이면, fasta 파일들은 Gnomon ab initio prediction의 완전한 세트를 제공하고 XM accession뿐만 아니라 예측된 subset과 model RefSeq로 예를 들지 않은 subset들로 지지된 모두를 포함한다. 이들 완전한 예측된 model들은 accession number가 할당 되지 않았을뿐만 아니라, 그들은 build중의 하나를 따른다. 그들은 실험적인 dataset이다. 이 예측 프로그램에 대한 추가적인 정보는 http://www.ncbi.nlm.nih.gov/genome/guide/gnomon.html에서 사용할 수 있다.
curate RefSeq (NM_, NR_, NP_, accession 접두사)에 대한 추가적인 정보는 http://www.ncbi.nlm.nih.gov/RefSeq/
ftp://ftp.ncbi.nih.gov/refseq/ 에서 사용 가능하다.
gene model에 대한 추가적인 정보는 http://www.ncbi.nlm.nih.gov/genome/guide/build.html에서 사용 가능하다.
===============================================
Sequence file naming conventions
===============================================
chromosome, protein 그리고 RNA 디렉토리에서 파일 이름은 다음과 같은 파일 format에 따라 정보를 전해준다.
*.asn.gz = ASN.1 file, print form
*.fa.gz = FASTA file format, 압축된
*.fsa.gz = FASTA file format, 압축된
*.mfa.gz = mask 된 FASTA 파일 format, 압축된 (mask된 nucleotide는 소문자이다.)
*.gbk.gz = GenBank flat file format (annotation + sequence), 압축된
*.gbs 파일 format은 sequence data를 포함하지 않지만, contig에 대한, “CONTIG" field를 포함하는 것 대신에, 어떻게 contig가 각각의 GenBank accession으로부터 assembly 되었는지를 보여준다.
최근 *.gbk와 *.gbs 파일에서 annotation은 gene, conserved protein domain, STS marker, 그리고 tRNAscan-SE(Lowe TM, Eddy SR. 1997. Nucleic Acids Res. 25:955-64)에 의해 annotate 된 tRNA 특징을 포함한다.
NOTE: Variation features (SNPs, 다형성)은 이 디렉토리에서 제공하는 파일에서 더 이상 포함하지 않는다. 왜냐하면 dbSNP update cycle은 genome annotation 하는 것과 더 이상 같지 않기 때문이다. 가장 최근의 dbSNP build로부터 나온 다형성 데이터는 dbSNP FTP site에서 얻을 수 있다.:
NOTE: 이 디렉터리에서 Gene symbol은 Entrez Gene에 대한 매 update와 동시에 update 되지 않는다. 어떻게 GeneID가 최근 symbol과 이름의 set로 변환되는지에 대한 제안은 Entrez Gene의 이 FAQ에서 제공하고 있다.:
http://www.ncbi.nlm.nih.gov/entrez/query/static/help/genefaq.html#faq_g4
========================================
mapview directory
========================================
이 디렉터리는 assembly와 annotation date를 가지고 있고 human Map Viewer에서 디스플레이하는데 사용된다.:
http://www.ncbi.nlm.nih.gov/mapview/map_seqrch.cgi?taxid=9606
========================================
ARCHIVE directory
========================================
이 디렉터리는 archival build data를 유지하기 위해 제공된다.
========================================
Mapping_data directory
========================================
이 data는 human STS에 대한 non-sequence based mapping을 포함하고 UniSTS ftp site에 link 되어 있다.
========================================
FOSMIDS directory
========================================
FOSMID sequence data 에 대한 디렉터리
출처 : NCBI ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/ 에 있는 README 파일



