8.단백질체학

From Biospecies

Jump to: navigation, search

1. 단백체학의 기능의 증명
단백체학은 생물학적 기능의 접근이라는 새로운 개념을 만들었다. prote는 유전자가 아닌 단백질에 이해 입증된 기능을 말하고 omics는 문장으로 정의된 기능이다. 단백질의 기능은 개개의 단백질 특성이 아니라 단백질의 쌍과 단백질이 존재하는 환경과의 생물학적인 상호작용으로 정의한다. 세포의 정보는 단백질의 기능을 포괄적으로 이해하는 것이 필요하다
단백질의 배열 정보는 종종 유전학자의 최종 목표점이 된다. 예를 들어 아미노산의 대체물은 SNP에 의해 정의된다. 그러나 사실은 이것은 단지 단백질의 특성에 관한 많은 구성요소들 중 하나이다. 또 다른 의미 있는 정보는 단백질의 고유 특성 즉, 3차원 구조, 번역 후의 수정, 반감기, 표현의 법칙, 효소 활성 및 활성양 등을 더욱 많이 다룰 수 있다는 것이다. 이러한 특성들은 조직과 세포 안에서의 특성에 의해 증명되었다
단백질 자체의 특성을 넘는 단백질 상호작용은 고 용량분석을 따라 보여 지는 새로운 형태의 정보이다. 이 방법들은 세포척도의 상황에서 단백질과 경로를 정의하는 강력한 기술이다. 결국 유전학과 단백체학의 목표는 후보 유전자를 질병의 유전자로 입증하는 과정 중 중요한 단계이다. 사람을 포함한 완전하고 많은 게놈 배열들을 가지고 생물학적 연구 정보의 이슈는 더욱 절실히 느껴진다. 최근의 단백체학의 이점은 원핵세포체의 분석 동안에 만들어졌다. 이 분야는 중요한데 원핵세포는 사람과 같은 고등 진핵세포를 분석하는 방법을 목표로 하고, 적당하고 완전한 자료세트를 이루고, 사람의 물질들을 연구하는데 도달하게 하는 노력이다. 배열 정보는 이해되고 의미 있는 단백질이 기능을 정의하는데 유의하고 충분하지는 않다. 사실, DNA의 배열은 여러 상황에 의해 변하므로 기능을 가정하는 것은 어렵다. 다른 절단은 진핵세포의 하나의 유전자에서 여러 유전생산물을 만든다. 다음 단계로 단백질을 형성되는데, 해석 수정은 단백분해, 포도당화 등의 결과다. 단백질의 조절은 그 자체가 하나의 논쟁이다. 단백질의 표현 전사조절은 사람과 효모에서 단백질과 mRNA 표현 사이에는 명확한 상관간계를 유도하는 것은 아니다. 조절의 시간과 공간은 배열 연구에 의해 부분적으로 밝혀지나 단백질의 활동과 생존기간은 단지 배열의 분석과는 직접적으로 연관되는 것은 아니다.

2. 단백체 정보학
단백체 정보학라는 단어를 정의하기에 앞서, 우리는 이미 단백체학이 무엇인지에 대해 개략을 이미 알고 있다. 정보학을 설명하기 위해, Luscombe는 생물정보학을 생화학적인 관점에서 분자레벨에서 생물학을 개념화하는 것이라고 정의하였고수학이나 컴퓨터학, 통계학으로부터 나오게 된 정보학의 기법을 대규모로 이러한 분자들로부터 조직된 정보들을 이해하고 조직화하는데 적용하였다. 생물학적인 정보를 얻을 수 있는 높은 수준의 방법들이 발전해감에 따라, 우리는 이러한 정보들을 분석하고 이해하기 위한 강력한 자동화된 도구가 필요하게 되었다이것이 단백 정보학의 목표이다. 정보들은 치밀하고 복잡하게 혼재되어 있는 것처럼 보이고, 다차원적으로 존재하는 것처럼 보인다. 생물 정보학의 역할은 우리가 가진 자료들의 연관된 하부구조의 위치를 발견하여 우리의 자료들을 자료가 가진 중요한 정보들을 잃어버리지 않으면서 정보로부터 이익을 얻어낼 수 있도록 우리의 자료를 의미 있고 이해할 수 있는 방법으로 계획하는 것이다. 얼핏 보면, 단백체 정보학는 단지 정보들을 취급하고 구상화하는 도구로 보여질 수도 있지만 그것의 목적은 실제로 두 가지 측면이다. 한가지 측면은 효율적인 생물 정보학 도구를 사용하여 이해할 수 있는 방식으로 정보를 진열하고 정보들을 경험적인 환경의 틀을 가진 거대한 정보망 속에 저장하는 것이다. 다른 측면은 새로운 정보를 뽑아낼 수 있도록 알고리즘을 발전시키고 개선하는 것이다. 생물 정보학 도구들은 단백체학을 적용하는 데에 적절하기 때문에 이들은 정보를 높은 수준으로 처리하고정보들을 세포적인 수준에서 통합하여 개념화 시킨다. 그렇기 때문에 정보들을 재구성하고 세포적인 경로를 추론하고 단백질간의 연결지도를 알아내기 위해 알고리즘을 발전시키는 것이 필요하다.

3.
실험적 처리과정
프로테움을 연구하기 위해 설계된 가장 빈번히 사용되는 고 처리 기술은 특정한 단백질 복합체에서 개별 단백질로 식별하고 정량화하는데 목표를 둔다. 이 방법들을 때때로 고전적 단백체학이라고 하는데 이는 단백질의 상호작용과 세포에서 과정들을 증명하는 기능적 단백체학과 구별된다. 전형적인 접근은 질량 분석계을 이용한 겔 전기연동으로 세포 추출물에서 다양한 단백질을 분리하는 것이다. : 배열 데이터베이스에서 사용할 수 있는 실험적 정보와 비교는 DNA 배열과 일치하는 단백질 겔 sopt의 특이한 할당물을 제공한다. 여러 단계에서의 최근의 최적화는 단백체학에서 가장 강력한 접근중의 하나이다.

4.
프로테움의 정제
샘플의 준비는 고전적 단백체학에서 첫 번째이고 중요한 단계이다. 샘플이 순수할수록 더 정확한 정량화와 단백질 식별이 가능할 것이다. 단백질은 세포와 조직 또는 세포안의 구조물로부터 추출할 수 있다. 정제 방법에는 밀도 차를 이용한 원심 분리, 추출 색층 분석, 예를 들어 peptide tags, 항체 또는 기질을 이용한 친화력 색층 분석이 있다. 관심 있는 두 가지의 고 친화력 tags의 복합체를 포함하는 직렬로 친화력 정제는 자연적인 조건하에서 표현된 후 작은 조작 조건하에서 단백 복합체를 정제하는 일반적인 방법이고 효모의 프로테옴을 연구하는데 적합하다.
5. 프로테움의 분
샘플의 단백질 윤곽은 2D gel SDS-polyacrylamide gel electrophoresis, a high resolution technque for decomposing protein complexes of tenths polypeptides 얻어진다. 단백질은 등전의 초점과 전기연동을 복합적으로 사용하여 등전점과 분자량에 따라 분리된다. spots은 컬러 염색, 형광 dye 또는 방사선 라벨을 통해 탐지된다. 단백질은 고전적인 1D-PAGE에 위해서도 분리 할 수 있는데 세포의 추출물에서 분리되는 단백질의 양은 적다. 예를 들면 면역 친화력 정제 OR TAP가 있다SDS-PAGE는 단백체학에서 가장 흔히 사용되는 2차원 단백질 분리 방법이고 이 기술은 연구소와 데이터베이스에서 여러 프로테움에서 만들어진 가장 흥미 있는 2D gel 단백질 spot을 얻는 기준이 된다.

6.
프로테움의 식별
단백질의 2D del spot protase에 의해 분해되고 절개된다. 녹여진 peptide는 질량분석계에 의해 분석된다. 단백질의 분석에서 고 단계의 예민도, 자동화 그리고 처리량의 접근 질량분석계는 단백체학에서 중요한 기술이다.
단백질의 femtomoles 분석은 분해된 2D spot을 포함한 peptide 질량 리스트가 제공되어진 MALDI/TOF-based peptide mass fingerprinting를 일상적으로 사용한다. 계산된 peptide 질량의 리스트와 단백질 배열 데이터베이스를 대조하여 분리된 단백질의 특성을 알게 된다. mass fingerprinting를 데이터베이스에서 찾지 못할 때는 tandem mass spectrometry classic bioinfirmatics databases의 비슷한 배열에 의해 단백질을 식별할 수 있는 tag의 배열을 제공하는 polypeptide의 배열을 사용할 수 있다. 배열 tagging에 의한 peptide mass fingerprinting의 조합은 단백질을 식별하는 강력한 기술이다.
한 단계를 더하면, MS HPLC 기법과 결합 및 생화학적 기법의 조합은 단백질-단백질 상호작용의 연구를 위한 복잡한 생물학적 복합체에서 단백질을 식별할 수 있다. 에를 들어, HPLC ESI-MS의 조합은 세포막을 통과하는 단백질의 빠르고 정확한 분석 및 연구를 할 수 있다. 고 처리량 방법은 질량분석계를 이용하여 단백질의 해석 후의 수정을 식별하도록 설계되어 있다.

7.
단백질 표현 네트워크 형성
포로테움의 특성화는 다르게 표현된 단백질의 세계적인 도표를 만들게 하였다. 다른 조건 도는 다른 시간적 단계에서 표현 형태의 여러 가지 세트를 비교하면 단백질 표현 네트워크라고 이해되는 공동으로 조절하는 단백질 다발을 추론할 수 있다. 다른 단백질 표현 네트워드들은 세포 경로, 세포 종류에 따른 특성, 병인 물질을 설명한다. 이들은 전사 기술에 의해 유전자 조절 네트워크를 보완한다. 질량분석계는 표현 네트워크 군집이라고 개념 지어진 단백 복합체의 식별을 가능하게 한다.

8.
단백질 표현 데이터의 분석
2D gel 이미지의 분석적 접근의 범위는 매우 기초적인 것에서 상당한 복합체까지이다. 여러 가지 상업적 2D gel 이미지 분석 소프트웨어 패키지는 spot의 결정, 정량화 및 표준화하여 gel 이미지를 설명, 분석 및 비교한다. Flicker는 다른 인터넷 자원으로부터 이미지를 비교하는 무료 웹 도구이다. 여러 가지의 gel 이미지를 URL 주어지면 Flicker는 이미지를 읽고 웹 브로이져에 설명한다. 그들은 여러 가지 방법으로 이것을 강화하여 흥미 있는 부분은 각각의 gel 이미지에서 여러 일치하는 spots은 경계표가 될 수 있다. 하나의 gel 이미지는 다른 표면에 휘게 되고 두 개의 이미지 결과는 세 번째 창에서 육안으로 비교된다. : 두 가지 gel은 빠르게 바뀌어 하나의 gel 슬라이드는 지역적인 형태학의 대조로 일치하는 spot으로 정렬된다. 이미지 분석 기술을 가지고 전문가들은 표현 네트워크를 지역적으로 보고 생물학적 가설을 만든다. 다음단계로 단백 표현 양상들을 데이터베이스에 저장하여 고 처리량 스크린이 가능하게 한다.

9.
단백질의 상호작용 네트워크
만약 단백 표현 네트워크가 단백질의 공동 조절에 대한 정보를 주고 이러한 반응들이 특별한 조건하에서 일어난다면, 그들은 유전자 생산물의 생화학적 기능에 관한 완전한 정보는 아니다. 세포 구성요소과 단백질의 상호작용의 결정이 이러한 논쟁을 일으킨다. 단백질의 기능은 세포 경로 그리고 세포의 다른 구성 요소들과의 상호작용에서 정의할 수 있다. 우리는 여기서 단백질을 다루고 고처리량의 실험적 프로토콜에 의해 생산된 상호작용 네트워크와 이질적인 요인이 포함한 것들과 구분하였다. 이러한 기술적 세트는 기능적 단백체학이라고 하는 큰 척도의 상호작용 데이터를 만들 수 있다.

10
효모의 두 가지 혼합
효모의 두 가지 혼합 시스템은 단백질과 polypeptide 사이의 상화작용을 발견 할 수 있고 모르는 주어진 단백질 쌍을 찾을 수 있다. 효모의 두 가지 혼합은 단백질 상호작용 지도를 만드는데 사용할 수 있는 주요한 큰 척도 기술이다. 두 가지 전략 즉, 매트릭스 접근과 조각 생물 자료관 심사 접근법은 상호작용을 위한 프로테움을 조사하는 가장 효과적인 방법이다
매트릭스 접근법은 미리 정해진 ORFs와 완전한 길이의 단백질을 모아서 사용하는데 이 둘은 상호작용을 접근하는 bait prey가 된다. bait prey는 개별적으로 평가되어 또 다른 bait prey 단백질이 표현된 세포의 풀이 된다. 이 전략의 내부적 제한점은 미리 정의된 알려진 단백질만 시험한다는 것이다. Y2H는 세포 순환을 조절하는 초파리 단백질 사이의 상호작용을 설명하는데 처음 사용된다. Y2H 접근 전략의 변화는 새로운 단백질 상호작용 쌍의 식별을 위한 심사에 철저하게 생물 자료관을 사용한다. 생물 저장소 심사 접근은 특정지어지지 않은 단백질을 특별한 경로에 적용한 결과인 단백질과 관련된 기능이다. 이것은 또한 세포 전체의 상호작용을 설명할 수 있다. 생물 저장소에 포함되어 있는 무작위 조각의 심사는 겹쳐진 추적 조각의 선택에 의한 일반적인 배열처럼 정의된 상호작용의 영역을 결정하게 한다.

11.
단백질 상호작용 네트워크 건설
두 개의 단백질 쌍을 식별하였을 때 최고점은 단백질이고 가장자리는 단백질의 상호작용인 그래프를 설계 할 수 있다이 과정은 두 개의 쌍이 이미 알고 있다며 하찮다. 그러나 하나의 상이 생물 자료관에 반하게 검사되었거나 목표/추적을 선택했을 때는 뒤 과정이 필요하다. 뒤 경우는 추적 유전자는 BLAST와 같은 도구를 사용하여 배열 데이터베이스에서 배열되고 식별된다. 몇 개의 실험적인 프로토콜은 파지와 효모 두 가지 혼합과 같이 결합되는데 위양성과 위음성의 흥정에 의존하여 하나는 전체의 상호작용으로 고려되든지 단지 이들은 두 가지 기술 모두이든지 결정한다. 더욱이, 조각 생물 자료관을 사용한 두 가지 혼합 전략에서 기능적 상호작용 영역은 단백질의 정확한 지도를 할 수 있다. : 일반적인 배열은 미끼에 의해 선택된 작은 도킹 사이트로 정의된 실험적인 추적 조각의 중복으로 할당된다. 상호작용 네트워크는 완전한 길이의 단백질 대신 단백질 영역 최고 위치를 그래프에 표시할 수 있다.

12.
위음성과 위양성
위음성의 상호작용은 부정확한 접힘, 부적절한 세포안 위치, 해석 후의 수정의 부족 등으로 인한 생물학적 상호작용이다. 효모의 두 가지 혼합 분석에서 매트릭스 접근은 각각의 단백질 쌍들을 일반화하기 쉽기 때문에 위양상이 높고 조각 생물 자료관 접근은 가능한 상호작용을 수백만 번 실험하도록 한다. 예를 들어 효모의 프로테옴의 두 가지 적당한 연구는 문헌에 기술된 상호작용의 90%이상이 반복하여 실패를 하였다선택적 조건하에서 매트릭스 접근법의 내부적인 제한점은 높은 비율의 위음성을 설명할 수 있다.역으로, 많은 가능성의 상호작용을 위한 연구에서 특히 무작위 조각 생물 자료관의 검사에서 생물학적으로 중요하지 않는 polypeptide 상호작용을 선택의 기회가 증가하여 위양성을 일으킨다. 첫째, 몇몇의 미끼 단백질은 특별한 추적 단백질 상호작용 없이 기록된 유전자이 전사를 활성화 시키는 경향이 있다. 이러한 bait 단백질은 무작위기로 prey 단백질 선택한다. 둘째, 끈적거리는 단백질로 명명된 몇몇의 가공한 prey 단백질은 많은 독립적인 bait 단백질로 비특이적으로 선택된다. 자동적으로 활성된 bait 단백질과 끈적한 prey 단백질을 폐기하는 것이 약간 위음성을 증가시키지만 위양성의 비율이 줄어든다. 덜 엄격한 여과는 조각 생물 자료관을 기초로 하여 H.pylori의 상호작용 네트워크를 사용한다. 하나의 계획은 생물 자료관에서 무작위로 선발된 조각에서 얻어진 비교에 의한 bait-prey 상호작용의 E-value를 게산하도록 설계된다. 끝으로 각각의 상호작용은 신뢰할 수 있는 value를 생산한다.

1
3. 상호작용 네트워크의 분석
인터넷에서 단백질 상호작용 데이터베이스는 단백질 상호작용의 리스트는 알파벳 순으로 진열되어 있다. 하나의 상호작용은 두 개의 단백질 사의로 표현되는데 때때로는 다른 단백질 데이터베이스에 기본적인 주석을 달거나 교차되어 언급된다. 몇몇 웹사이트는 상호작용 네트워크를 그래프로 진열하도록 제안한다 그러나, 상호작용의 간단한 리스트는 재현력의 결과에 문제가 있다. 위양성과 재현력 검사에서 일차적인 데이터는 필요하다. 예를 들어, MIPS에 리스트 되어있는 상호작용은 실험과 연구의 자원에 대한 언급과 단서 없이 두 가지 혼합 또는 면역 침강과 같은 실험적 자원의 징후로 표현된다생물 정보학의 도구는 일차적인 데이터에 접근하는 PIM Rider와 같은 이슈를 지금 문제시 삼는다. 소프트웨어의 시각화는 발견의 과정에서 생물학자를 돕는 선택을 풍부하게 한다두 개의 단백질 사이의 상호작용의 연구에서 여과 표시된 상호작용은 그들의 신뢰도 또는 동시에 표시된 모든 상호작용 영역에 영향을 받는 하나의 특이한 단백질을 식별한다.

14.
세포 경로
세포 경로는 지질, 작은 물질, RNA, DNA 등의 상호작용의 통합에 의한 단백질 상호작용 네트워크로 확장한다. 그들은 문헌의 편찬물에서 유추하고 단백질 상호작용 네트워크와 반대된다.

15.
대사 경로
생물체의 대사와 그 들의 진화는 오랜 시간 동안 조사되었다. 세포내에서 대사 흐름과 하나의 구성요소에서 다른 구성요소로 이끄는 효소 작용의 단계는 작은 물질과 단백질이 섞여 있는 이질적인 상호작용 네트워크이다. 몇몇 데이터베이스 진핵세포체의 세포 네트워크에 간한 정보를 재구성한다. 효소는 EC , 효소의 기능적 분류체계로 붙여진 시스템에 의해 언급된다.

16.
신호 전달 네트워크

신호 전달 경로는 세포내의 경로를 대체한다. 그들은 세포 밖에서의 신호를 수용하여 특정 유전자의 전사를 자극하는 전사 인자를 활성화시키는 물질 상호작용의 단계라고 기술하였다. 이 신호전달 네트워크는 단백질의 물리적인 상호작용으로 기술된다.

17.
유전자 조절 네트워크
유전자 조절 네트워크의 복잡한 배열의 신호 전달 하부 흐름이 일어난다. 전사 조절 네트워크는 이질적인 물리적 상호작용과 유전적인 상호작용의 혼합이다. 유전자 조절 네트워크는 추상적인 고 단계에서 연구되고 있다.
신호전달과 조절 경로는 개별적인 연구에 의해 구성되고 SPAD, TRANSFAC, MIPS와 같은 데이터베이스에 저장된다. 이러한 데이터베이스는 계산적으로 조절 네트워크를 예측하가 위한 연구들을 허락한다. 예를 들어, Pilpel들은 촉진 요소의 복합적인 분석에 의해 효모의 확장된 전사 조절 네트워크를 계산적으로 예측한다.

18.
비교 게놈학에 의한 기능 네트워크의 예측
많은 게놈 배열의 완성에서, 새로운 기술은 게놈 척도의 유전자 분석과 생물체 사이의 게놈의 비교로 유전자 생산물의 기능을 빠르게 예측한다. 비교 게놈학이라고 명명된 방법의 새로운 세트는 많은 단백질 사이의 기능적 연결을 예측하도록 한다.
게놈의 비교는 유전자 배열의 비교를 의미하고 개체 사이의 같은 기능의 유전자인 이성체 식별을 의미하는 유전자 사이의 유사한 연결을 세우는 것이다. 예측 방법에 따라 이성체학의 식별은 배열 유사성 안에서 고정된 E-value 역치 아래서 주요한 배열 유사성의 파악을 축소시킨다.

19.
유전자 융합
유전자 융합 방법은 Marcotte들에 의해 처음 소개 되었고 그 후로 많은 연구가 이루어 졌다. 이 방법은 진화적인 상호작용 가설에 기초한다. 기본적으로, 같은 기능의 가진 A 유전자와 B 유전자가 있다면, 이들은 진화동안 융합된 유전자 생산물의 효과적으로 강화시킨다. A B에서의 단백질의 영역 사이에서 몇 가지 돌연변이가 나타난다. 유전자 A와 유전자 B를 다시 분리한다면, 그들의 생산물은 여전히 물리적으로 상호작용 한다. 따라서 생물체에서 주어진 두 가지 분리된 유전자는 다른 생물체에서 융합된다. 그들은 같은 구조 복합체, 같은 생물학적 경로, 같은 새물학적 과정 또는 때때로 물리적인 상호작용 안에서 기능적으로 연결되어 있다. 그러나 외부적인 정보 없이 기능적 연결의 4가지 종류 사이의 구별은 불가능 하다. 유전자 융합 방법은 Greek and Demotic의 비교로부터 Champollion가 상형문자의 감각을 만들게 허락한 Rosetta stone으로부터 언급되어 Rosetta stone 방법이라 한다
유전자 융합 방법은 원시 박테리아와 진핵세포 종의 22 게놈의 세트와 그것의 유전자를 비교에 의하여 E.coli의 단백 기능 네트워크의 예측을 적용한다. 융합의 참여라는 개념에서 3배의 선호는 대조 세트와 비교하여 대사효소의 증거가 된다. 융합에 참여하는 효소의 쌍들을 파악의 76% EcoCyc 데이터베이스에서의 효소 복합체의 서브유닛이라고 알려져 있다. 이 융합 방법은 따라서 대사 효소의 물리적인 상호작용을 파악할 수 있다.

20.
이웃 유전자
박테리아의 염색체의 무리 안에서 유래된 way 유전자는 진화의 강압의 결과라고 오래 동안 가정되었다. 많은 게놈 배열의 완성은 적당한 레벨에서 이러한 가정의 실험을 가능하게 하였다. Dandekar와 그의 동료는 보존된 유전자 쌍을 식별하는 게놈 배열의 3가지 3쌍을 처음으로 분석을 하였다. 100개의 유전자는 보존된 쌍들에서 발견되는데 그들 중에서 물리적으로 상호작용을 하는 부호화된 단백질 쌍은 75%이다. 이것은 유전자의 명령과 부호화된 단백질의 물리적 상호작용의 보존은 진화와 연관된다고 주장한다.
Overbeek 들은 기능 연결을 추론하기 위해서 생물체의 유전자 군집인 신테니 그룹을 만들어 분석의 종류를 확장시켰다. 그들은 같은 가닥에 위치한 유전자 세트를 유전자 군집을 정의하였다. 그리고 최대 유전자 거리는 300 염기쌍이라고 정의하였다. 게놈 B의 군집 안에서 두 개의 XA 유전자와 YA 유전자가 주어진다면, 그 들은 기능적인 쌍으로 정의 하였다. A 연결 점수는 이성체적인 쌍들이 발견된 생물체의 수와 이러한 생물체와 A와 계통학적 거리에 의존한다.이웃 유전자 방법 사용은 보존된 유전자 조직을 가진 미생물 게놈들을 더욱 효과적으로 명확하게 한다. 또한 이것은 operon 같은 군집 구조가 관찰된 진핵세포에도 확장된다

21.
계통학적 윤곽
계통학적 윤곽은 언급된 게놈의 세트에서의 유전자를 위한 이성체의 발생 양상으로 정의한다. 이것은 게놈의 세트를 교차한 특별한 유전자의 부재 또는 존재라고 기술한다. 두개의 단백질이 이러한 게놈에 교차하여 같은 계통의 윤곽을 가진다면, 그들은 함께 나오기 때문에 그들은 기능적으로 연결되어 있다
방법들의 주요한 가정들의 이해는 이성체적이고 단백질들은 같은 기능을 가지고 있어서 구별 가능하다. 더욱이, 모든 언급된 게놈은 위양성을 피해 완전히 배열된다. 역설적으로 배열이 유사한 이성체학이 구별된다면, 계통학적 윤곽 방법은 이 방법에서 단백질은 연결되기 때문에 배열 독립적인 군집 알고 리듬으로 언급된다. 다시 말하면, 같은 계통 윤곽을 가지고 일반적으로 배열 유사성을 가지지는 않는다.

22.
단백질 상호작용 추론
추론과정은 단백질 네트워크의 모든 형태에 제공될 수 있다. 이것은 단백질 상호작용 방법을 최근 검사이다. 유추 방법은 위에 기술된 하나와의 유사한데 원시적인 방법은 다른 방법들과 함께 조사되어 언급되고 상호작용 양상과 상호작용 영역 정보를 기초한 군집의 배열 유사성 연구의 조합인 IDPP 방법에 의해 명명된다.
IDPP 방법의 원칙은 H.pylori를 위한 실험적 단백질 상호작용 지도에서  E.coli를 위한 단백질 상호작용 네트워크의 예측을 통해 설명된다. H.pylroi 네트워크 기원한 1524개의 상호작용에서 IDPP 방법은 881개의 상호작용 예측, E.coli 412개의 단백질과 연결을 이끈다. 완전한 길이의 단백질보다 제한된 상호작용 영역 배열의 유사성의 사용은 방법의 민감도를 증진시킨다. 유사하게 단일 상호작용 영역 배열을 대신하여 상호작용 영역 군집을 사용하면 배열 유사성의 저 단계에서 동종의 파악이 가능하다. 652개의 상호작용은 IDPP 방법이 아닌 원시적인 방법으로 예측된다. 이러한 651개의 상호작용 중 252개는 예측이 상호작용 영역이 포함되어 있지 않은 부분의 배열 유사성을 통해 얻어졌기 때문에 원시적인 방법을 사용으로 위양성으로 증명되었다모든 단백질로 구성되나 짧은 상호작용 영역으로 구성되지 않을 때의 배열 유사성으로 얻어진 399개의 상호작용은 따라서 위양성의 가능성이 있다.

23.
문서의 발췌
문서 발췌 방법은 때때로 information retrieval 불리고 단백질 네트워크의 예측하는 방법과 그 자체로 예측 방법이다. 최근의 생물학적 지식의 주요한 부분의 가정은 과학적 문헌, 제목의 해석, 단백질과 유전자 사이의 연결을 뽑을 수 있고 네트워크를 세울 수 있는 요약 또는 완전한 논문이 포함된다몇 개의 기술은 단어의 꼬리 부분인 언어적 방법을 해석하고 포함하는 수행과 단어의 분포를 기술하는 통계적인 방법이 존재한다. 이 연구에서 하나의 주요한 이슈는 유전자 또는 유전자 생산물의 이름을 위한 정확한 명명 법이다. 유전자의 이름의 사전은 HUGO, LocusLink 또는 OMIM과 같은 다양한 명명 데이터베이스를 만들 수 있으나 부족한 동의어 정의, 동의어의 다양화 그리고 불분명한 이름을 가진 유전자 군 때문에 무제가 남아 있다. 최근의 연구는 사람 유전자의 상징 또는 이름을 파악하고 수를 세는 10억의 MEDLINE 기록을 분석을 목표로 한다. 이것은 7512개의 사람 유전자를 연결하는 140000개 상호관계를 포함하는 단백질 상호작용 네트워크의 결과다. 이것은 먼 문헌의 발췌에서 예측된 가장 큰 단백질 네트워크이다. 문헌에서의 발췌는 요약을 검사하여 유익하게 도움을 받고 논문을 읽는 수를 줄인다이것은 DIP의 데이터베이스의 풍부하게 사용한다.

24. Guilt by association
법칙
guilt by association에 사용되는 기능을 밝히기 위한 첫 번째 시도는 단백질의 상호 작용하는 파트너의 주석에 기초하여, 또는 일반적으로 단백질의 주어진 군에서의 공통적인 특징을 공유하는 단백질에 기초하여 단백질에 주석을 다는 것이다. 예를 들어 문헌에 기술된 혹은 거대규모의 두개의 잡종 검사에서 분석된 일련의 효모 단백질들 사이의 상호작용은 세포 기능과 효모 프로테옴 자료에서 도출한 세포이하 레벨의 구역화 주석에 기반을 둔 군집방법을 통해 분석된다. 특징화되지 않은 단백질의 기능은 기능이 알려진 상호 작용하는 파트너에 기초를 두고 정해진다. 기능은 최소한 한가지의 공통적인 기능을 가지는 2개나 그 이상의 상호 작용하는 단백질들을 가진 29개의 단백질들에 의해 정해진다.

 그럼에도 불구하고 guilt by association기능적 도구는 주의해서 사용해야 한다. 첫 번째로 예언은 종종 환원하는 혹은 거짓인 데이터베이스 기능 주석에 높게 의존한다. 빈약하게 정의된 주석은 다른 정의를 모을 수 있고 생물학적으로 중요하지 않은 군 형성을 유도한다. 할당은 명백하게 단백질 네트워크 원천의 질에 의존한다. 연결이 너무 적거나 적합지 않을 때, 단백질 노드에 너무 많은 위양성 연결이 있다면 guilt by association 오류가 많은 결론에 도달하게 됩니다. 이러한 점은 두 가지 잡종 관계데이터에서 더욱 명백해지고 왜냐하면 위양성은 네트워크에서 매우 연결된 노드를 나타내기 때문입니다. 마지막으로, 이러한 종류의 자동화된 기능 주석 방법에 있어 주요 장애물은 모든 생물정보하적 예언 연산에서 공통적인 것으로서 독립적인 참조할만한 데이터 검색한다는 것이다. 예를 들어 이전의 연구에서 만들어진 29-기능 할당이 원조연구에서 사용된 효모 단백질 관계 정보창고 중 하나인 MIPS에 등록된 상호작용으로부터 스스로 부분적으로 예언된 상응하는 매우 신임할만한 연결과 비교되었다. 이것은 예언이 주의 깊게 사용 되야 한다는 좋은 예가 된다. : 최초의 학문적 가설을 간과하는 것과 독립적인 정보창고의 부족이 편향된 결론을 유발할 수 있다. 단백질 상호작용의 생물학적 군집형성은 여전히 더욱더 유용한 상호관련 정보가 축적되고 있고 정보의 질이 향상되고 있는 강력한 주석도구를 나타낸다. 그럼에도 불구하고 적절한 기능적 주석에 성공적으로 사용되기 위해, 그런 정보는 각각의 과학자 개인이 복잡한 이종의 일차적 정보에 대한 그들 자신의 가설을 테스트할 수 있게 하고 기능적 할당을 실증하기 위한 더 많은 실험을 디자인할 수 있도록 하는 정교한 구조에 저장될 필요가 있다.

Personal tools
KoBIC service