banner
뉴스 센터
전문 지식이 명확하고 능숙합니다.

프로테옴의 단백질 언어 배우기

Dec 03, 2023

커뮤니케이션 생물학 6권, 기사 번호: 73(2023) 이 기사 인용

5883 액세스

10 알트메트릭

측정항목 세부정보

단백질-단백질 상호작용(PPI)은 단백질의 기능적 발현에 큰 영향을 미쳐 세포 경로와 과정을 지배합니다. 따라서 단백질-단백질 상호작용 결합 부위의 정확한 식별은 단백질 기능 분석의 핵심 단계가 되었습니다. 그러나 대부분의 계산 방법은 생물학적 특징을 기반으로 설계되었기 때문에 단백질-단백질 결합 이벤트에 대한 특성을 모델링하기 위해 아미노산 서열을 분산 벡터 표현으로 직접 인코딩하는 데 사용할 수 있는 단백질 언어 모델이 없습니다. 더욱이, 실험적으로 검출된 단백질 상호작용 부위의 수는 단백질-단백질 상호작용이나 단백질 복합체의 단백질 부위보다 훨씬 적기 때문에 성능 개선의 여지가 있는 불균형한 데이터 세트가 발생합니다. 이러한 문제를 해결하기 위해 우리는 앙상블 딥러닝 모델(EDLM) 기반 단백질-단백질 상호작용(PPI) 사이트 식별 방법(EDLMPPI)을 개발합니다. 평가 결과에 따르면 EDLMPPI는 Dset_448, Dset_72 및 Dset_164를 포함하여 널리 사용되는 3가지 벤치마크 데이터 세트에서 여러 PPI 사이트 예측 모델을 포함한 최첨단 기술보다 성능이 뛰어납니다. 이는 EDLMPPI가 해당 PPI 사이트 예측 모델보다 거의 10배 더 우수하다는 것을 보여줍니다. 평균 정밀도 측면에서 %입니다. 또한, 생물학적 및 해석 가능한 분석은 다양한 관점에서 단백질 결합 부위 식별 및 특성화 메커니즘에 대한 새로운 통찰력을 제공합니다. EDLMPPI 웹 서버는 http://www.edlmppi.top:5002/에서 사용할 수 있습니다.

단백질-단백질 상호작용(PPI)은 단백질 기능을 밝히는 데 도움이 될 뿐만 아니라 대부분의 세포 생물학을 해석하는 데에도 도움이 되는 모든 주요 세포 과정에서 필수적인 역할을 합니다. 특히, 이러한 단백질 상호작용의 주요 단백질은 관련 질병에 대한 표적 치료제 개발의 기초를 제공할 수 있으며 질병의 기본 분자 기반에 대한 정보도 제공할 수 있습니다1. 단백질-단백질 상호 작용 사이트를 쿼리하는 데 사용할 수 있는 BioLip2 및 PDB3와 같은 수많은 데이터베이스가 있지만 현재 인간에게 알려진 단백질의 수가 증가함에 따라 이러한 데이터베이스는 압도적인 것으로 보입니다4. 마찬가지로, 2-하이브리드 분석 및 친화도 시스템과 같은 결합 부위 검출을 위한 생물학적 실험은 매우 시간이 많이 걸리고 비용이 많이 듭니다5. 이러한 격차를 해소하기 위해 단백질 상호작용 및 관련 부위를 다루기 위한 많은 계산 방법이 개발되었습니다. 최근에는 딥러닝의 강력한 특징 추출 기능을 접목하여 딥러닝 기반의 단백질 상호작용 부위 식별 모델이 많이 제안되어 기존 머신러닝에 비해 예측 성능이 질적으로 향상되었습니다. 예를 들어 Zeng et al.6은 다양한 크기의 컨벌루션 커널을 사용하여 특징을 학습하기 위해 TextCNN을 특징 추출기로 사용하여 예측 성능을 향상시킬 수 있습니다. Xie et al.7은 잔여물 간의 로컬 특징을 학습하기 위해 간단한 CNN을 채택했습니다. Yang et al.8은 아미노산 상호작용 부위를 예측하기 위해 국소 가중치 공유 기능을 갖춘 심층 신경망을 제시했습니다. Sun 등9은 막횡단 단백질에서 상호 작용하는 아미노산을 예측하기 위해 잔류 신경망을 기반으로 한 딥 러닝 아키텍처를 개발했습니다. Zhang et al.10은 단순화된 LSTM을 사용하여 PPI를 예측했으며, 전역 컨텍스트를 파악하는 LSTM의 기능을 사용하여 기능의 컨텍스트 정보를 학습하는 것을 목표로 했습니다. Li et al.11은 CNN과 RNN을 통합하여 로컬 상황 정보와 장거리 종속성을 통합하여 모델 성능을 향상시켰습니다. 불행하게도 이러한 계산 방법의 대부분은 매우 불안정하고 제대로 일반화되지 않았습니다. 특히 불균형이 심한 벤치마크 데이터 세트의 경우 개선의 여지가 있습니다.

acts as a sequence splitter that carries the attention of all residues, which indicates that for ProtT5, the overall identity of a sequence is determined by all amino acids together. Furthermore, Fig. 5b(d) shows clearly the flow of target amino acids in the different attention heads, verifying our previous statement that higher attention is seen with closer proximity. Moreover, Fig. 5c visualizes the evolution of each attention head in the different layers, as the layers deepened, the attention pattern shifted from focusing on the association between different amino acids to transmitting the expression of the amino acid sequences. In summary, ProtT5 can explore the connection between the protein-level structure and its function from local to global, providing a reasonable interpretation that EDLMPPI effectively predicts protein–protein interaction binding sites./p>