AI는 이제 모든 단백질의 3D 구조를 계산할 수 있습니다
- 연구원은 딥 러닝 모델을 사용하여 아미노산 서열을 기반으로 단백질의 3D 구조를 결정합니다.
- 일단 완전히 훈련되면 사전 지식이 없는 단백질 구조를 추정할 때 기존의 모든 기술을 쉽게 능가할 수 있습니다.
단백질은 인체의 주요 구성 요소 중 하나입니다. 조직을 만들고 유지합니다. 화학적으로 아미노산(수소, 탄소, 산소, 질소 또는 황으로 이루어진 유기 화합물)으로 구성되어 있습니다.
단백질은 다른 분자와의 상호 작용을 제어하는 정확한 3차원 구조로 스스로 접혀 생명에 필수적인 거의 모든 기본적인 생물학적 과정을 수행합니다.
단백질의 형태는 다양한 질병에서 그 기능과 역할을 결정하기 때문에 생명을 구하고 생명을 바꾸는 의약품을 개발하기 위해서는 단백질의 구조를 연구하고 예측하는 것이 중요합니다.
하지만 말처럼 쉽지 않습니다. 지난 50년 동안 단백질 접힘은 생화학자들에게 가장 어려운 문제 중 하나로 남아 있습니다. 특히 최근 몇 년 동안 단백질이 접히는 방식을 예측하기 위해 수많은 계산 방법이 개발되었지만 명확한 서열 대 구조 지도는 아직 달성되지 않았습니다.
이제 하버드 의과대학의 연구원들은 딥 러닝 모델(인공 지능의 한 형태)을 사용하여 아미노산 서열을 기반으로 한 단백질의 3D 구조를 결정했습니다. 속도 면에서 기존의 최첨단 기술보다 6~7배 정도 성능이 뛰어납니다.
엔드 투 엔드 미분 딥 러닝 적용
고급 알고리즘은 무차별 대입 기술을 사용하여 아미노산 상호 작용의 복잡한 물리학을 시뮬레이션하고 단백질 구조를 결정합니다. 계산 오버헤드를 줄이기 위해 이러한 알고리즘은 이전에 결정된 단백질 구조를 나타내는 미리 설계된 템플릿에 새 시퀀스를 매핑합니다.
Google의 AlphaFold와 같은 일부 AI 프로젝트는 단백질 서열의 청사진을 포함하는 방대한 양의 게놈 데이터를 구문 분석합니다. 그러나 이러한 방법은 아미노산 서열에만 기초하여 구조를 추정하지 않습니다. 그들은 진화적 고유 단백질(과거에 연구된 적이 없는 단백질의 구조)을 결정할 수 없습니다.
따라서 연구팀은 Google 번역 및 Apple의 Siri를 비롯한 일부 인기 앱에서 이미 효과가 입증된 엔드 투 엔드 미분 가능한 딥 러닝 기술을 사용했습니다.
참조:세포 시스템 | doi:10.1016/j.cels.2019.03.006 | 하버드 의과대학
순환 기하 네트워크라고 하는 이 딥 러닝 시스템은 단백질 접힘의 주요 속성을 강조합니다. 미리 결정된 수천 개의 단백질 서열과 구조에 대해 훈련됩니다.
모든 단일 아미노산에 대해 알고리즘은 산과 인접 아미노산을 연결하는 화학 결합의 각도와 이러한 화학 결합 주위의 회전 각도를 계산합니다.
네트워크가 단백질 구조를 구성하기 위해 화학 결합의 각도와 이러한 결합 주위의 회전 각도를 계산하는 방법에 대한 시각적 시뮬레이션. | 출처:Mohammed AlQuraishi
신경망은 구조가 완료될 때까지 이러한 계산을 수행합니다(각 반복은 다른 모든 아미노산의 상대적 위치에 따라 정제됨). 그런 다음 시스템은 실제 단백질 구조와 일치시켜 결과의 정확성을 확인합니다(직접 관찰에서 얻음).
결과
이 프로세스는 알려진 여러 단백질에 대해 반복되며 시스템의 정확도는 반복할 때마다 증가합니다. 네트워크를 훈련하는 데 몇 달이 걸릴 수 있지만 훈련이 완료되면 모델은 사전 지식이 없는 단백질 구조를 추정할 때 기존의 모든 기술을 쉽게 능가할 수 있습니다.
그러나 모델의 정확도는 단백질의 전체 원자 구조를 해결하기에 충분하지 않습니다. 따라서 약물 디자인이나 발견에 사용할 준비가 되지 않았습니다.
읽기:휴대폰 카메라를 사용하여 혈액 내 극히 희귀한 단백질을 측정하는 새로운 방법
현재로서는 이전에 가능했던 것보다 훨씬 더 광범위한 종류의 단백질 구조를 예측하는 다른 기술을 보완할 수 있습니다. 물리 및 화학 법칙을 통합하여 모델을 개선할 수 있는 수많은 기회가 있습니다. 직접 해보고 싶다면 GitHub에서 코드와 결과를 확인할 수 있습니다.