機械学習によるタンパク質の変異設計、In Silicoスクリーニング、分子ドッキング【iGEM-Wasedaプロジェクトレポート】

本記事では、LabCodeがメンターを務めた、学術サークル【iGEM-Waseda】が行ったプロジェクトについて紹介します。タンパク質機能の向上ため、機械学習を活用したタンパク質の変異設計、シミュレーションツールを利用したスクリーニングから分子ドッキングまでを行うパイプラインを構築し、選抜された候補に対してWet実験を行いました。このプロジェクトの取り組みや技術的な詳細、得られた成果について、わかりやすく解説します。

動作検証済み環境

Ubuntu 22.04.5 LTS, NVIDIA Tesla T4

宣伝


こちらの記事は合成生物学大会iGEMの強豪校であるiGEM-Wasedaさん協力のもと執筆されました。ご協力誠にありがとうございます!

【iGEM-Waseda】は合成生物学の研究を行う早稲田大学の学術サークルです。iGEMと呼ばれる合成生物学の世界大会の世界大会に出場するために日々研究に励んでいらっしゃいます。

本記事では、iGEM2024で日本Undergrad部門で史上初のTOP10に選ばれたプロジェクトの一環として、特にIn Silicoシミュレーションに関わる部分のツールの一部を紹介しています。プロジェクトの詳細については、iGEM-Wasedaの成果報告サイトをご覧いただければ幸いです。


In Silico Evolution Pipelineとは

このプロジェクトは、PET(ポリエチレンテレフタレート)を分解する酵素であるPETaseの分解活性を高めることで、BIND-PETaseというCsgAとPETaseの融合タンパク質の機能向上を目的としています。

CsgAは細菌のアミロイド形成に関与し、PETaseはPET分解酵素としてプラスチックを分解します。

BIND-PETaseは、CsgAのアミロイド形成能を利用してPETaseを安定的に表面固定化し、PETの分解効率を向上させる融合タンパク質です。

私たちは、タンパク質機能の強化に向けてIn Silico Evolution Pipelineを構築しました。このパイプラインは、(A)機械学習による変異設計、(B)In Silicoスクリーニング(C)人間による検証の3つのステップで構成されています。まず、アミノ酸配列の膨大な組み合わせから、機械学習モデルを使用して最適な変異配列を設計しました。次に、モデルの信頼性を補完するために、シミュレーションツールを使用して高スコアの配列を選択しました。最後に、ドッキングポーズとエネルギーを人間が目視で確認し、選ばれた候補についてWet実験で活性を検証しました。

(A) 機械学習による変異設計

PETaseのアミノ酸配列の長さは約300であるため、その探索空間は広大であり、$20^{300}≒10^{390}$通りです。このような広大な探索空間では、多くのアミノ酸変異がタンパク質の機能を損なうため、ランダムな変異によって効果的な変異を見つけるのは困難です。そこで、機械学習を用いて効果的な変異を導入する手法が注目されています。例えば、大量のタンパク質データで学習されたタンパク質言語モデルを活用することで、プロンプトを使って効率的にタンパク質に変異を導入できるようになりました。

(B) In Silicoスクリーニング

しかし、タンパク質言語モデルの出力には依然として不確実性が含まれています。そのため、従来使用されてきた自由エネルギーやドッキングスコアなどの古典的な指標を適用して、スコアに基づいて配列をランク付けまたはスクリーニングできると考えました。これをIn Silicoスクリーニング呼びました。

(C) 人間による検証 – 分子ドッキング

(A)および(B)のステップで出力されるスコアだけでは評価に限界があるため、最終的に人間による検証も行います。例えば、ドッキングスコアが高くても、結合部位に適切にドッキングできない場合には実際には機能しない可能性があります。そのため、エネルギーやドッキングポーズの自然さなど、複数の要素を考慮し、明らかに不自然な変異を除外することで、より信頼性の高い候補を選定します。

このパイプラインを使用して、iePETaseIn Silico Evolution PETase)と呼ぶ5つの配列を提案しました。また、合理的設計に基づいたrdPETaseRational Design PETase)と名付けた9つの配列も設計しました。PETaseの活性を向上させるために、合計で14種類のPETase変異体を作成し、Wet実験でその活性を測定しました(詳細はiGEM-Wasedaの成果報告サイトをご覧ください)。その中で、合理的設計によって活性が向上したものが確認され、また、In Silicoで設計された配列の1つも活性向上の可能性を示しました。

以下でより詳しく手法、アプローチを説明します。

(A) 機械学習による変異設計

タンパク質変異の設計には、ESM3 [1]もしくはEvoProtGrad [2]の2つの機械学習モデルを使用しました。

ESM3

ESM3 [1]は、プロンプトを用いて特定のタンパク質に変異を導入できるタンパク質言語モデル(後述)の一種です。このプロンプトには、配列や構造、機能などの情報を含めることができます。ESMのGFPサンプル[3]を参考に、PETaseへの変異導入用のプロンプトを設計しました。

このプロンプトには、配列、PETaseの既知の結合部位と活性部位の座標[4]、およびタンパク質ファミリー[5]の情報が含まれており、結合部位や活性部位以外の残基にランダムな変異を導入しました。ESM3は膨大なタンパク質データで学習されており、タンパク質の自然さを学習しているため、ランダムな変異よりも自然で中立的、あるいは有益な変異を導入することが可能です。この方法により、広大な探索空間($20^{300}$)内で、よりも効率的に効果的な変異を見つけられます。詳細なコードについては、GitLabリポジトリをご覧ください。

タンパク質モデルとは?

タンパク質言語モデル (Protein Language Model, pLM) は、ChatGPT のような大規模言語モデル (Large Language Model, LLM) のタンパク質バージョンと考えることができます。LLM は膨大な量のテキストデータで学習されますが、pLM は大規模なタンパク質データでトレーニングされます。pLM はマスク言語モデル (Masked Language Model, MLM) の形式で学習されます。このモデルでは、配列の一部がマスクされ、モデルはその部分が何であるかを予測します。推論中、特定のアミノ酸残基がマスクされ、モデルは 20 個のアミノ酸のうちどれが最も可能性が高いかを予測し、最も高い確率のアミノ酸を選択します。

EvoProtGrad

EvoProtGradは複数の機械学習モデルの出力を統合し、スコアの高い領域を探索するアルゴリズムです。このプロジェクトでは、タンパク質言語モデルの一種であるESM2 [6]と進化情報を学習するモデルであるEvCouplings [7]を組み合わせました。ESM2はタンパク質の自然さを保証し、EvCouplingsは進化の自然さを考慮します。この2つのモデルを組み合わせることで、中立的または有益な突然変異を導入することができます。

(B) In Silicoスクリーニング

In Silicoスクリーニングの方法としてpyRosetta [8]とDockString [9] を使用しました。

pyRosetta は、タンパク質工学ツール Rosetta を Python で使用できるようにするライブラリです。このツールを使用して、タンパク質の安定性を評価するための Rosetta Energy Unit (REU) を計算しました。

一方、DockStringは、ドッキングツールAutoDock VinaをPythonから実行できるツールです。PETとPETaseのドッキングスコア(結合親和性)を計算しました。今回は最大のドッキングスコアを採用しましたが、正確にドッキングが行われたかどうかの詳細な検証は行っていません。

これらのツールを選択した理由は、わずか数行のコードで実行でき、パイプラインに簡単に統合できるためです。実際、以下のコードに示すように、各ツールの機能は簡単なコードで利用できます。

以下はpyRosettaのサンプルコードです。詳しい利用方法はこちらの記事をご覧ください。

pose = pose_from_pdb("XXX.pdb")  # タンパク質の構造をPDBファイルから読み込む
scorefxn = get_fa_scorefxn()  # スコア関数を設定する
score = scorefxn(pose)  # スコア関数の計算

以下はDockStringのサンプルコードです。詳しい利用方法はLabCodeの記事【in silico 創薬】Dockstringによるコードのみでのin silico screening【in silico screening】をご覧ください。

target = load_target("XXX")  # 目的のタンパク質を読み込む
score, aux = target.dock(smiles)  # SMILES記法で記述された分子を読み込み、ドッキングを行う

(C) Human Validation – Molecular Docking

概要

機械学習を用いた変異設計およびIn Silicoスクリーニングにおいて、出力されたスコアを基に候補のランク付けを行いました。

具体的には、機械学習による変異設計では推論の信頼性を示すpTMの高い候補を選び、In SilicoスクリーニングではDockStringによるドッキングスコア(結合親和性)が高い候補を選択します。ただし、推論の信頼性やドッキングスコアが高いからといって、PET分子との結合が確実に強いわけではありません。

こうした機械学習やIn Silicoスクリーニングによる変異設計の不確実性に対処するため、PETaseとPET分子を用いた分子ドッキングを実施し、ドッキングポーズやエネルギーを目視で確認しました。これにより、スクリーニングプロセスの信頼性を高めています。

ベースライン手法

分子ドッキングに使用したツールは以下の通りです。これらの手順はLabCodeの記事[15]を参考にしました。

まず、UCSF Chimera を使用して、生成された PETase 変異体の構造についてエネルギー最小化処理をしました。エネルギー最小化(minimization)とは、タンパク質のエネルギーを下げるプロセスです。これは、PETase 変異体の最も安定した状態を使用してドッキングが実行されるようにするために行われました。

次に、Auto Dock Vina には PDBQT ファイルが必要なので、MGLTools を使用して PDB ファイルを PDBQT 形式に変換しました。

PETase 変異体に結合する分子 PET のデータは、Draw Molecule Online を使用して作成しました。同様に、MGLTools を使用して PDBQT 形式に変換しました。PDB ファイルを PDBQT ファイルに変換する方法は次の通りです。Grid -> Macromolecule -> Choose -> Select Molecule

次に、AutoDock Vinaを使用した分子ドッキングについて説明します。PETaseはPETのポリマーを分解し、最終的にMHET(モノヒドロキシエチルテレフタル酸)とテレフタル酸を生成します。この反応を踏まえ、まずPET二量体を使って分子ドッキングを実施しました。ドッキングの確認方法については、後述の「分子ドッキングの検証フロー」で詳しく説明します。

次に、PET四量体を使って、二量体と結合することに成功したPETase変異体に対して分子ドッキングを行いました。PET四量体を使用した理由は、PET四量体を使ったドッキングの成功率が二量体よりも低いため、PET四量体の結合が二量体と同様の結合ポーズだった場合に、変異体の信頼性向上が期待されるからです。また、先行研究[4]でもPET四量体が使用されており、これも選択理由の一つです。

PET四量体とのドッキングでPETaseに結合できる候補が1つだけの場合、その候補を実験で検証対象としました。候補が複数ある場合には、AutoDock Vinaの出力エネルギー値が低いもの、またはPETがPETase変異体に強く結合するものを選択しました。エネルギー値が低いということは、PETとPETase変異体がより安定した状態で結合していることを意味します。また、PETaseの電子密度マップ上でPETが結合部位の溝にしっかり収まっている場合、それが強固に結合していると判断しました。

最後に、「分子ドッキングの検証フロー」について説明します。

分子ドッキングの検証フロー

分子ドッキングの結果の検証は以下のフローに従って実行されました。

詳しく手順は以下で説明します。

  1. PDBQTファイルに変換する前に、PDBファイルをPyMOLで開きます。
  2. Plugin->APBS Electrostatics電子密度マップを生成するために使用します。

電子密度マップを生成する理由は、PET が PETase 変異体の結合部位近くの「溝」に正しく結合されているかどうかを確認しやすくするためです。

  1. pyMOLに以下のコマンドを入力すると、先行研究で示された結合部位[4]が表示されます。

select PETase-SUBS1, protein_name and (resi 87 or resi 161 or resi 185 or resi 208)

  1. 以下ような画面のままで、AutoDock Vinaから出力されたファイルを開きます。
  2. PET分子が結合部位付近の溝にしっかり結合している場合、そのPETase変異体は高い結合親和性を持つと考えられます(図A)。このような結合は、実際の活性と高い相関がある可能性があります。反対に、結合が不十分であれば、結合親和性が低く、高い実活性は期待できません。以下に例を示します(図B)(緑色の物質がPET分子を表しています)。

図A

図B

  1. AutoDock Vinaは、デフォルトでPET用に10個のドッキングポーズを出力します。指定したPETのドッキングポーズの数を確認し、その中で少なくとも1つが結合に関連する部位に結合している場合、高い結合親和性があると判断します。
  2. 結合親和性が低ければ、その時点で候補から除外します。

この分子ドッキング手順に従うことで、$10^2$スケールのものから5個の候補に絞ることができました。このプロセスにより、機械学習ベースの変異体設計やIn Silicoスクリーニングスコアだけでは判断できなかった、各PETase変異体の結合親和性が明らかになりました。

結果


私たちは、さまざまな機械学習モデルとシミュレーションツールを用いて5つのPETase変異体を評価し、最終的にBIND-PETaseを実験室で作成しました。(iGEM-Wasedaの成果報告サイトをご覧ください)

DuraPETase、DepoPETaseはすでに報告されているPETaseの変異体です。

ID1~ID5の変異体設計にはESM3を使用し、特にID4とID5では異なるIn Silicoスクリーニング手法が採用されています。ID1では機械学習モデルの信頼性を重視し、ID2ではドッキングスコアを主な指標としました。一方で、ID3ではドッキングスコアとタンパク質の安定性の両方を考慮しています。

以下が結果になります。

残念ながら、活性の向上には至りませんでしたが、変異体ID3は、PETase_WT(野生型)と比較して配列類似性が60.44%と低いにもかかわらず、約20%の加水分解活性(pNPB degradation Assay) を維持しており、興味深い結果になりました。加水分解活性の評価はPET分解活性評価よりも簡易で計測でき、PET分解活性評価の代替として、使われています。

一方で、csgA活性(Curli Filber Formation Assay)については、csgA変異体を用いていないもの、ID3との融合体の場合は活性の低下が見られました。このことから、csgAはPETase自体と協同して、アミロイド形成に関与していることが考えられました。

終わりに


従来の機械学習を用いたタンパク質進化研究では、最終的なスクリーニングは通常Wetラボで行われますが、iGEMのような時間と資金に制約のあるプロジェクトでは、Wetラボでのスクリーニングが困難な場合も少なくありません。

このパイプラインでは、機械学習を用いて検索空間を大幅に拡大し、多くの候補をIn Silicoスクリーニングにより迅速に選別する手法の提案しました。

今後は本パイプラインを改良し、多様なタンパク質の進化を試みることによって、有用性を向上させていく予定です。

参考文献

  1. Thomas H. et al. (2024), Simulating 500 million years of evolution with a language model, bioRxiv, https://doi.org/10.1101/2024.07.01.600583
  2. Patrick E. et al. (2023), Plug & Play Directed Evolution of Proteins with Gradient-based Discrete MCMC, Mach. Learn.: Sci. Technol. 4 025014, https://doi.org/10.1088/2632-2153/accacd
  3. Evolutionaryscale. (2024). Esm. GitHub. https://github.com/evolutionaryscale/esm/blob/main/examples/gfp_design.ipynb
  4. Joo, S., Cho, I., Seo, H., Son, H., Sagong, H.Y., Shin, T., Choi, S., Lee, S., & Kim, K.J. (2018). Structural insight into molecular mechanism of poly(ethylene terephthalate) degradation. Nature Communications, 9(1). https://doi.org/10.1038/s41467-018-02881-1.
  5. Paysan-Lafosse T, Blum M, Chuguransky S, Grego T, Pinto BL, Salazar GA, Bileschi ML, Bork P, Bridge A, Colwell L, Gough J, Haft DH, Letunić I, Marchler-Bauer A, Mi H, Natale DA, Orengo CA, Pandurangan AP, Rivoire C, Sigrist CJA, Sillitoe I, Thanki N, Thomas PD, Tosatto SCE, Wu CH, Bateman A. InterPro in 2022. Nucleic Acids Research, Nov 2022, (doi: 10.1093/nar/gkac993) https://www.ebi.ac.uk/interpro/entry/interpro/IPR029058.
  6. Zeming L. et al. (2023), Evolutionary-scale prediction of atomic-level protein structure with a language model, Science, Vol. 379, Issue 6637, 1123-1130, https://doi.org/10.48550/arXiv.2212.09925
  7. Thomas H. et al. (2019), The EVcouplings Python framework for coevolutionary sequence analysis, Bioinformatics, Vol. 35, Issue 9, 1582–1584, https://doi.org/10.1093/bioinformatics/bty862
  8. Smith S. et al. (2020), Assessing multiple score functions in Rosetta for drug discovery, PLoS One.15(10): e0240450.https://doi.org/10.1371/journal.pone.0240450
  9. Miguel G. et al. (2022), DOCKSTRING: Easy Molecular Docking Yields Better Benchmarks for Ligand Design, J. Chem. Inf. Model. 62, 15, 3486–3502, https://doi.org/10.1021/acs.jcim.1c01334
  10. Oleg T. et al. (2010), AutoDock Vina: Improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading, Computational Chemistry, Vol. 31, Issue 2, 455-461, https://doi.org/10.1002/jcc.21334:
  11. CCSB. (2022). MGLTools. CCSB. https://ccsb.scripps.edu/mgltools/downloads/
  12. UCSF Chimera :Pettersen, E., Goddard, T., Huang, C., Couch, G., Greenblatt, D., Meng, E., & Ferrin, T. (2004). UCSF Chimera—A visualization system for exploratory research and analysis. Journal of Computational Chemistry, 25(13), 1605–1612. https://doi.org/10.1002/jcc.20084
  13. Online cheminformatics, (n.d.), Draw molecule online, Online cheminformatics, https://chemoinfo.ipmc.cnrs.fr/LEA3D/drawonline.html
  14. The PyMOL Molecular Graphics System, Version 3.0.3 Schrödinger, LLC, http://www.pymol.org/pymol
  15. Labcode. (2024). 【Autodock Vina】 Autodock Vinaを使ったin silicoスクリーニング【in silico創薬】 LabCode. https://labo-code.com/bioinformatics/autodock-vina-in-silico-screening/


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です