本記事はRF Diffusion、ProteinMPNN、AF2について書かれたIn silico 創薬の記事です。これらを使い薬候補となるタンパク質薬を自分のパソコンでデザインできます。こちらの記事の内容ができるようになると、RF Diffusion、ProteinMPNN、AF2を使った一連のin silico創薬を体験できます。
ぜひ、トライしてみてください!
【この記事のまとめ】
最新のAI技術「RF Diffusion」「ProteinMPNN」「AlphaFold2(AF2)」を組み合わせ、特定の標的タンパク質に結合する「新薬候補タンパク質」をPCブラウザ上で自動設計する手法を解説します。
- 3つの強力なAIツールを統合: 構造生成(RF Diffusion)、配列設計(ProteinMPNN)、構造検証(AF2)のワークフローを連携させ、高精度なバインダー(結合剤)の創出を可能にしています。
- Google Colabによる環境構築不要の実装: 複雑なローカル環境の構築を必要とせず、Google Colab上で公開されているスクリプトを用いて、誰でも最先端のin silico創薬フローを体験できます。
- がん抑制因子関連タンパク質(MDMX)での実証: 標的タンパク質MDMX(PDB ID: 4N5T)を例に、特定の鎖(Chain A)に対して長さ30残基のバインダーを実際に生成・可視化する手順を具体的に示しています。
この記事を実践することで、従来は膨大なコストと時間がかかったタンパク質設計を、数クリックの操作と数時間の計算だけで完了させ、創薬研究の初期段階を劇的に効率化するスキルが身につきます。
macOS Ventura(13.2.1), python 3.9.7, Jupyter Notebook, PyMOL 2.5.4
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
自宅でできるin silico創薬の技術書を販売中
タンパク質デザイン・モデリングに焦点を当て、初めてこの分野に参入する方向けに、それぞれの手法の説明から、環境構築、実際の使い方まで網羅!
RF Diffusionとは?
タンパク質のin silico設計の大御所であるBaker labで開発された技術です。
RF Diffusion now free and open source
RF Diffusionとは、機械学習アルゴリズムを利用して新しい生理活性化合物を発見するための手法の一つです。
RF Diffusionでは、既知の生理活性化合物の構造情報をデータセットとして使用し、機械学習アルゴリズムによってその構造情報から新しい化合物を生成します。この生成された化合物は、予測された生理活性に基づいてランキングされ、最も有望な化合物を選択することができます。
簡単に言うと、RF Diffusionは機械学習アルゴリズムを利用して、既知の生理活性化合物から新しい化合物を創出する手法であり、効率的で正確な結果を得ることができます。
ProteinMPNNとAF2とは?
ProteinMPNNは、高い精度で新しいタンパク質を設計するための、深層学習に基づくタンパク質配列設計方法です。ProteinMPNNでは数千の高分解能構造から成るタンパク質データバンクでトレーニングされています。
Alphafold2は、タンパク質の3次元構造を予測するために開発された人工知能のアルゴリズムです。このアルゴリズムは、DeepMind社によって開発され、2020年に発表されました。Alphafold2は、タンパク質のアミノ酸配列から、そのタンパク質の3次元構造を高精度で予測することができます。
Alphafold2は、その高い精度によって、タンパク質構造予測の分野において大きな注目を集めています。これまでに、Alphafold2は、多くのタンパク質の構造を予測し、実験的に決定された構造との比較において高い一致率を示しています。これは、医療や製薬分野において、タンパク質の構造と機能に関する理解を深めるために非常に重要な役割を果たしています。
ここではSergeyさんが作ってくださいましたGoogle Colabのページで
RFDiffusionによる骨格生成 →Protein MPNNでの配列設計 > AF2によるvalidationを行います。
本記事を進むにあたって、PyMOLのダウンロードをお願いします。
大阪大学の蛋白研究所からインストールの仕方が解説されています。
RF Diffusion、ProteinMPNN、AF2を使った一連のin silico創薬
では早速RF Diffusion、ProteinMPNN、AF2を使った一連のin silico創薬を試してみましょう!
まずはこちらからGoogle colabページに行きます。

今回はモデルのタンパク質としてProtein Data Bank(PDB)の番号4N5TであるMDMXのバインダーのデザインをしてみましょう!
MDMXは、ヒトのタンパク質で、がんの発生に関与することが示唆されています。MDMXは、p53という重要ながん抑制因子を抑制することができます。これは、p53の正常な機能を阻害し、がん細胞の形成や進行につながる可能性があります。一方、MDMXの欠失は、胚の発育異常を引き起こすことが知られています。
MDMXは、がん治療の標的となる可能性があります。MDMXを標的とした治療法の開発は、p53を再活性化し、がん細胞の増殖を抑制することが期待されています。この治療法の開発により、がん患者の治療に大きな貢献が期待されています。
画像のように以下の手順をしてみてください。
- nameに名前を入れる。ここではMDMXbinder。このときスペースは入れないでください。
- contigsに結合箇所とタンパク質の長さを入れる。ここではA:30。MDMXのchain Aに結合する長さ30のタンパク質をデザインします。
- pdbにMDMXのPDB番号を入れる。ここでは4N5T。
- Display 3D structureのanimateはチェックを入れても入れなくても良いですが、面白いので、チェックを入れましょう笑

5. あとは上にあるランタイムタブから全てのセルを実行を押してください。あとは数分待つだけです。

結合剤の生成アニメーション
先ほどanimateにチェックを入れたので、アニメーションが生成してきます!
これだけみても面白いですよね!
結果
しばらくすると作業が終わり、zipファイルがダウンロードされてきます。ダウンロードされたファイルのbest.pdbをpymolで開いてみてください。もっとも信頼性の高い複合体が示されます。

開いたらDisplay→Sequenceから配列を見てみましょう。

わかりやすいようにデザインされたbinderを赤くします。

美しいα-ヘリックス構造を持つタンパク質ができました!緑色が MDMX、赤色が今回デザインされたタンパク質です。

既存の構造との重ね合わせ
Protein Data Bank(PDB)の番号4N5TであるMDMXは本来、別のbinderとの複合体になっています。ですので、本来のbinderとの結合はどのように違うのかを見てみましょう。
上記のFile→Get PDB…を押してもらい、PDB IDに4N5Tを押して本来のMDMXとそのbinderとの複合体をダウンロードしてください。

出てきた新しいMDMX(ここでは水色)のbinderの部分の色を適当に変更します。
水分子は邪魔なので、右側の4N5T→Hide→watersで消します。

最後に4N5T→Action→align→to molecule→bestで重ね合わせます。

本来のbinderと同じ位置に結合しているbinderがこのRF diffusionでデザインできたのがわかります。

最後に
いかができたでしょうか? RF Diffusion、ProteinMPNN、AF2を使っていとも簡単にタンパク質がデザインできIn silico 創薬ができるとても素晴らしい技術です。皆さんもRF Diffusion、ProteinMPNN、AF2を使ってお好きなタンバク質に自由にbinderを見つけてIn silico 創薬をしてみてください!
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
自宅でできるin silico創薬の技術書を販売中
タンパク質デザイン・モデリングに焦点を当て、初めてこの分野に参入する方向けに、それぞれの手法の説明から、環境構築、実際の使い方まで網羅!









貴重な情報をありがとうございます。ちなみに、PDBに無いものをベースにシミュレーション可能でしょうか? 構造はわかっているのですが、タンパク質ではありません。それを使うことは可能でしょうか?もしご存知でしたらお教えいただけますとありがたいです。あるいは共同研究できましたら幸いです。よろしくお願いします。
黒田さま
この度は記事をご覧いただき、誠にありがとうございます。
さて質問の件ですが、「構造が判明しているタンパク質でない物質、例えばシリコンに対して、本記事のRF Diffusionが利用可能かどうか」ということだと認識しております。
我々の結論を申し上げますと、「利用は難しい」と考えております。
RF DIffusionではタンパク質を扱っており、各ステップでタンパク質を前提としたプログラムが組まれているためです。タンパク質以外に使われている例は報告は今のところないように思います。
ですが、私はこちらの技術の開発者ではないため、詳しいところはお答えしかねますことをご了承ください。
もっと詳しい状況などをお知りになりたい場合は、Somiyaさま(https://masaharusomiya.page/en/)をお尋ねすることをご提案いたします。ブログにも書いていますが、RF Diffusionを開発した研究所に所属されており、我々よりもこの技術にお詳しいかと思います。
以上となります。この度はお力添えできず、大変申し訳ありません。引き続き、Labcodeをご愛顧いただけますと幸いです。
この記事の内容以外にもご連絡いただけることがありましたら、TwitterのDM(https://twitter.com/LabCodeBlog)にてやりとりさせていただけたらと思います。よろしくお願いします。