【タンパク質デザイン】Homology modelingによる構造予測 【in silico創薬】

【タンパク質デザイン】Homology modelingによる構造予測 【in silico創薬】

本記事はタンパク質のHomology modelingについて書いた記事です。本記事を理解できると、Protein Data Bankにタンパク質の構造がなくても構造を予測し、in silico screeningすることができます。ぜひトライしてみてください!

【この記事のまとめ】

立体構造が未解明のタンパク質について、アミノ酸配列から高精度な3Dモデルを予測したい研究者・学生に向け、ブラウザ完結型ツール「SWISS-MODEL」の具体的な操作手順を解説した記事です。

  • 「テンプレート」に基づく信頼性の高い予測:実験済みの類似タンパク質(テンプレート)を基に構造を構築する「ホモロジーモデリング」の原理から、最適なテンプレートの選び方(Identity、Coverage、GMQE)までを網羅しています。
  • モデル品質の定量的評価:構築されたモデルの信頼性を、GMQE(Global Model Quality Estimation)やQMEANDisCoといった指標を用いて客観的に判断する方法を具体例(BRAFキナーゼ等)を挙げて示しています。
  • 解析の「次」に繋がるPDB出力:予測結果をPDB形式で保存し、PyMOLなどの可視化ソフトで読み込んで詳細な構造解析やドッキングシミュレーションへ移行するまでのフローを解説しています。

この記事を読み終えることで、AlphaFold2等の高度な計算リソースがない環境でも、ブラウザ一つで論文クオリティの構造予測とモデル評価を完結できるようになります。

動作検証済み環境

Mac M1, Sequoia 15.3

目次


Homology Modelingとは?


Homology modeling(ホモロジーモデリング) は、既存のタンパク質構造(テンプレート)を使って、類似したタンパク質の3D構造を予測する方法 です。

手順は以下の通りになります。今回は4まで行います。

  1. ターゲットタンパク質のアミノ酸配列を用意
  2. 既存の構造データ(PDBなど)から類似したテンプレートを探す
  3. テンプレートを基に3Dモデルを作成
  4. モデルの品質を評価(GMQE, QMEANなど)
  5. 必要に応じて修正や最適化(エネルギー最小化やMDシミュレーション)

SWISS-MODELとは?


SWISS-MODEL は、ホモロジーモデリングを自動で行うオンラインツール です。

アミノ酸配列を入力するだけで、最適なテンプレートを選び、3Dモデルを生成してくれる ため、初心者でも使いやすいのが特徴です。

以下のリンクにあるタンパク質BRAFを参照します。

MOLECULAR DOCKING AND MOLECULAR DYNAMIC STUDIES: SCREENING PHYTOCHEMICALS OF Acalypha indica AGAINST BRAF KINASE RECEPTORS FOR POTENTIAL USE IN MELANOCYTIC TUMOURS

https://rasayanjournal.co.in/admin/php/upload/3611_pdf.pdf

Swiss-Moldelを使ったHomology modeling

まずこちらのリンクからSWISS-MODELにアクセスしてください。

以下の画面になるので、Start Modelingを押してください。

今回用いるタンパク質BRAFはUniprot: P15056なので、こちらをPaste your target sequence(s) or UniprotKB AC there の箇所に記入してください。

Template配列の決定

各項目の説明

  • Templates:使用可能なテンプレート構造(PDB ID)
  • Coverage:配列カバー率(ターゲットタンパク質のどの領域がテンプレートと一致しているか)
  • GMQE (Global Model Quality Estimation):モデルの全体的な品質指標(0~1の範囲で、1に近いほど良い)作成されるホモロジーモデルの品質 を事前に予測する指標のこと
  • QSQE (Quaternary Structure Quality Estimate):四次構造の品質指標(複合体の正確さを示す)
  • Identity:配列の相同性(テンプレートとの一致率、100%に近いほど良い)
  • Method:構造解析手法(X-ray, EM, NMRなど)
  • Oligo State:テンプレートのオリゴマー状態(単量体、二量体など)
  • Ligands:テンプレートに含まれるリガンドや補因子

選択基準

1. モデルの品質指標

GMQE (Global Model Quality Estimation)

  • スコア範囲:0~1(1に近いほど良い)
  • 目安0.5以上が推奨
  • 理由:モデルの品質が高いほど、精度の高い予測が可能。

Identity(配列相同性)

  • 目安50%以上が望ましい(70%以上なら理想的)
  • 理由:相同性が高いほど、ターゲットと類似した構造を持つため、正確なモデリングが期待できる。

Coverage(カバー率)

  • 目安なるべく100%に近いものを選ぶ
  • 理由:ターゲットタンパク質の全長をカバーできるほど、正確なモデリングが可能。

QMEAN (Qualitative Model Energy Analysis)

  • 目安0.5 ~ 0 の範囲が望ましい
  • 理由:PDBに登録されている実験構造に近い安定性を示す。

2. 構造解析手法の優先順位

X線結晶構造(X-ray Crystallography)を優先

  • 解像度が高く(通常1~3Å)、詳細な構造情報が得られる
  • リガンド情報が明確な場合が多く、ドッキング解析に適している

クライオ電子顕微鏡(EM, Cryo-EM)は慎重に選択

  • 低解像度(3~10Å)だとポケットが不明瞭
  • 大きな複合体の一部である場合が多く、単独のタンパク質を解析するには不向きなことがある

NMR(Nuclear Magnetic Resonance)は補助的に

  • 小型のタンパク質や可動ドメインの解析には有用
  • 大きなタンパク質の全体構造解析には不向き

3. 生物学的妥当性

オリゴマー状態(Oligo State)

  • 単量体(monomer)か、複合体(homo/hetero-dimer)かを確認
  • 単独のタンパク質構造を求める場合、単量体を優先
  • 複合体の相互作用を解析する場合は、その状態に適したテンプレートを選択

リガンド情報

  • リガンドが結合した状態のテンプレートを選ぶと、ポケットの形状が安定
  • ドッキングやin silico screeningでは、目的のポケットにリガンドが結合したモデルが望ましい

タンパク質の機能状態

  • 活性型(Active)か不活性型(Inactive)かを考慮
  • 活性状態の解析を行う場合は、適切なコンフォメーションを選択

今回論文では以下のように記述してあったので、6XFPをテンプレートとして、今回は選択します。多少値は違っています。

選択テンプレート: 6XFP(ネイティブリガンド: SM5)

選択基準:

  • Identity: 100%(完全一致率94.29%)
  • GMQE: 0.77(高品質モデル)
  • Sequence Similarity: 0.68
  • QMEAN: -0.34(PDB構造と高い類似性)

Homology modelingの結果

Homology modelingの結果、以下のような図が出てきます。

1. モデルの基本情報

  • Oligo-State(オリゴマー状態): 単量体(Monomer)
  • テンプレート: 6XFP.1.A(BRAFキナーゼドメイン、Belvarafenib結合構造)(リガンド名が論文と異なる)
  • リガンド: V1Y(Belvarafenib)

2. モデル品質指標

GMQE(Global Model Quality Estimation)

  • : 0.26(低め)(論文との値が違う!?、アップデートでモデルが変わった可能性あり)
  • 解釈: GMQEは0~1の範囲で、1に近いほど信頼性が高い。この値は比較的低く、テンプレートとの相同性やモデルの構築精度に課題がある可能性がある。

QMEANDIsCo Global

  • : 0.72 ± 0.05
  • 解釈: QMEANDIsCo はモデルの信頼性を示す指標で、0.7以上は比較的良好なモデルと考えられる。

配列相同性(Sequence Identity)

  • : 94.29%
  • 解釈: テンプレート(6XFP)との配列一致率が高く、適切なテンプレートが選択されている。

カバー率(Coverage)

  • モデルはターゲット配列の大部分をカバーしているが、一部の領域にギャップがある可能性あり。

3. 局所品質評価(Local Quality Estimate)

  • X軸: 残基番号
  • Y軸: 予測された局所的な類似度
  • 赤色の領域(約600番付近): 品質が低い領域を示しており、構造が不安定な可能性がある。

4. QMEAN Zスコア

指標解釈
QMEAN-0.53PDBデータバンクの標準構造と比較して、比較的安定
-1.12サイドチェーンの配置にズレがある可能性
All Atom0.36原子レベルでは適切な配置
Solvation-0.40溶媒との相互作用の精度に若干の問題あり
Torsion-0.22バックボーンの立体配座は比較的良好

若干、ソフトウェアのアップデートの違いもあり、GMQEを含めて、若干の違いがあるが、大体同じ値とQMEANDIsCo GlobalとQMEAN Zスコアは大体同じ図が書けました!

最後に


いかがでしたでしょうか?PDBに構造がなくても、Homology modelingで構造予測ができます!

これを元にin silicoスクリーニングを行なってみてください。

参考文献


SWISS-MODEL Tutorial Part I: Introduction

SWISS-MODELの使い方 【タンパクホモロジーモデリング入門】

SWISS-MODEL: homology modelling of protein structures and complexes


コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です