本記事はタンパク質のHomology modelingについて書いた記事です。本記事を理解できると、Protein Data Bankにタンパク質の構造がなくても構造を予測し、in silico screeningすることができます。ぜひトライしてみてください!
Mac M1, Sequoia 15.3
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
目次
Homology Modelingとは?
Homology modeling(ホモロジーモデリング) は、既存のタンパク質構造(テンプレート)を使って、類似したタンパク質の3D構造を予測する方法 です。
手順は以下の通りになります。今回は4まで行います。
- ターゲットタンパク質のアミノ酸配列を用意
- 既存の構造データ(PDBなど)から類似したテンプレートを探す
- テンプレートを基に3Dモデルを作成
- モデルの品質を評価(GMQE, QMEANなど)
- 必要に応じて修正や最適化(エネルギー最小化やMDシミュレーション)
SWISS-MODELとは?
SWISS-MODEL は、ホモロジーモデリングを自動で行うオンラインツール です。
アミノ酸配列を入力するだけで、最適なテンプレートを選び、3Dモデルを生成してくれる ため、初心者でも使いやすいのが特徴です。
以下のリンクにあるタンパク質BRAFを参照します。
MOLECULAR DOCKING AND MOLECULAR DYNAMIC STUDIES: SCREENING PHYTOCHEMICALS OF Acalypha indica AGAINST BRAF KINASE RECEPTORS FOR POTENTIAL USE IN MELANOCYTIC TUMOURS
https://rasayanjournal.co.in/admin/php/upload/3611_pdf.pdf
Swiss-Moldelを使ったHomology modeling
まずこちらのリンクからSWISS-MODELにアクセスしてください。
以下の画面になるので、Start Modeling
を押してください。

今回用いるタンパク質BRAFはUniprot: P15056なので、こちらをPaste your target sequence(s) or UniprotKB AC there
の箇所に記入してください。


Template配列の決定

各項目の説明
- Templates:使用可能なテンプレート構造(PDB ID)
- Coverage:配列カバー率(ターゲットタンパク質のどの領域がテンプレートと一致しているか)
- GMQE (Global Model Quality Estimation):モデルの全体的な品質指標(0~1の範囲で、1に近いほど良い)作成されるホモロジーモデルの品質 を事前に予測する指標のこと
- QSQE (Quaternary Structure Quality Estimate):四次構造の品質指標(複合体の正確さを示す)
- Identity:配列の相同性(テンプレートとの一致率、100%に近いほど良い)
- Method:構造解析手法(X-ray, EM, NMRなど)
- Oligo State:テンプレートのオリゴマー状態(単量体、二量体など)
- Ligands:テンプレートに含まれるリガンドや補因子
選択基準
1. モデルの品質指標
GMQE (Global Model Quality Estimation)
- スコア範囲:0~1(1に近いほど良い)
- 目安:0.5以上が推奨
- 理由:モデルの品質が高いほど、精度の高い予測が可能。
Identity(配列相同性)
- 目安:50%以上が望ましい(70%以上なら理想的)
- 理由:相同性が高いほど、ターゲットと類似した構造を持つため、正確なモデリングが期待できる。
Coverage(カバー率)
- 目安:なるべく100%に近いものを選ぶ
- 理由:ターゲットタンパク質の全長をカバーできるほど、正確なモデリングが可能。
QMEAN (Qualitative Model Energy Analysis)
- 目安:0.5 ~ 0 の範囲が望ましい
- 理由:PDBに登録されている実験構造に近い安定性を示す。
2. 構造解析手法の優先順位
X線結晶構造(X-ray Crystallography)を優先
- 解像度が高く(通常1~3Å)、詳細な構造情報が得られる
- リガンド情報が明確な場合が多く、ドッキング解析に適している
クライオ電子顕微鏡(EM, Cryo-EM)は慎重に選択
- 低解像度(3~10Å)だとポケットが不明瞭
- 大きな複合体の一部である場合が多く、単独のタンパク質を解析するには不向きなことがある
NMR(Nuclear Magnetic Resonance)は補助的に
- 小型のタンパク質や可動ドメインの解析には有用
- 大きなタンパク質の全体構造解析には不向き
3. 生物学的妥当性
オリゴマー状態(Oligo State)
- 単量体(monomer)か、複合体(homo/hetero-dimer)かを確認
- 単独のタンパク質構造を求める場合、単量体を優先
- 複合体の相互作用を解析する場合は、その状態に適したテンプレートを選択
リガンド情報
- リガンドが結合した状態のテンプレートを選ぶと、ポケットの形状が安定
- ドッキングやin silico screeningでは、目的のポケットにリガンドが結合したモデルが望ましい
タンパク質の機能状態
- 活性型(Active)か不活性型(Inactive)かを考慮
- 活性状態の解析を行う場合は、適切なコンフォメーションを選択
今回論文では以下のように記述してあったので、6XFPをテンプレートとして、今回は選択します。多少値は違っています。
選択テンプレート: 6XFP(ネイティブリガンド: SM5)
選択基準:
- Identity: 100%(完全一致率94.29%)
- GMQE: 0.77(高品質モデル)
- Sequence Similarity: 0.68
- QMEAN: -0.34(PDB構造と高い類似性)

Homology modelingの結果
Homology modelingの結果、以下のような図が出てきます。

1. モデルの基本情報
- Oligo-State(オリゴマー状態): 単量体(Monomer)
- テンプレート: 6XFP.1.A(BRAFキナーゼドメイン、Belvarafenib結合構造)(リガンド名が論文と異なる)
- リガンド: V1Y(Belvarafenib)
2. モデル品質指標
GMQE(Global Model Quality Estimation)
- 値: 0.26(低め)(論文との値が違う!?、アップデートでモデルが変わった可能性あり)
- 解釈: GMQEは0~1の範囲で、1に近いほど信頼性が高い。この値は比較的低く、テンプレートとの相同性やモデルの構築精度に課題がある可能性がある。
QMEANDIsCo Global
- 値: 0.72 ± 0.05
- 解釈: QMEANDIsCo はモデルの信頼性を示す指標で、0.7以上は比較的良好なモデルと考えられる。
配列相同性(Sequence Identity)
- 値: 94.29%
- 解釈: テンプレート(6XFP)との配列一致率が高く、適切なテンプレートが選択されている。
カバー率(Coverage)
- モデルはターゲット配列の大部分をカバーしているが、一部の領域にギャップがある可能性あり。
3. 局所品質評価(Local Quality Estimate)
- X軸: 残基番号
- Y軸: 予測された局所的な類似度
- 赤色の領域(約600番付近): 品質が低い領域を示しており、構造が不安定な可能性がある。
4. QMEAN Zスコア
指標 | 値 | 解釈 |
---|---|---|
QMEAN | -0.53 | PDBデータバンクの標準構造と比較して、比較的安定 |
Cβ | -1.12 | サイドチェーンの配置にズレがある可能性 |
All Atom | 0.36 | 原子レベルでは適切な配置 |
Solvation | -0.40 | 溶媒との相互作用の精度に若干の問題あり |
Torsion | -0.22 | バックボーンの立体配座は比較的良好 |
若干、ソフトウェアのアップデートの違いもあり、GMQEを含めて、若干の違いがあるが、大体同じ値とQMEANDIsCo GlobalとQMEAN Zスコアは大体同じ図が書けました!
最後に
いかがでしたでしょうか?PDBに構造がなくても、Homology modelingで構造予測ができます!
これを元にin silicoスクリーニングを行なってみてください。
参考文献
SWISS-MODEL Tutorial Part I: Introduction
SWISS-MODELの使い方 【タンパクホモロジーモデリング入門】
SWISS-MODEL: homology modelling of protein structures and complexes