本記事は抗体のアミノ酸配列から構造、各部位のアノテーションや分子特性などを予測するソフトウェアSAbPredの中の抗体のモデリングを行うABodyBuilder2の使い方を紹介します。webブラウザ上からノーコードかつ個人情報の登録の必要が無く解析できるため、どなたでも気軽に試すことができます。この記事では実施例をお見せしながら紹介します。
本記事は現役博士課程の後藤大和さん協力のもと執筆されました。ご協力誠にありがとうございます!
Mac M2, Sequoia 15.3.1
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
SAbPredとは?
SAbPredとは、The University of OxfordのCharlotte Deaneらの研究グループ(Oxford Protein Informatics Group)とUCB社、Medimmune社、AstraZeneca社、Roche社が共同開発したソフトウェアです。2025年5月現時点で計11種類のアプリケーションから構成されており、抗体のアミノ酸配列を入力することで様々な情報を取得することができます。今回は構造予測(モデリング)ができる2種類のアプリケーションのうちABodyBuilder2を紹介します。
ABodyBuilder2とは?
まず初めに抗体の基本構造を下図に示します。構造の各部位の名称についてわからなくなった場合は参考にしてください。

ABodyBuilder2は、自分で設計した抗体の軽鎖(Light chain : L)と重鎖(Heavy chain : H)のアミノ酸配列を入力するとFv fragmentのCDRのアノテーションと立体構造が出力されます。今回は例としてtrastuzumabのアミノ酸点変異体(D185A)の結晶構造データ(PDB: 6BHZ)を正解構造としてABodyBuilder2が出力する構造と比較してみましょう。
タンパク質情報の入手
PDBj (Protein data bank JAPAN)にアクセスしてください。
以下の画面が表示されるため、検索窓に興味のあるタンパク質名やPDB IDが予めわかっている場合はID番号(PDB ID : 6BHZ)を入力してみましょう。既に情報を取得済みの方は本項を読みとばしてください。

入力してEnterを押すと、以下の画面が表示されます。赤枠で囲んだ部分にアミノ酸配列(Sequence (fasta))や結晶構造(PDBx/mmCIF)データなどがあります。今回はSequence (fasta)とPDBx/mmCIFデータを自分のPCにダウンロードしましょう。

ABodyBuilder2へのアクセスと情報の入力
ABodyBuilder2にアクセスしてください。
下図のような画面が表示されるため、上記で取得したSequence データをコピーしてHeavy chain sequenceとLight chain sequenceの枠内にペーストしましょう。興味のある配列がどちらか一方の場合は、興味のある配列のみ入力して、もう片方は空欄のままで大丈夫です。Job nameには好きな名前、抗体独自のアミノ酸残基のナンバリングルールのうち4種類から選択できます。今回はよく用いられるKabat則を選択してから【Model】を押下しました(ナンバリングルールは後で変更も可能)。
>6bhz_A: Trastuzumab Anti-HER2 Fab Heavy Chain
EVQLVESGGGLVQPGGSLRLSCAASGFNIKDTYIHWVRQAPGKGLEWVARIYPTNGYTRYADSVKGRFTISADTSKNTAY
LQMNSLRAEDTAVYYCSRWGGDGFYAMDYWGQGTLVTVSSASTKGPSVFPLAPSSKSTSGGTAALGCLVKDYFPEPVTVS
WNSGALTSGVHTFPAVLQSSGLYSLSSVVTVPSSSLGTQTYICNVNHKPSNTKVDKKVEPKSCDK
>6bhz_B: Trastuzumab Anti-HER2 Fab Light Chain D185A
DIQMTQSPSSLSASVGDRVTITCRASQDVNTAVAWYQQKPGKAPKLLIYSASFLYSGVPSRFSGSRSGTDFTLTISSLQP
EDFATYYCQQHYTTPPTFGQGTKVEIKRTVAAPSVFIFPPSDEQLKSGTASVVCLLNNFYPREAKVQWKVDNALQSGNSQ
ESVTEQDSKDSTYSLSSTLTLSKAAYEKHKVYACEVTHQGLSSPVTKSFNRGEC

結果の確認
解析が完了すると下図のような画面に遷移します。
【Download】を押下するとPDB形式のモデリングデータを取得できます。
Modelling scoresの表を見ると、各領域の平均的な誤差がわかります。今回は最大でも0.21Åであるため精度の良い結果と判断できそうです。


続いて、【View Model and Annotations】を押下すると下図の画面に遷移します。
ピンク色が軽鎖、水色が重鎖、黒色がCDRを表しています。

下図は予測誤差の閾値を示しており、誤差の閾値が5Å以下だと緑色、5Å以上10Å以下だとオレンジ色、10Å以上だとピンク色で示されています。閾値は自身で調整も可能です。

結晶構造との重ね合わせによる検証
上記でモデリングした構造が結晶構造とどの程度似ているか検証してみましょう。今回はUCSF chimeraを用いて検証します。

ゴールドが結晶構造、ライトブルーがモデリング構造です。これらの構造を各アミノ酸残基主鎖のα位の炭素(Cα)同士が重なるように設定します。
Tools|Structure Comparision|MatchMaker
上記の順番でクリックすると以下のような画像が表示されます。

今回は上記設定で【OK】を押下すると以下のような画像が表示されます。

まずはH鎖同士が重なるように選択して【OK】を押下しました。

上図の右側のドメインがH鎖、左側がL鎖になります。一部シート部分がループになっていますが、ほぼほぼピッタリと重なっています。H鎖全体のRMSDは0.715 Åでした。

上図は結晶構造とモデリング構造のアミノ酸残基配列をアラインメントしています。100番目のGから105番目のYまでの配列の上に濃いグレーのバーが見えますが、これは各Cα間のRMSD値を示しています。
RMSD(Root Mean Square Deviation)とは二乗平均平方根偏差のことでタンパク質の非類似性や誤りの指標としてよく使用されます。下図の数式で定義され、今回の例では結晶構造とモデリング構造のCα間の距離を二乗して足した数値の平均をとり、平方根をとることで単位を元のÅにして平均的な誤差を表現しています。

RMSD値が最も大きいのが103番目のGであり、この部分は4.919 Åでした。この結果からこの領域が全体のRMSD値を引き上げていることがわかります。

この領域をマウスで選択すると上図のように可視化してくれます(赤で囲っている部分)。予想通り目視で一番ギャップがあると感じた部分が選択されていることがわかります。
ABodyBuilder2はCDR領域をアノテーションしてくれます。この領域がCDRか否か確認してみましょう。

ライトブルーの配列領域がH鎖の3番目のCDR領域(CDR-H3)になります。この領域は抗体の配列中でも最も多様性に富む領域であり、予測が最も難しい領域であることも知られています。ABodyBuilder2でもCDR-H3の予測には課題があることがわかりました。
続いて、L鎖同士が重なるようにH鎖と同じ条件で設定をして結果を見ましょう。
L鎖全体のRMSDは0.588Åでした。

H鎖とは異なり、際立ってRMSDが大きい領域はないことがわかりました。
この結果からL鎖に関しては精度良くモデリングができていると判断できそうです。
最後に
今回はSAbPredの中からABodyBuilder2を紹介させていただきました。結晶構造を実験的に決定することは時間的にも費用的にもハードルが高いですが、ソフトウェア上での解析だと手軽にモデリングできることがわかりました。この機会にお手持ちの設計した抗体配列について、今回紹介したものを含めて複数のソフトウェアで比較検討してみてはいかがでしょうか?
参考文献
Abanades B, Wong WK, Boyles F, Georges G, Bujotzek A, Deane CM. ImmuneBuilder: Deep-Learning models for predicting the structures of immune proteins.Commun Biol. 2023 May 29;6(1):575. doi: 10.1038/s42003-023-04927-7.