本記事はタンパク質の情報(アミノ酸配列や立体構造)からその物性を予測するソフトウェアProtein-Solの使い方の後編記事になります(前編はこちら)。今回は抗体の物性の予測を行うAbpredというアプリケーションについて、本記事での実施例をお見せしながら、使い方をご紹介します。
本記事は現役博士課程の後藤大和さん協力のもと執筆されました。ご協力誠にありがとうございます!
Mac M2, Sequoia 15.3.1
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
Protein-Solとは?
Protein-Solとは、The University of ManchesterのJim Warwickerらの研究グループが開発したソフトウェアです。2025年4月現時点で計6種類のアプリケーションから構成されており、タンパク質のアミノ酸配列や立体構造情報を入力することでタンパク質の様々な物性情報を取得することができます。今回は以下に示すアプリケーションをご紹介します。
- [ Abpred ] : 12種類の実験値予測(ELISA、疎水クロマトグラフィーなど)
Abpredとは?
Abpredでは抗体のVH-VL領域(重鎖-軽鎖の可変領域)のアミノ酸残基をそのまま繋げた配列をFASTA形式で入力することで、12種類の実験値を出力するアプリケーションです。臨床試験(Phase II、Phase III)あるいは規制当局(FDA)承認済のモノクローナル抗体137品目のデータセットを学習させた機械学習モデルであり、開発可能性を予測することができます。12種類の実験を以下に記載します。

実験は12種類ですが、目的別に大きく4つに分類できます。
1つ目は黄色で示しており、抗体同士の吸着性(会合性・凝集性)を評価する実験です。
2つ目は緑色で示しており、クロマトグラフィーによる相互作用や分子サイズを評価する実験です。
3つ目は青色で示しており、抗体の機能(抗原との親和性 = 薬効)を評価する実験です。
4つ目はピンク色で示しており、こちらは製造面での取り扱いやすさを評価する実験です。いずれも医薬品開発において予め把握しておきたい分子特性ですね。
本アプリケーションは機械学習モデルであり、学習に使用したようなモノクローナル抗体で実施した方が、おそらく実験結果を精度良く推定できるかと思います。したがって、今回は予め凝集性が高いことがわかっているモノクローナル抗体(PDB ID : 3G6D)を例にして、そのような傾向を示す結果が得られるのか検証してみましょう。
アミノ酸配列データの取得
PDBjにアクセスしてください。赤枠内の検索窓に3G6Dと入力しましょう。

赤枠内をクリックするとアミノ酸配列を見ることができます。


FASTAファイルの中には抗体の軽鎖、重鎖のFab領域のアミノ酸配列が記載されています。
ここで抗体の構造について少し復習します。

通常のIgG抗体は上図のようなY字型の構造をしています。定常領域(Fc region)と繋がっているCH1とVHが重鎖(Heavy chain)であり、繋がっていないCLとVLが軽鎖(Light chain)になります。抗原と直接結合する領域は図中ではFv fragmentのcomplementary determing region (CDR)であることを思い出してください。
Abpredにアクセスしてください。

アミノ酸配列ですが、Abpredでは抗体のFv fragment (VH-VL)のアミノ酸残基をそのまま繋げた配列をFASTA形式で入力する必要があります。PDBから検索したFASTA形式のアミノ酸配列はFab fragmentですので、この配列の中からFv fragment配列のみを抜き出して入力する必要があります。Fv fragment配列をアノテーションできるソフトウェアはいくつかありますが、今回はANARCIを利用します。
ANARCIをクリックしてください。

一つの配列を入力する場合はダイレクトに入力し、複数の配列を入力する場合は【ファイルを選択】からアップロードしましょう。配列のアノテーション法は5種類ありますが、今回はIMGTを選択してください(結果はどれも同じになりました)。
出力フォーマットはお好みで選択し、Restrict to immunoglobulin domains onlyはアノテーションしたい配列が未知な場合やT cell receptor domainが入っている場合は選択した方が良いでしょう。このとき配列の途中で半角スペースなどが入ると出力結果が変わりますので注意してください。最後に【Anotate】を押下しましょう。

上図の通り、赤色で表記された配列がFv fragmentになりますので、Abpredの配列入力箇所にHeavy chain配列、Light chain配列の順にコピー&ペーストして、【送信】を押下しましょう。
> 3g6d
QVQLVESGGGLVQPGGSLRLSCAASGFTFNSYWINWVRQAPGKGLEWVSGIAYDSSNTLYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARGLGAFHWDMQPDYWGQGTLVTVSSSYELTQPPSVSVAPGQTARISCSGDNIGGTFVSWYQQKPGQAPVLVIYDDNDRPSGIPERFSGSNSGNTATLTISGTQAEDEADYYCGTWDMVTNNVFGGGTKLTVL

結果の確認

補足:
- VIF選択済み(VIF selected):多重共線性の高い変数を除外して選ばれた変数
- 順序分位変換(Ordered quantile):分布を正規分布に近づけるための変換
上表は論文から引用した分析法別のサマリーになります。すべての分析法は137品目の抗体のアミノ酸配列データから35種類の特徴量を抽出し(前編で紹介したSequence Predictionと同じ方法)、各分析法別に様々なモデルでフィッティングして決定係数(R^2)で実験値と予測値のギャップを評価しています。
決定係数(R^2)とは推定された回帰モデルの当てはまりの良さを表し、0から1までの値をとり、1に近いほど回帰モデルが実験値と当てはまっていることを表します。ここではアミノ酸配列から抽出した特徴量を用いて実験値をどれだけ説明できるかを表した数値として理解できます。
精度とし一般的に決定係数R^2が0.5だと、ある程度相関があると言われています。
表を見ると12の分析法のうち、R^2が0.3を超えるものはHIC、SMAC、CIC、ELISA、BVP、PSRの6つになります。R^2は相関係数Rにすると約0.55であり、予測値 = 実験値というには厳しいですが、おおよその傾向を見るには許容できると思います。今回は抗体の凝集性に着目したいので、HIC、SMAC、CICの分析結果に絞って説明させて頂きます。

この図は疎水クロマトグラフィー(HIC)の散布図です。横軸が実験値、縦軸が予測値になります。3G6Dは実験値はないため、予測値と同じ数値を実験値としてプロットしています。3G6Dは上位100番中51番目に保持時間(9.91分)が長いことがわかりました。
この機械学習モデルは混合ステップワイズ回帰法にて赤池情報量が最小になるように説明変数を選択後、elastic netで学習した時のR^2が0.391、Rだと約0.625です。

この図はStand-up monolayer adsorption chromatography(SMAC)の散布図です。正規化された値となっていますが、元の単位は保持時間であるため、各プロットはデータセットの平均保持時間からのズレを表しています。3G6Dは上位100番中48番目に平均保持時間からのズレ(-0.08)が長いため、平均的な相互作用(自己会合)しやすい傾向であると推察されます。
このモデルもelastic netで学習されており、その時のR^2が0.353、Rだと約0.59です。

この図はCross-interaction chromatography(CIC)の散布図です。正規化された値となっていますが、元の単位は保持時間であるため、各プロットはデータセットの平均保持時間からのズレを表しています。3G6Dは平均的な保持時間からのズレ(-0.23)であるため、少なくとも開発ステージまで進んだ抗体と同等程度の非特異的な相互作用をすると推察されます。
このモデルはsupport vector machine (SVM)で学習されており、その時のR^2が0.306、Rだと約0.55です。
検証
今回の結果から、3種類の分析法ともに極めて平均的な予測値となりました。データセット中の抗体は少なくともPhase 2まで進んだ実績のある抗体であることを考慮すると十分に開発可能性があるように解釈できそうです。しかしこの抗体は冒頭でも述べた通り、非常に凝集性が高いことが報告されています。以下に要点を記載します。
- CNTO607 (PDB ID : 3G6D)はIL-13に結合するヒトIgG1モノクローナル抗体
- 喘息やアトピー性皮膚炎などのIL-13関連疾患の治療候補として研究
- PBSで13 mg/mL以上溶解させようとすると沈殿物が発生
- 溶液中での濃度が高くなると粘度や分子サイズが上昇
- 第2ビリアル係数やCICの実験結果から凝集性が高い傾向
- CNTO607は対照的な4量体を形成するが、4量体形成には重鎖CDR3領域のF99とW100aが関与
- さらに軽鎖のD50とD51が重鎖のK210とK215と塩橋を形成
上記の通り、凝集性が高いためそのままでは非常に製剤化しにくい抗体であることがわかると思います。Abpredは文献で示された特性を予測することが残念ながらできていないように思います。文献中ではCDR3領域のW100aAに1アミノ酸変異させただけでも可溶性が大幅に向上し(> 116 mg/mL)、CICも保持時間が短縮されることが報告されていますので、1アミノ酸変異体を入力して変異前の結果と比較してみたら開発可能性は向上するか試してみましょう(下記の太字部分が重鎖のCDR3で赤字で示した文字が置換箇所)。
> 3g6d_W100aA
QVQLVESGGGLVQPGGSLRLSCAASGFTFNSYWINWVRQAPGKGLEWVSGIAYDSSNTLYADSVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARGLGAFHADMQPDYWGQGTLVTVSSSYELTQPPSVSVAPGQTARISCSGDNIGGTFVSWYQQKPGQAPVLVIYDDNDRPSGIPERFSGSNSGNTATLTISGTQAEDEADYYCGTWDMVTNNVFGGGTKLTVL

この図はアミノ酸置換体のCICの散布図です。アミノ酸置換体は-0.32であるため、若干の改善傾向はありますが、実験で示されたような大幅な改善効果はないため、まだまだ実験値を予測するという意味では課題があるのかなと思われます。
ここからは私個人の所感ですが、例えば探索研究や非臨床試験の段階でドロップアウトした抗体のデータセットを学習させるとより良い結果になるのではないかと感じました。今回は少なくともPhase 2まで進んだ抗体だけを学習に用いていることからある程度優秀な抗体のアミノ酸配列パターンしか学習できていないため、物性の悪さの配列パターンまでは学習できていないのかもしれません。
最後に
今回はProtein-solの中からAbpredを紹介させていただきました。アミノ酸配列から12種類の実験値を予測できるアプリケーションであり、ある程度の開発可能性を予測できる可能性はありますが、まだまだ改善の余地があるアプリケーションであることがわかりました。今後データ数の増加やより良いモデルでフィッティングすることでこの点は改善できる可能性は十分にあり得ます。候補抗体をin silico上で解析し、アミノ酸置換体をたくさん用意した上でこれらのモデルで出力した時に物性改善できる可能性があるのか実験前に検証したり、github上でコードも公開されていますので、新たに特徴量エンジニアリングしたり、このモデルにご自身のデータセットを追加したり、様々なモデルでフィッティングすることでより良いモデルを開発することも可能かもしれません。
参考文献
Hebditch M, Warwicker J. Charge and hydrophobicity are key features in sequence-trained machine learning models for predicting the biophysical properties of clinical-stage antibodies. PeerJ. 2019 Dec 18;7:e8199. doi: 10.7717/peerj.8199. eCollection 2019.