本記事はタンパク質の情報(アミノ酸配列や立体構造)からその物性を予測するソフトウェアProtein-Solの使い方を紹介します。今回紹介するProtein-Solはwebブラウザ上からノーコードかつ個人情報の登録の必要が無く解析でき、本記事では実施例をお見せしながら、ご紹介します。
本記事は現役博士課程の後藤大和さん協力のもと執筆されました。ご協力誠にありがとうございます!
Mac M2, Sequoia 15.3.1
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
Protein-Solとは?
Protein-Solとは、The University of ManchesterのJim Warwickerらの研究グループが開発したソフトウェアです。2025年4月現時点で計6種類のアプリケーションから構成されており、タンパク質のアミノ酸配列や立体構造情報を入力することでタンパク質の様々な物性情報を取得することができます。今回は以下に示す汎用性の高い3種類のアプリケーションをご紹介します。
- [ Sequence Prediction ] : タンパク質の可溶性
- [ Patches ]: タンパク質の表面電荷・疎水性表面
- [ Heatmap ] : 溶媒中(イオン強度・pH)での熱力学的安定性・電荷の変化
Sequence Predictionとは?
Sequence Predictionは、興味のあるタンパク質のアミノ酸配列をFASTA形式で入力すると可溶性と等電点の予測値が出力されます。今回は大腸菌で生産が可能なVHH抗体をモデルにして試してみましょう。
タンパク質情報の入手
PDBj (Protein data bank JAPAN)にアクセスしてください。
以下の画面が表示されるため、検索窓に興味のあるタンパク質名やPDB IDが予めわかっている場合はID番号(PDB ID : 6JB9)を入力してみましょう。既に情報を取得済みの方は本項を読みとばしてください。

入力してEnterを押すと、以下の画面が表示されます。赤枠で囲んだ部分にアミノ酸配列(Sequence (fasta))や結晶構造(PDBx/mmCIF)データなどがあります。今回はSequence (fasta)とPDBx/mmCIFデータを自分のPCにダウンロードしましょう。

Sequence Predictionへのアクセスと情報の入力
Protein-Solにアクセスしてください。
以下の画面が表示されるため、上記で取得したSequence (fasta)データをコピーしてSubmit protein sequenceの枠内にペーストしましょう。

このまま【送信】を押下したいところですが、1点注意があります。「>6jb9_A: Nanobody D3-L11」部分は何を記載しても良いのですが、”アルファベット”、”数字”、”_”、”-”以外は入力が認められていないため、少なくとも”:”は除いて【送信】をクリックしてください。
結果の確認
可溶性の予測値はThe scaled solubility value (QuerySol)と表記されます。大腸菌由来の可溶性タンパク質の実験から取得した2395個のデータセットを基にQuerySolを算出し、この値が0.45より大きいと可溶性が高く、0.45よりも小さいと可溶性が低いと判定されます。
閾値の0.45は上記データセット全体の平均値(The population average for experimental dataset : PopAvrSol)です。今回は以下のような結果となりました。

QuerySolは0.610となり、PopAvrSolの0.45より大きいため、可溶性が高いと判定できそうです。この数値はアミノ酸配列から35種類の特徴量を抽出し、予測値を算出する流れとなっています。モデルの学習は前述した2395個のデータセットで実施し、線形モデルで予測して各特徴量を重み付けして構築しているようです。特に重要な10個の特徴量を以下にまとめました。
特徴量 | 説明 | 傾向 |
---|---|---|
H, L, V | アミノ酸配列全体に対するヒスチジン、ロイシン、バリン残基の割合 | 可溶性を高める |
K-R, D+E, absolute charge | リジン-アルギニン残基の差 | |
アスパラギン酸+グルタミン酸の和 | ||
pH7での電荷量 | 可溶性を高める | |
F+W+Y, fold propensity, entropy | 芳香族アミノ酸の和 | |
折りたたみやすさ(構造安定性) | ||
配列の複雑さ | 凝集性を高める | |
length | 配列の長さ | 長くなると凝集性を高める |
疎水性アミノ酸であるロイシンやバリンが可溶性を高めるのは意外だなと思う一方、荷電性アミノ酸残基割合が多いと可溶性が高いのは納得感がありますね。今回はVHH抗体単体で試したのですが、例えばこちらの論文のようにin silicoでスクリーニングした候補タンパク質の可溶性をこのモデルで比較検討してみると面白いかもしれませんね。
Patchesとは?
Patchesは、興味のあるタンパク質の立体構造(PDB形式)を入力すると溶媒と接触するタンパク質表面の荷電性や疎水性傾向を可視化してくれます。今回もVHH抗体をモデルにして試してみましょう。PDBなどから立体構造データを取得したら、読み進めてください。
立体構造データの形式変換
お手持ちの立体構造データがmmCIF形式の方はPDB形式に変換する必要があります。データ形式の変換はPDBjから行うことができます。トップ画面の赤枠内の【フォーマット変換】をクリックしてください。もしPymolやUCSF Chimeraなどのビュアーソフトウェアをお持ちの方はそれらを利用して変換しても大丈夫です。

以下の画面に遷移するため、赤枠内の【ファイルを選択】からお手持ちのmmCIF形式のデータを選択してから【送信】をクリックしてPDB形式に変換しましょう。

これで準備が完了しました。
※この時、ファイル名が「6bj9.cif.pdb」とデフォルトで表示されますが、「6bj9.pdb」などの表記にして「.cif」を外してください。「.cif」がついているとその後の【Upload】でエラーが出てしまいます。
Patchesへのアクセスと情報の入力
Protein-SolのPatchesにアクセスしてください。

赤枠内の【ファイルを選択】をクリックして、お手持ちのPDB形式ファイルを選択後、【Upload】をクリックしてください。
結果の確認
以下のような画面に遷移したら、解析完了になります。

画面の上段がpH6.3の静電ポテンシャルを示し、下段が非極性/極性残基比を可視化しています。
静電ポテンシャルでは負への荷電性が高いほど赤色が濃くなり、正への荷電性が高いほど青色が濃くなるように設定されています。各アミノ酸残基にカーソルを合わせると何番目のアミノ酸残基なのか表示が出てきます。この抗体は正と負の荷電性アミノ酸残基が同じような割合でタンパク質表面に露出していること、また局所的に正負にそれぞれ強く荷電している領域があることがわかります。
非極性/極性残基比では数値が大きいと緑色が濃くなり、疎水性が高いことを示し、数値が小さいと紫色が濃くなり親水性が高いことを示すように設定されています。全体的に紫色の領域が多く、親水性が高そうです。
ところどころ疎水性領域があり、このような領域は親水性アミノ酸残基への置換候補になるかもしれません。抗原との親和性や構造安定性は十分に考慮する必要がありますが、置換することで可溶性や分子全体の分散性が上がり、製剤化できる可能性が向上するかもしれませんね。いくつかのアミノ酸置換体を考案して、Sequence PredictionやPatchesで置換前のタンパク質と比較するのも面白いと思います。
画面の右側にある各ボタンの機能を下表に示します。
ボタンの種類 | 機能の説明 |
---|---|
Representation | Surface/Cartoon/Licorice/Spacefillから分子の表示形式を選択する。Spacefillがデフォルト設定。 |
View Fullscreen | フルスクリーン表示へ切り替える。 |
Match Ratio View | 非極性/極性残基比の画面の分子と同じ向きに揃える。 |
Match Potential View | 静電ポテンシャルの画面の分子と同じ向きに揃える。 |
Download screenshot | スクリーンショット画面をダウンロードできる。 |
Potential field PDB | 各アミノ酸残基の静電ポテンシャル値をPDB形式でダウンロードできる。Excel、テキストエディト、メモ帳などで1残基ごとのポテンシャル値を確認できる。 |
NPP ratio PDB | 各アミノ酸残基の非極性/極性残基値をPDB形式でダウンロードできる。Excel、テキストエディト、メモ帳などで1残基ごとの非極性/極性残基値を確認できる。 |
Heatmapとは?
Patchesでは立体構造データを入力することでタンパク質表面の荷電性や可溶性を可視化するアプリケーションでした。しかし実際は溶媒の条件(例えば、pHやイオン強度など)により分子の荷電性は変化します。創薬の観点からは、医薬品の最終製剤はどうあるべきか(どのような環境で保存することがベストなのか)検討することは医薬品の使用期限を決定するために非常に重要な情報になります。HeatmapはPatchesと同様に立体構造データを入力することで、pH(2.0〜8.0)とイオン強度(0.0〜0.3 M)範囲でのタンパク質の構造安定性と荷電性を推定するアプリケーションになります。
イオン強度とは、溶液中のイオンの影響度を表す物理量のことで、溶液中のすべてのイオンに対し、モル濃度と電荷の2乗を掛け合わせたものの和の半分となる数値となります。

I = イオン強度、mi = i番目のイオン濃度(モル濃度)、zi = i番目のイオンの電荷数
今回もVHH抗体で試します。
Heatmapへのアクセスと情報の入力
Protein-SolのHeatmapにアクセスしてください。

赤枠内の【ファイルを選択】をクリックして、お手持ちのPDB形式ファイルを選択後、【Upload】をクリックしてください。
結果の確認
以下のような画面に遷移したら、解析完了になります(データ容量が大きいと結果が表示されるまで時間がかかる場合があります)。

こちらの図は縦軸がイオン強度、横軸がpHであり、赤色が濃くなればなるほど1アミノ酸残基あたりのエネルギー(J : ジュール)が高くなり、構造安定性が低下し、緑色が濃くなればなるほどエネルギーが低くなり、構造安定性が向上します。この抗体はpHが高く、イオン強度が低くなればなるほど構造安定性が高まる結果となりました。pHが5.5から8.0まではイオン強度は0.15 M以下であれば安定していそうです。

続いてこちらの図は縦軸がイオン強度、横軸がpHであり、青色が濃くなればなるほど1アミノ酸残基あたりの荷電性が正に大きくなり、赤色が濃くなればなるほど荷電性が負に大きくなります。この抗体はpHが低くなればなるほど、またイオン強度が高くなればなるほど荷電性が正に大きくなる結果となりました。Sequence Predictionの結果から等電点が約9.0であることからpHが低いと正に荷電すると考えられるため矛盾はないように思いますが、思ったよりもpHが低くないと荷電性は上がらないようですね。
以上の結果から、pHは5付近、イオン強度は0.1 M付近の緩衝液を設計すると安定性と可溶性が高まると考えられそうです。
最後に
今回はProtein-solの中から3つのアプリケーションを紹介させていただきました。創薬というと花形である薬効をいかに高めるかという観点に注目しがちですが、本ソフトウェアで取り扱っているような可溶性のような薬としての取り扱いやすさや製造のしやすさも現場では結構重要な品質特性です。もしお手持ちのタンパク質が不安定で悩みを抱えられている方がおりましたら、このようなソフトウェアを利用して、実際に物性が改善するのか試してみるのはいかがでしょうか?
参考文献
Web-based display of protein surface and pH-dependent properties for assessing the developability of biotherapeutics. Hebditch M, Warwicker J. Sci Rep. 2019 Feb 13;9(1):1969. doi: 10.1038/s41598-018-36950-8.
Protein-Sol: a web tool for predicting protein solubility from sequence. Hebditch M, Carballo-Amador MA, Charonis S, Curtis R, Warwicker J. Bioinformatics. 2017 Oct 1;33(19):3098-3100. doi: 10.1093/bioinformatics/btx345.