本ブログからのシリーズでは、プロテオミクス解析を一から学んでいきます。 プロテオミクス解析とは、ひとことで言うと「サンプルに含まれるタンパク質を網羅的に調べる」技術です。具体的には、LC-MS(液体クロマトグラフィー質量分析) という装置を使ってサンプル中のタンパク質断片を検出し、患者群と健常者群を比較することで、検査マーカーや創薬標的の候補となるバイオマーカーを発見していきます。
近年非常に注目されている技術ですので、ぜひこれを機にマスターして、研究に生かしましょう!
動作検証済み環境
Windows 11 Home, 13th Gen Intel(R) Core(TM) i7-13700,
CPU: Corei7-13700F, メモリ:32GB
GPU: GeForce RTX 4070 VENTUS 2X 12G OC
macOS Catalina(10.15.7), python3.7.10, Jupyter Notebook, OpenCV 3.4.2
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
自宅でできるin silico創薬の技術書を販売中
タンパク質デザイン・モデリングに焦点を当て、初めてこの分野に参入する方向けに、それぞれの手法の説明から、環境構築、実際の使い方まで網羅!
📚 LC-MSを使った解析が初めての方へ
本シリーズに入る前に、AJACSの解説動画をご覧いただくことをおすすめします。LC-MS(液体クロマトグラフィー質量分析)の基礎原理からデータ解析の考え方まで、わかりやすく解説されています。
AJACS LC-MS解説動画(前編)
— LC-MSの基本原理とプロテオミクスにおけるデータ取得の流れを解説
AJACS LC-MS解説動画(後編)
— LC-MSデータの解析手法やバイオインフォマティクスへの応用を解説
AJACS(あじゃっくす)は、バイオサイエンスデータベースセンター(NBDC)が主催するバイオインフォマティクスのトレーニングプログラムです。初学者向けの講義動画が多数公開されており、プロテオミクスに限らず幅広い分野の基礎を学ぶことができます。
はじめに
この記事シリーズでは、DIA-MSプロテオミクスの論文(Toyota et al., Proteomes 2025)のdry解析パイプラインを無料ツールだけで完全再現します。
プロテオミクス(タンパク質の網羅的解析)は近年急速に発展している分野ですが、解析パイプラインの構築は初心者にとって大きなハードルです。この記事では、コピペで動くコードと丁寧な解説で、誰でもDIA-MSデータの解析ができるようになることを目指します。
フォローする論文
Toyota N, Konno R, et al. “Identification of Cancer-Associated Proteins in Colorectal Cancer Using Mass Spectrometry.” Proteomes 2025; 13(3):38. DOI: https://doi.org/10.3390/proteomes13030038
⚠️ 本シリーズに掲載する図について
本シリーズ中の図(ヒートマップ・PCA・Volcanoプロット等)は、すべて 本書のパイプラインで独自に生成した再現図 です。論文の Figure を直接転載したものではありません。使用ツールの違い(DIA-NN → sage)や同定タンパク質数の差により、論文オリジナルの Figure とは細部が異なる場合があります。論文と対比する際は本シリーズの Figure 番号と論文の Figure 番号が1対1対応するとは限らない点にご注意ください。
論文の概要
- 大腸がん患者16人の腫瘍/正常組織をDIA-MSで解析
- 10,329タンパク質を同定
- COSMICデータベースと照合し531のがん関連タンパク質を特定
- ステージ進行に伴うタンパク質変動パターンを発見
解析パイプライン
📖 元論文のパイプライン
元論文の解析パイプラインは以下のようになります。しかしながら、DIA-NN(学術のみ無料)、Perseus(商用利用不可)という制限があります。
DIA-NN: 長年の経験を積んだプロのような「ニューラルネットワーク学習」でペプチドを判定。DIA専用に最適化された独自アルゴリズムで、中程度の検出性能を実現しています。
Perseus: 統計解析専用ソフトで、t検定やANOVAなどの古典統計手法を GUI で簡単操作。
RAWファイル → DIA-NN → Perseus → 統計解析 → 結果 ↓ ↓ 10,329タンパク質 商用利用制限本シリーズでは以下の二つのパイプラインを紹介します。
📊 Sageを使ったPipeline :
こちらのパイプラインは軽量・簡単・初心者向けのパイプラインになります。ペプチド断片は検出されるものに限られるため、そこから予想されるタンパク質は限られますので、全体の検出タンパク質は少ないです。しかしながら、非常に軽量なので、初心者向けに最適です。
Sage: 理論スペクトルと実測スペクトルを丁寧に比較し、確実に一致するもののみを検出しています。
mzMLファイル → sage → Python統計解析 → 結果 ↓ ↓ 2,110タンパク質 完全無料特徴:
- ✅ 完全無料: MIT/BSDライセンス
- ✅ 軽量: CPU環境、15分で完了
- ✅ 簡単: 初学者でも実行可能
🤖 OpenMS深層学習を使ったPipeline :
Sageのみのパイプラインでは、検出できるペプチド断片からしかタンパク質を予測できないので、DIA-NNの似たようなAIを使った検出方法で商用利用可能なものを示します。
- AlphaPeptDeep(AI予測): 過去100万個のペプチドデータを学習したAIが「このペプチドはこんなスペクトルになるはず」と精密予測
- OpenSWATH(検索): AI予測スペクトルと実測スペクトルを照合し、人間では気づけない微細な一致も検出
- PyProphet(統計): 機械学習で多次元の特徴量から「99.8%確実」といった高精度判定
mzMLファイル → OpenMS + AI → 高度統計解析 → 結果 ↓ ↓ 19,981タンパク質 完全無料ではまずRawDataの取得から始めていきましょう!
ProteomeXchangeとは
ProteomeXchange(https://www.proteomexchange.org)は、質量分析ベースのプロテオミクスデータを共有する国際コンソーシアムです。論文で使用されたRAWデータや解析結果がここに登録されています。
本論文のデータは以下に登録されています:
| リポジトリ | ID | 内容 |
|---|---|---|
| ProteomeXchange | PXD058672 | RAWファイル, mzML |
| jPOST | JPST003422 | DIA解析出力, 定量データ |
ブラウザでGUIからダウンロードする
ブラウザからGUI操作でデータをダウンロードする方法です。
Step 2-1: ProteomeXchangeでデータセットを検索する
ProteomeCentral(https://proteomecentral.proteomexchange.org)にアクセスし、トップページの 「Datasets」 をクリックします。

ProteomeCentral トップページ — 「Datasets」をクリック
Datasetsページに移動したら、左側の Filter 欄にデータセットID PXD058672 を入力して検索します。

検索バーに PXD058672 を入力
検索結果に該当するデータセット(PXD058672)が1件表示されます。Toyota et al. (2025) の論文であることを確認し、赤枠で囲まれたデータセット行をクリックして詳細ページに移動します。

検索結果 — PXD058672 のデータセットをクリック
データセットの詳細ページが表示されたら、ページ下部の 「jPOST dataset」 のリンクをクリックして、jPOSTリポジトリに移動します。
https://repository.jpostdb.org/entry/JPST003422
jPOST dataset のリンクをクリック

Step 2-2: jPOSTリポジトリのデータセット概要を確認する
本論文のデータは jPOSTrepo(ProteomeXchangeのパートナーリポジトリ)にホストされています。データセット概要ページ(下図)で以下の情報を確認できます:
- Project title: 論文のタイトル
- Keywords: colorectal cancer, surgical specimens, tumor tissues 等
- Dataset ID: JPST003422
- Publication(s): 論文のDOIとリンク
ポイント: ページ下部の “Files” セクションに、ダウンロード可能なファイル一覧があります。
Step 2-3: 「Download all」でデータをダウンロードする
ページ下部の “Files” セクションにある 「Download all」 ボタン(青色、約38.74 GB)をクリックして、全データを一括ダウンロードします。

jPOSTデータセット概要ページ — Filesセクションの「Download all」ボタン
注意: 全ファイルで約40GBあるため、ダウンロードには時間がかかります。安定したネットワーク環境での実行を推奨します。
補足: 本シリーズではRAWデータをさらに処理したmzMLファイルを用いて解析を行います。そのため、mzMLファイルのみのダウンロードでも問題ありません。jPOSTの “Files” セクションからmzMLファイルだけを選択してダウンロードすれば、容量を大幅に節約できます。
RAWデータの構成
jPOSTからダウンロードしたファイルは以下の通りです:
| ファイル名パターン | 形式 | 内容 |
|---|---|---|
CRC01-N.raw | RAW | 患者1の正常組織のDIA-MSデータ |
CRC01-T.raw | RAW | 患者1の腫瘍組織のDIA-MSデータ |
CRC02-N.raw 〜 CRC16-T.raw | RAW | 患者2〜16の正常/腫瘍組織 |
- 全16患者 × 2条件(Normal/Tumor)= 32ファイル
- 各ファイル約1〜2GB、合計約40GB
- 本シリーズでは、sage-proteomicsを使ってmzMLからタンパク質を同定・定量します
補足: 本シリーズでは全16患者分(CRC01-CRC16)の32ファイルを使用して解析を行います。RAWファイルからmzMLへの変換手順については、#3a RAW→mzML変換を参照してください。
実験プリセット情報
jPOSTの各ファイルには以下の実験条件が記録されています:
| タグ | 項目 | 値 | 意味 |
|---|---|---|---|
| S | Sample | Human sample | ヒト由来サンプル |
| F | Fractionation | SP3 Digestion | SP3法(磁気ビーズ)でタンパク質を消化 |
| E | Enzyme/Mod. | Human-Car | ヒトプロテオーム + カルバミドメチル化(Cys修飾) |
| M | MS mode | Orbitrap Exploris 480-DIA | Orbitrap Exploris 480でDIAモード測定 |
まとめ
ProteomeXchange / jPOST からDIA-MSのRAWデータとmzMLファイルをダウンロードしました。DIAデータの理論的背景とファイル形式の詳細については次章で解説します。
この手順は他の論文のDIA-MSデータにもそのまま適用できます。ProteomeXchangeにデータが公開されている論文であれば、データセットIDを変えるだけで同じ流れでデータを取得できます。
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
自宅でできるin silico創薬の技術書を販売中
タンパク質デザイン・モデリングに焦点を当て、初めてこの分野に参入する方向けに、それぞれの手法の説明から、環境構築、実際の使い方まで網羅!








