本記事では、プログラミングの知識がなくても利用できるGUIベースの生存時間解析のツールを紹介しています。
GDC Data PortalやUCSC Xena、KM-PlotterといったWebアプリケーションを用いることで、TCGAなどの大規模公開データを対象に、簡単な操作だけでKaplan-Meier曲線の描画やログランク検定を行うことができます。
これらのツールは、研究の初期段階での仮説探索や、特定の遺伝子と生存率との関連を素早く確認したい場合に非常に有用です。本記事ではそれぞれの特徴や使い方をスクリーンショット付きで解説し、非専門家や初学者でもすぐに実践できるよう構成しています。
macOS Sequoia (15.5), Safari (18.5)
公共データを用いたSingle Cell RNA-seq解析に関する初心者向け技術書を販売中
プログラミング初心者でも始められるわかりやすい解説!
RとSeuratで始めるSingle Cell RNA-seq解析!
公共データを用いたシングルセル ダイナミクス解析に関する初心者向け技術書を販売中
シングルセルデータの高度な解析であるTrajectory解析、RNA Velocity解析、空間トランスクリプトーム解析が環境構築方法から詳しく解説されています!
生存時間解析(Survival Analysis)とは?
生存時間解析とは、あるイベント(たとえば死亡や再発など)が起こるまでの時間と、その時間に影響を与える要因を解析する統計手法です。
生存時間解析は医学研究、特にがん領域において不可欠なものであり、臨床データとオミックスデータを組み合わせることで、より正確な予後予測や治療法の評価が可能となります。
TCGA
生存時間解析の代表的な応用先の1つが、米国で公開されている大規模がんゲノムプロジェクト The Cancer Genome Atlas(TCGA)のデータです。
TCGAは、 米国国立がん研究所(NCI)と国立ヒトゲノム研究所(NHGRI) が主導した大規模ながんゲノムプロジェクトで、33種類のがん種・約1万1千人の患者について、以下のような多層的なオミックスデータを体系的に収集・公開しています。
- 遺伝子発現(RNA-Seq)
- DNAメチル化
- miRNA発現
- コピー数変異(CNV)
- 体細胞変異(Somatic mutation)
- 臨床情報(生存期間、ステージ、治療歴 など)
目的は、がんの分子サブタイプの解明と予後・治療への応用であり、取得されたデータは全て公開されており、誰でも自由に解析に使うことができます。
現在はGenomic Data Commons(GDC) というポータルで管理されており、BioconductorやUCSC Xenaなどを通じてRでも取得・解析が可能です。
TCGAは、極めて貴重なリソースですが、そのデータ量は膨大かつ形式も多様であり、日本語で整理された情報は非常に限られています。
解析を始めようにも、どのデータをどう使えばよいか戸惑う方も多いのではないでしょうか。
Kaplan-Meier法による生存曲線の描画、ログランク検定による群間比較、Cox比例ハザードモデルによるリスク予測など、論文で一般的に使われている解析手法を、公共データを使って自力で再現できるようになることを目指します。
生存時間解析(概要)
生存時間解析(Survival Analysis) とは、患者の生存期間や再発までの期間など、あるイベントまでの時間を解析する手法です。
一般的な統計解析とは異なり、打ち切り(検閲とも呼びます)という途中で観察が終了してしまうデータを扱える点が特徴です。
たとえば研究期間内に亡くならなかった患者や、途中で追跡不能になった患者は「生存期間が不明なまま観察終了」となります。
これを右側打ち切り(right-censoring)といい、生存時間解析ではこのような打ち切りデータを適切に扱うことができます
Kaplan-Meier法
生存時間解析でよく用いられる指標に生存関数があります。これは「ある時点まで生存している確率」を表す関数で、時間経過に伴う生存率の変化を示します。
生存関数を推定・可視化する代表的な方法がKaplan-Meier法(カプラン・マイヤー法)です。
Kaplan-Meier法では、生存時間データから生存率を逐次計算し、階段状の生存曲線を描画します。
打ち切りが発生したデータ点は、生存曲線上で 縦線(ヒゲ) で示されます。
また、ある群の中央値生存時間(生存曲線が50%となる時点)を読み取ることもできます。Kaplan-Meier法の長所は、打ち切りがあるデータでも生存曲線を推定できることです。
ログランク検定
2つ以上の群の生存曲線に差があるかどうかを統計的に検定するには ログランク検定(Log-rank test) を用います。
ログランク検定は各群の生存時間分布に差がないという帰無仮説の下、観察されたイベント数と期待されるイベント数の差から統計量を算出します。
この検定により、例えば治療A群と治療B群のどちらが有意に生存期間が長いかを評価できます。
また、群ごとに50%の人が生存している時点(中央値生存時間)を比較する場合もあります。 ログランク検定はグループ間の生存時間に差があるかどうかを調べる標準的な方法ですが、群以外の要因(共変量)は考慮できないという制約があります。
GUIツール
「データ解析のコードを書くのはハードルが高い…」という方でも、生存時間解析のエッセンスを体験できる便利なWebアプリケーションがあるので、ここでは幾つか紹介して行きます。
GDC Data Portal
TCGAのGDC Data Portalでは、Webブラウザ上で利用できる解析機能が多数提供されています。
画面上部の「Cohort Builder」をクリックし、Project欄に「BRCA」と入力して「TCGA-BRCA」(乳がん患者のコホートデータ)が表示されたら、それを選択して「+」ボタンをクリックします。これにより、コホートがユーザーのワークスペースに登録されます。
続いて、画面左側の「Analysis Center」の「Clinical Data Analysis」にある再生ボタン(▷)をクリックします。
すると、選択したコホートに対する生存関数(Kaplan-Meier曲線)が「Overall Survival」として描画されます。
試しに、右側の「Gender」パネルで「female」と「male」の両方を有効にし、「Survival Plot」ボタンを押すことで、性別ごとの生存曲線の比較やログランク検定の結果も表示できます。
ただし、ここで注意すべき点として、女性1064人、男性12人と、各群のサンプルサイズに大きな偏りがあります。これは当然の結果であり、実際に乳がん患者の99%以上は女性で、男性乳がんは極めて稀です(参考)。
このようにサンプル数の不均衡が大きい場合、ログランク検定の統計的信頼性は低く、解釈にも限界があります。また、乳がんの診断や治療は性別ではなく、分子サブタイプやホルモン受容体の発現状態など、より生物学的な要素に基づいて行われます。 そのため、以降では性別ではなく、より臨床的・生物学的に意味のある層別化基準を用いて解析を進めます。
UCSC Xena
UCSC Xenaは、ブラウザベースで動作する強力なゲノミクスデータ可視化・解析ツールであり、TCGAを含む様々な公開データセットにアクセスできます。
まず「Launch Xena」をクリックすると、解析用の画面に移動します。Study Discoveryで「I know the study I want to use」を選択し、Study欄で「BRCA」を指定します。
右パネルで、関心のある遺伝子名を入力します。 ここでは例として、HER2の別名であるERBB2を指定します。
次にオミックスの種類を選びます。
- Gene Expression(遺伝子発現)
- Copy Number(コピー数変化)
- Somatic Mutation(体細胞変異)
ここではすべて選択してみます。
すると、3種類のオミックスデータが縦に並べられ、比較可能なビューが表示されます。 デフォルトでは、遺伝子発現の値を基準にサンプルがソートされています。
画面下部には「null(欠損)データ」が表示されていることがありますが、画面上部のフィルターで「Remove samples with nulls」を有効にすれば除外可能です。
各オミックスパネル右上のメニューから「Kaplan Meier Plot」を選択すると、生存時間解析の画面に切り替わります。
たとえば、ERBB2に体細胞変異がある群(紫)とない群(グレー)を比較した生存曲線がこのように描画され、差の有無を確認できます。
この結果から、ERBB2遺伝子に変異を持つ患者は、予後が悪い傾向にあることがわかります。 ERBB2(別名HER2)は、細胞の増殖や分化を制御する受容体型チロシンキナーゼをコードしており、変異や増幅によってシグナル伝達が恒常的に活性化されると、腫瘍の進行や悪性化につながることが知られています。そのため、HER2は乳がんの分子分類において重要なバイオマーカーであり、HER2陽性乳がんは予後不良ながらも、トラスツズマブ(Herceptin)などの分子標的治療が適応されるサブタイプとして注目されています(参考1 参考2 参考3 参考4)。
GDC Portalでは遺伝子発現での層別化はできませんが、UCSC Xenaでは発現量に基づく生存曲線の描画が可能です。 また、層別化の方法も以下のように選択できます。
- 2 groups:中央値で2分割
- 3 groups:上位・中間・下位の3分割
- Quantile:上位25% vs 下位25%(中間50%は除外)
- TogoTV「UCSC Xenaを使って公開がんゲノムデータを解析する」
Kaplan-Meier Plotter(KM-Plotter)
KM-Plotterは、非常に直感的に使える生存時間解析Webアプリケーションです。 UIがシンプルで初学者にも扱いやすく、多くの研究者が利用しています。
まず、がん種を選択します。ここでは例として「Breast Cancer(RNA-Seq)」を選びます。
次に、注目したい遺伝子(例:ESR1)を検索し、入力します。
「Draw Kaplan-Meier Plot」ボタンをクリックすると、解析が実行され、生存曲線と統計的評価(ログランク検定など)が即座に表示されます。
ESR1の高発現は、乳がんの中でも治療可能性が高く、進行が緩やかなタイプに分類されることを示しており、その結果として予後が良好であると解釈されます。この生物学的背景を踏まえると、KM曲線上で「ESR1高発現群の方が生存率が高い」という結果は、単なる統計的な偶然ではなく、乳がんの分子分類と治療反応性に深く関係した反映であると言えます(参考1 参考2 参考3)。
その他の代表的なGUIツール
上記の3つ以外にも、以下のWebアプリケーションが生存解析に利用できます。
各ツールには、
- 対応しているオミックスの種類
- カットオフの柔軟性
- 多変量解析の可否
などに違いがあるため、用途や目的に応じて使い分けることが重要です。
最後に
本記事では、GDC Data PortalやUCSC Xena、KM-PlotterなどのGUIツールを利用し、TCGA-BRCAの公開データを用いた生存時間解析を体験しました。
これらのWebアプリケーションを活用することで、遺伝子の変異や発現に基づいて患者群を層別し、KM曲線やログランク検定を簡単に実行できることが分かりました。
GUIは、プログラミングの知識がなくても手軽に使えるという点で非常に有用です。
しかし、より柔軟で再現性の高い解析や、複雑なモデルの構築・評価を行うには、コードベースのアプローチが不可欠です。
次回以降は、R言語を用いて、TCGAデータをより自由に扱いながら生存時間解析を行う方法を紹介します。
GUIでは扱いづらかった複数変数を同時に評価するCox回帰や、自動処理、再現可能なワークフローの構築など、実践的な内容を扱う予定です。
ぜひ引き続きご覧ください。
公共データを用いたSingle Cell RNA-seq解析に関する初心者向け技術書を販売中
プログラミング初心者でも始められるわかりやすい解説!
RとSeuratで始めるSingle Cell RNA-seq解析!
公共データを用いたシングルセル ダイナミクス解析に関する初心者向け技術書を販売中
シングルセルデータの高度な解析であるTrajectory解析、RNA Velocity解析、空間トランスクリプトーム解析が環境構築方法から詳しく解説されています!