【Windows】Windowsでikraを使ってRNA-seq解析【RNA-seq解析】

【Windows】Windowsでikraを使ってRNA-seq解析【RNA-seq解析】

RNA-seqを用いた全ゲノム解析のやり方を知りたいと思いませんか?
RNA−seq解析はドライ系のバイオインフォマティシャンの人だけがやるんでしょ..?と考えている実験系の人は多いかもしれませんが、近年はRNA−seq解析の敷居が下がり、実験系の人でも取り入れることが可能になってきております。

前回はMac向けのikraの使い方を書きましたが、実際の多くの研究者はWindowsを使っていると思いますので、今回はLinuxのディストリビューションであるUbuntuを入れることで、Windowsでもikraを動かす方法を紹介したいと思います。

動作検証済み環境

デバイス名 K-DELL
プロセッサ 12th Gen Intel(R) Core(TM) i5-1240P 1.70 GHz
実装 RAM 8.00 GB
システムの種類 64 ビット オペレーティング システム、x64 ベース プロセッサ

ikraとは? 

ikraはRNA-seq解析を完全自動化したツール

ikraはRNA-seqの生データから、発現量データをTSVファイルとして出力する解析パイプラインです。
RNA-seq解析を行うには複数のツールを組み合わせて段階的に解析していく必要がありますが、ikraではすべてのツールをパイプラインとしてつなぐことで、実行コマンド一つで自動的に各ツールが実行されていく仕組みになっています。
そのため、RNA-seq解析初心者が各ツールの使い方がわからず挫折する、、といった事態を避ける事ができます。

またikraで使用できるRNA-seqデータの生物種はhumanかmouseに限られていますので、ご注意ください。

ikraから出力されるファイル群

ikraから出力されるファイルはクオリティチェックファイル(fast.qc)など複数ありますが、遺伝子発現の定量結果はoutput.tsvに出力されます。今回はこのoutput.tsvを出力するところまでを解説します。

Windowsでikraを動かす上であると良いPCスペック

最低限以下のスペックのPCがあると良いです。

  • 最大CPUコア:8
  • 最大メモリ:16GB
  • デスクトップ型orノート型:ノート型でも大丈夫
  • ストレージ:500GB

この中だとメモリの増設難しいため一番重要となってきます。
バイオインフォ系の処理は仮想化環境を作るDockerと呼ばれるソフトを同時に使うことが多く、Dockerはメモリを大きく使うため、8GB程度だと他に何も操作できなくなってしまう状態になってしまいます(解析回しながらパワポ作成、などは重すぎて無理)最低でも16GBがおすすめです。

ちなみにストレージに関しては、外付けHDDなどで拡張できるので、この中で行ったら優先順位を下げて良いです。

Windowsでikraを扱う方法

ではこっからは実際にWindowsでikraを動かすための準備をしていきます。
流れとしては、Ubuntuインストール→sra-toolkitのインストール→Docker Desktopのインストール→ikraを使う準備→ikraへ読み込ませるデータ準備→実際に実行する、になります。

Ubuntuインストール

Linux 用 Windows サブシステムを有効にしていきます。

  1. PowerShellを「管理者として実行」する
  2. 下記コマンドで、LinuxのディストリビューションであるUbuntuをインストール
wsl --install -d Ubuntu

インストールが完了してUbuntuをクリックしてみると下記のようなエラーになり起動できないかと思います。

これは、Linux カーネル更新プログラム パッケージをダウンロードする必要あります。
Microsoftの以前のバージョンの WSL の手動インストール手順(下記の画像)のところから最新版のパッケージをダウンロードすることで解決します。

最新版のパッケージをダウンロードしたらインストールを進めてください。

これでUbuntuが起動できるようになります。UNIX usernameとpasswordを決めて起動してください。

sra-toolkitsのインストール

次にローカルにsra-toolkitをダウンロードしていきます。デスクトップに移動しますが、自分の場合は以下のパスで移動できました。[ユーザー名]は適宜自身のものに適宜変更してください。

cd /mnt/c/Users/[ユーザー名]/desktop

sra-toolkitsをインストールしていきます。Ubuntu LTS 18.04以前の方は、updateコマンドを実行して、パッケージリポジトリを更新し、最新のパッケージ情報を取得してから、

$ sudo apt update -y

以下のコマンドでインストールすることができます。

$ sudo apt install sra-toolkit

Ubuntu LTS 18.04以降のバージョンの方は、古いファイルをインストールすることで使用できます。

$ sudo apt update -y

updateコマンドを実行して、パッケージリポジトリを更新し、最新のパッケージ情報を取得しておきます。
無事installができたらfasterq-dumpコマンドが通るか試してみましょう。以下のような画面になったら正しくインストールできています。

Docker Desktopのインストール

ikraにはDockerを用いるのでDockerをインストールしてください。(ダウンロードに5分程かかります。)
• Windows版 https://docs.docker.com/desktop/windows/install/

インストールが終わったら、Dockerをクリックして起動しておいてください。

ikraを使う準備

下記URLのGithubより「Code」→「Download ZIP」へ進みzipファイルをダウンロードし、zipファイルを解凍して中身を取り出します。zipファイルはデスクトップで解凍しておいてください。
https://github.com/yyoshiaki/ikra

ikraへ読み込ませるデータ準備

解析したいSRAデータを探すの主に以下3つの場所があります。

  1. DBCLS https://sra.dbcls.jp/
  2. NCBI SRA  https://www.ncbi.nlm.nih.gov/sra/
  3. Array Express https://www.ebi.ac.uk/arrayexpress/

今回はNCBI SRAを用いてデータを探索します。検索バーに探索したいキーワードを入力してください。

検索結果が出てきます。解析したいデータをクリックしてください。

下にスクロールするとSRR~から始まる番号がありますので、こちらをクリックしてください。
SRR番号は解析に用いるので、覚えておいてください。

レイアウトがシングルエンドかペアエンドかを確認します。PAIREDになっていたらペアエンド、SINGLEになっていたらシングルエンドです。

次にikraに読み込ませるcsvファイルを作成していきます。以下の要素が必要です。name, SRR, Layoutという見出しを一行目に記載します。すべてコンマ(,)具切りで書きましょう。

  • name・・好きな名前。何でも良い
  • SRR・・SRR番号
  • Layout・・ペアエンドかシングルエンドかの情報。ペアエンドは「PE」、シングルエンドは「SE」と表示します。
name,SRR,Layout
lung_cancer,SRR19844602,PE

CSVファイル用意ができたら、ikra.shファイルがあるディレクトリと同一のところに、csvファイルをおいてください。

実際にコードを実行してみよう

powershellからikra.shとcsvファイルがあるところに移動し、コマンドを叩いていきます。

$ bash ikra.sh 〇〇.csv human (or mouse)

最初は、Dockerimageのダウンロードで5~10分ほど時間がかかります。
fasterq-dumpが走り出したらほぼ成功です。後は4~10時間ほど待てばoutput.tsvファイルができているかと思います。

最後に

いかがだったでしょうか。これでWindowsの人でも問題なくikraが動かせる様になるかと思います。研究の合間時間にぜひともチャレンジしてみてください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です