【バイオインフォマティクス】公共のRNA−seqデータを一括で探す方法【AOE】

【バイオインフォマティクス】公共のRNA−seqデータを一括で探す方法【AOE】

皆さん公共のRNA-seqデータを探すときに、どのようにして探してますか?公共のRNA−seqデータを探したいけど、いろんなデータベース(DB)があってどこを探せばよいのかわからない…などの経験は少なからずありますよね。今回はAOEと呼ばれるRNA−seqデータをまとめているDBのまとめをしているサイトをご紹介したいと思います。

AOEの使い方はそうですが、AOEが公開しているAPIを使えばもっと効率よくRNA-seqデータの収集が可能です。APIと聞くと使用が難しそうに感じますが、そんなことはなくAPIを動かすコードまで公開いたしますので安心してください。

AOEを使いこなせるようになって効率よくRNA-seqのアーカイブデータの探索をしましょう!

動作検証済み環境

macOS Monterey(12.4), クアッドコアIntel Core i7, メモリ32GB

AOEとは?

AOEとは複数のゲノミクス解析を行ったあとのシーケンスデータをアーカイブしているサイトを横断的に検索した結果を返してくれるサイトです。そのため、複数のアーカイブサイトを探索して検索するといった手間を省くことができます。

実際のAOEの画面はこの様になっています。生物種や手法(RNA-seqなのかマイクロアレイなのか)といった詳細な条件を加えて検索が可能です。

AOEを使って好きなキーワードでRNA-seqデータを探す方法

AOEを使って好きなキーワードでRNA-seqデータを探す方法はとても簡単です。
AOEのサイトにアクセスし、上の検索ボックスに好きなキーワードを入力します。

検索結果が表示されますので、右側の「選択した項目でリストを表示」をクリックします。

表形式で結果を見ることができます。

ちなみに、ArrayExpress(E−MTAB−〇〇)やProject(PRJNA番号)やGEO番号を直接クリックすると、実際にシーケンスデータが収録されている各サイトに飛ぶ事ができます。

AOEのAPIを使ってRNA-seqデータをもっと効率的に探す方法

AOEのサイトを使ってみると気づくのですが、検索結果をダウンロードして来ることもできません。
そのため、論文のsupplemental figureを用意する場合などに対応できません。

このような悩みを解決し、キーワード検索と詳細分析(Technologyや生物種を絞る)を組み合わせるには、AOEが公開しているAPIを利用します。
例えば以下のコマンドをコマンドラインで叩いてみてください。

curl 'http://aoe.dbcls.jp/api/search?fulltext=pneumonia&Technology=sequencing&Organisms=homo%20sapiens&page=1&size=10000'

以下のような結果が出れば成功です。

これは、AOEのサイトによって可視化されていない生のパラメータが表示されています。いくつか条件を設定すれば、サイトから自由にパラメータを受け取る事ができます。

AOEのAPIをつかって検索結果をCSVファイルにする

AOEのAPIをつかって検索結果をCSVファイルにするソフトウェアをGithub上で公開されているようです。https://github.com/dogTK/GSEnumber_collecting
※本ソフトウェアはRubyを使用します。Rubyがインストールされているか以下のコマンドで確認してください。

ruby -v

以下のようにRubyバージョンが表示されればインストールされています(バージョンは何でも構いません)。Macでは標準でインストールされていますが、もしRubyがインストールされていない場合は、こちらからダウンロードしてください。

Code → Download ZIPを押してZIPファイルをダウンロードし、解凍してください。

解凍されたファイルへコマンドラインから入れば準備完了です。
使い方は以下のコマンドになります。好きなキーワードと生物種を指定ください。
※必ず””で囲ってください。

ruby collect_GSE_number.rb "Keyword" "Organism"

GSE.csvにGSEnumberと説明が出力されます。

最後に

いかがだったでしょうか。RNA-seqのシーケンスデータを探すために、色んなサイトを縦断して大変、、という手間がAOEを使えば簡単に解決します。APIの方も使いこなして解析したいデータを探してみてください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です