本記事は化合物ライブラリに関するまとめ記事です。この記事が理解できると、In silicoスクリーニングに必要な化合物ライブラリを適切に構築できるようになります。ぜひ参考にしてみてください!
Apple M1 Pro, MacOS 15.3
自宅でできるin silico創薬の技術書を販売中
新薬探索を試したい方必読!
ITエンジニアである著者の視点から、wetな研究者からもdryの創薬研究をわかりやすく身近に感じられるように解説しています
目次
In silico創薬する上で、化合物ライブラリは多種多様であり、その参照するデータベース(DB)により、取れてくる化合物が違っています。この記事では代表的な化合物ライブラリを4つ紹介します。
加えて、論文でよく見るマイナーな化合物ライブラリも紹介します。またin silicoスクリーニングに必要なsdfファイルの入手の仕方までを解説しています。
初めての方はとりあえず本記事で紹介しているライブラリを選択すると良いでしょう。
オープンアクセスで、現在もアップデート、メンテナンスしてあるデータベースを選定しています。参考論文は以下になります。
Review on natural products databases: where to find data in 2020 – Journal of Cheminformatics
本記事で紹介する化合物データベースの比較
とりあえずは以下のDBからin silicoスクリーニングライブラリを構築すると良いでしょう。
項目 | ZINC15 | PubChem | ChEMBL | COCONUT |
---|---|---|---|---|
データベースの種類 | 商業的化合物、ドラッグライク、フラグメント | 一般化学物質、医薬品、天然物 | 生物活性化合物、創薬関連データ | 天然物化合物 |
収録化合物数 | 数千万以上 | 数千万以上 | 約200万 | 約40万 |
化合物の種類 | 市販可能な化合物(購入可能) | すべての化学物質(包括的) | 生物活性化合物、ターゲット情報あり | 天然物由来 |
データ提供元 | UCSF(カリフォルニア大学サンフランシスコ校) | NIH(米国国立衛生研究所) | EMBL-EBI(欧州バイオインフォマティクス研究所) | 多様な研究機関(オープンデータ) |
ターゲット情報 | なし | なし | あり(ターゲット、薬理データ) | なし |
検索機能 | フィルタリング、物理化学的特性、商業的可用性 | 構造検索、サブストラクチャ検索、API | ターゲットごと、生物活性データの検索 | 分類ごと、天然物の起源別 |
ダウンロード可能な形式 | SDF、SMILES、Mol2、PDB | SDF、SMILES、CSV、JSON | SDF、SMILES、CSV | SDF、CSV |
用途 | 市販可能な化合物のスクリーニング | 幅広い化学物質の探索 | 創薬に特化したスクリーニング | 天然物化合物のスクリーニング |
比較のポイント
- 商業的化合物を探したい場合 → ZINC15
- 購入可能な化合物が対象で、in silico創薬のスクリーニングに最適。
- 幅広い化学データを扱いたい場合 → PubChem
- 医薬品だけでなく、あらゆる化学物質をカバー。APIを利用した大規模データ解析にも向いている。
- 創薬のためのデータが欲しい場合 → ChEMBL
- 生物活性データとターゲット情報が豊富で、ドラッグデザインや標的探索に最適。
- 天然物のスクリーニングをしたい場合 → COCONUT
- 天然物に特化し、化合物の起源情報も確認できる。
より詳しくそれぞれを見ていきます。
主要なライブラリ
ZINC15
ZINC15は、商業的に入手可能な化合物を中心に、数千万の化合物を収録した無料のデータベースです。研究者は、特定の物理化学的特性や構造に基づいて化合物を検索・ダウンロードできます。
ライブラリの入手の仕方
1. まずはこちらからアクセス
2. 以下のようにCatalogs→Subsetsをクリック

3. 例えば、fdaをクリックします。

4. DrugBank FDA only をクリック

5. Drugs Run Queryをクリック

6. 化合物一覧が出てくるので、sdfファイルをダウンロードする。

(おまけ)
Tranchesタブを使った化合物をある程度スクリーニングして、そのsdfファイルを入手するやり方もあります。詳しくはこちらへ。

PubChem
米国国立衛生研究所(NIH)が提供するPubChemは、数千万の化合物情報を含むオープンアクセスの化学データベースです。化合物の構造、物理化学的性質、生物活性情報など、多岐にわたるデータを提供しています。
ライブラリの入手の仕方
1. まずはこちらにアクセス
2. Browse Dataを選択

3. いろいろな化合物のフィルタリング方法があるので、お好きなフィルタリング方法を選択

4. 化合物ライブラリを選択

5. SDFファイルを保存

(おまけ)
もしすでにリガンド(=結合する化合物)がわかっている場合、Similar Structures Searchで似たような化合物を探すことができます。SDFファイルの保存の仕方は同じです。

ChEMBL
欧州バイオインフォマティクス研究所(EMBL-EBI)が提供するChEMBLは、生物活性化合物のデータベースで、薬理データやターゲット情報を含む数百万の化合物情報を収録しています。創薬を目的としたデータベースです。論文からマニュアルで収集した高品質なものとなります。リガンドがすでに分かっている場合に便利です。
ライブラリの入手の仕方
1. こちらのサイトに行く
2.すでに判明しているリガンドの名前を入力し、検索

3.左側で適当にフィルタリングを行い、SDFを押して、ダウンロード

COCONUT(COlleCtion of Open Natural prodUcTs)
COCONUTは、天然物化合物の大規模なデータベースで、約400,000件以上の天然物化合物情報を収録しています。化合物の構造、物理化学的性質、生物活性情報など、多彩なデータを提供しています。天然物由来のサブライブラリが分けられているが、SDFファイルをダウンロードできない。(2025/02/02時点)
化合物ライブラリはこちらにアクセスして、以下のSDFファイルをダウンロードすれば良いです。

マイナーだが、よく論文で見かけるDB
ここでは著者が見てきたin silico創薬論文でよく使われているDBを紹介していきます。
CMNPD
CMNPD(Comprehensive Marine Natural Products Database)は、海洋天然物研究に特化したオープンアクセスのデータベースです。31,000以上(本論文では47000と書いてあるが、その値はどこ由来なのか不明)の化学物質を収録し、物理化学的および薬物動態的特性、生物活性データ、分類学、供給元生物の地理的分布、詳細な文献引用などの情報を提供します。
CMNPDにアクセスすると以下のような画面が出てきます。

32K compoundsを押すとCMNPDにあるすべての化合物が見れます。
今回はとりあえずすべての化合物の情報がほしいので、チェックをいれて、SDFファイルをダウンロードしてください。
CMNPD-export
として保存されると思います。(※2025/02/09時点で、Error: Request failed with status code 500
というエラーが生じます。エラーが生じた場合は使えません。どうしても欲しい場合はご連絡ください)

Asinex library
Asinexは、創薬研究向けの化合物ライブラリを提供する企業で、特に多様で革新的なスキャフォールド(基本骨格)を持つ分子を取り揃えています。これらの化合物は、標的タンパク質との相互作用を最適化するように設計されており、ヒット化合物の探索やリード化合物の最適化に役立ちます。ライブラリは「フラグメント」「リードライク」「ドラッグライク」などのカテゴリーに分かれており、AI創薬やハイスループットスクリーニング(HTS)にも適用可能です。また、共役分子や共有結合型阻害剤など、特定の創薬戦略に特化したセットも提供しており、バイオ医薬品研究者にとって貴重なリソースとなっています。
Asinexにアクセスしてください。以下のような画面になると思います。

様々なライブラリがあるので、お好きなやつを選べば良いと思うのですが、下の方にScreening Libraries (All Libraries)
があるので、とりあえずライブラリを構築したいならこちらをクリックしてください。

SDFをクリックすると、全ライブラリがダウンロードできます。

selleckchem bioactive library I and II
SelleckchemのBioactive Library IとIIは、創薬研究やスクリーニング向けに設計された高品質な化合物ライブラリです。Library Iには約2,000種類のFDA承認薬や臨床試験化合物が含まれ、シグナル伝達やがん研究などに活用されます。Library IIはより多様な標的をカバーし、AI創薬やドラッグリポジショニングにも適しています。これらのライブラリは、ハイスループットスクリーニング(HTS)や表現型スクリーニング、ターゲットベース創薬に有用で、特定の経路や疾患に最適化されたサブセットも提供されています。
以下のリンクを参照してください
selleckchem bioactive library I、selleckchem bioactive library II
アクセスすると、以下のようなページに飛び、下の赤枠の箇所からSDFファイルがダウンロードできます。

KNApSAcK-3D
KNApSAcK-3Dは、植物由来の代謝産物の三次元(3D)構造情報を含むデータベースであり、創薬研究やケモインフォマティクスに活用されています。従来のKNApSAcKデータベース(代謝産物と発現生物の関係を整理したデータベース)を拡張し、すべての化合物の3D構造を提供します。
各化合物の3D構造は**Merck Molecular Force Field(MMFF94)**を用いて最適化され、多目的遺伝的アルゴリズムを用いて最安定構造を探索しています。これにより、分子ドッキングによる新規標的結合部位の特定や、3D-QSARによる生物活性予測が可能になります。
こちらからアクセスしてみてください。
たとえば以下のようにAndrographis paniculata
という種を検索します。

47件ヒットするので、お好きな化合物をクリックします。

右上にmolファイルがあるので、これをダウンロードします。

※検索した化合物をいっきにダウンロードできるやり方は今のところなさそうです。。。
ちなみにKNApSAcK-3DはKNApSAcK family databasesに含まれています。
KNApSAcK Familyは、植物由来の代謝産物データを統合的に管理するデータベース群で、創薬や食品科学、バイオインフォマティクス研究に活用されています。代表的なデータベースには、KNApSAcK(代謝産物と生物種の関係)、KNApSAcK-3D(代謝産物の3D構造)、KNApSAcK Metabolomics(メタボローム解析用)、KNApSAcK WorldMap(代謝産物の地理的分布情報)などがあります。これらは、化合物の機能予測、標的探索、構造活性相関(SAR)解析などに利用され、天然物創薬や環境科学研究において重要なリソースとなっています。
こちらも面白そうなライブラリですので、興味がある方は見てみてください。
以下はトップ画面ですが、ポップなデザインで漢方や生薬、ハーブなどDBがたくさんあります。

他ライブラリの検索
他にもたくさんのマイナーなライブラリがあります。
Database Commonsは、中国国家生物情報センター(CNCB-NGDC)が提供する、生物・化学・医学関連データベースの総合リポジトリです。世界中のデータベースを統合し、創薬、ゲノミクス、バイオインフォマティクス、メタボロミクス、ケモインフォマティクスなど、多様な分野のデータリソースを探索・比較できます。こちらの検索画面にcompound
と入力し、検索すると様々な化合物ライブラリが出てきます。
Citation
などでソートするとより一般的なDBが表示できます。ぜひ色々検索して、より適した化合物ライブラリの構築に役立ててください!

最後に
いかがでしたでしょうか?昔から〇〇に効くと言われる植物でも、実際の有効成分が不明なことは多いと思います。そこで、その植物が持つ化合物ライブラリを作成し、スクリーニングを行うことで、有効成分を絞り込むというアプローチもよく取られています。この手法により、計算コストを削減し、効率よく有望な化合物を発見できるようになります。ぜひライブラリにも凝ってみて、in silicoスクリーニングをしてみてください!
また他にもおすすめのDBがあれば教えていただけると幸いです!
参考文献
化合物データベース(PubChem、ChEMBL、ChEBI) を使ってみる @ AJACSオンライン13