[ English | Japanese ]

ようこそ MFSearcherへ!

Kazusa Molecular Formula Searcher (MFSearcher)は、質量値をもとに、組成式を高速に予測したり、既存の化合物データベースに高速に検索できるWeb serviceです。検索用のJava GUIツールも公開しています。

[特徴]

  • 精密質量からの組成式推定を、高速で行います。
  • KEGG, KNApSAcK, LIPID MAPS, Flavonoid Viewer, HMDB, PubChemの化合物データベースに対して、精密質量からの検索を高速に行います。
  • N2Dデータベースにより、複数データベースにある同一化合物をひとまとめにした検索ができます。
  • 検索条件をURLに書き込むRESTfulな検索書式を提供しているので、他システムへの組み込みを容易に行うことができます。

参考文献:
Sakurai N, Ara T, Kanaya S, Nakamura Y, Iijima Y, Enomoto M, Motegi T, Aoki K, Suzuki H and Shibata D (2012) Application of a relationl database system for high-throughput prediction of elemental compositions from accurate mass values. Bioinformatics 29 (2): 290-291
[PMID: 23162084]

ニュース・お知らせ

2016/12/01 MFSearcher バージョン2にアップデートしました。N2Dデータベースを公開しました。検索用のJava GUIツールを公開しました。

2016/03/31 KNApSAcKのデータを2015.03.17時点の情報に更新しました。

2016/02/26 HMDBのデータをver 3.6 (2016.02.21リリース版)に更新しました。LipidMAPSのデータを2015年6月28日バージョンに更新しました。

2013/06/01 KNApSAcKデータを更新しました。検索結果として返るKNApSAcK IDの形式が、下記の通り変更になりましたので、ご注意ください。

変更前: [組成式]_[KNApSAcK ID] または、[組成式]-[KNApSAcK ID]
変更後: KNApSAcK ID

2013/05/14 ヒューマン・メタボローム・データベース(HMDB)のデータをバージョン 3.5にアップデートしました。

基本的な使い方

検索方法

MFSearcherでは全ての検索をURLへのアクセスとして行います。

例)以下のリンクをクリック、もしくはURLをブラウザのアドレス欄に入力し、アクセスしてください。

http:// /mfsearcher/exmassdb/range?lowerMs=500&upperMs=500.01

このように、検索するデータベース検索メソッドを指定し、検索パラメーターその値記号でつないで、URLの書式を作ります。
検索結果はテキストデータとして得られます。

ExactMassDB C16H11O2N10P3S1 21.0 500.0000046695
ExactMassDB C32H1N6P1 37.0 500.0000320763
ExactMassDB C6H37O5P9S1 2.0 500.0000372918
ExactMassDB C19H17O10P1S2 13.0 500.0000767653
   :
   :

ヘルプの見方

メソッドを指定しないで、トップページや各データベースディレクトリのURLがスラッシュ「/」で終わるようにすると、それぞれに関する解説ページを参照することができます。

/mfsearcher/
/mfsearcher/exmassdb/

元素質量テーブルの参照

下記のURLにアクセスすると、本データベースで精密質量の計算に用いている元素質量のリストを参照することができます。

/mfsearcher/atomlist

このリストは、以下の論文に基づいています。

De Laeter JR, Bohlke JK, De Bievre P, Hidaka H, Peiser HS, Rosman KJR, Taylor PDP (2003) Atomic weights of the elements: Review 2000 (IUPAC technical report). Pure Appl Chem 75: 683-800

全てのデータベースの精密質量は、このリストおよび組成式をもとに計算されています。 そのため、KEGGやPubChemなどのオリジナルサイトとは、質量値が異なっていることがありますので、 あらかじめご了承ください。

データベース

各データベースには、以下のURL表記によりアクセス出来ます。データベースに関する詳しい説明は、そちらを参照してください。

データベース 概要 アクセスURL
ExactMassDB 組成式推定用のデータベース。C: 100, H: 200, O: 50, N: 10, P: 10, S: 10で構成され、Senior則およびLewis則により原子の価数に矛盾のないものをあらかじめ計算したデータベースです。 /mfsearcher/exmassdb/
ExactMassDB-HR2 組成式推定用のデータベース。HR2は組成式計算が可能な最も速いツールの一つです。HR2は、Senior則、Lewis則の他、Seven Golder Rules (Kind and Fiehn, 2007)に基づいた候補組成式の絞り込みを 行います。ExactMassDB-HR2は、ExactMassDBを構築したのと同じ原子の種類・数で、HR2と同じ絞り込みを適用した組成式候補をデータベース化したものです。 /mfsearcher/exmassdb-hr2/
Pep1000 分子量1000までの範囲で20種類のアミノ酸から作られ得る直鎖のペプチドを網羅したデータベースです。 /mfsearcher/pep1000/
KEGG KEGGの化合物データです。毎週データ更新。 /mfsearcher/kegg/
KNApSAcK KNApSAcKの化合物データです。 /mfsearcher/knapsack/
Flavonoid Viewer Flavonoid Viewer の化合物データです。 /mfsearcher/flavonoidviewer/
LipidMAPS LIPID MAPSよりご提供いただいた化合物データです。 /mfsearcher/lipidmaps/
HMDB Human Metabolome Database (HMDB) (Version 3.6)の化合物データ /mfsearcher/hmdb/
PubChem PubChemの化合物データです。毎月データ更新。 /mfsearcher/pubchem/
N2D Neutralized and 2-Dimensional compound database。次の特徴があるデータベースです。
・通常のアダクト設定(例:[M+H]+)で、チャージ分子(例:[M]+)としてデータベースに登録されている化合物を正しく検索できます。
・複数の化合物データベースで重複するエントリーを除去し、元素の結合がユニークなものだけにした結果を返してくれる。
これによって、データベース側のチャージの登録状況によるミスヒットをなくし、返ってくる候補数を少なくすることができます。
/mfsearcher/n2d/

データ検索方法

各データベースのURL以下で、以下の表記を行うことで、データの検索等を行うことが出来ます。 全てのデータベースで、使用できる検索方法は同一です。

メソッド 説明
/range 二つの質量値(上限値lowerMsと下限値upperMs)を設定して検索します。 下限値以上かつ上限値以下のデータがヒットします。 upperMsよりもlowerMsの方が大きな数字が設定された場合、両者は入れ替えて検索されます。
パラメーター 必須 説明 デフォルト
lowerMs yes 質量値の下限を設定します。 実数 0.0
upperMs yes 質量値の上限を設定します。 実数 0.0

/mfsearcher/exmassdb/range?lowerMs=500&upperMs=500.01
/mfsearcher/kegg/range?lowerMs=500&upperMs=500.1

/mass ひとつの質量値(mass)と許容する質量幅(margin)を設定して検索します。 ヒットする対象は、質量値 - 質量幅で計算される下限値以上、かつ質量値 + 質量幅で計算される上限値以下です。 marginの単位は、質量値(デフォルト)およびmassを基準としたppmで設定できます。
パラメーター 必須 説明 デフォルト
targetMs yes 検索の中心となる質量値を設定します。 実数 0.0
margin yes 検索する質量値の幅を設定します。(mass - margin)以上(mass + margin)以下がヒットの対象となります。 実数 0.0
marginUnit no marginの単位を設定します。ppmを設定すると、1 ppm = mass * 0.000001 として、これにmarginを乗じたものが質量値幅となります。 テキスト
msまたはppm
ms

/mfsearcher/exmassdb/mass?targetMs=500&margin=0.01
/mfsearcher/pubchem/mass?targetMs=500&margin=1&marginUnit=ppm

/version そのデータベースのバージョンを返します。アップデートされた日付は、 mfsearcherのデータが更新された日付を示しており、KEGG, PubChem等の外部データベースが更新された 日付とは関係がありません。ご注意ください。

/mfsearcher/kegg/version
/mfsearcher/pubchem/version

/ そのデータベースに関する情報を表示します。limitパラメーターのデフォルト値や、 データの作成や管理方法について記載されています。

/mfsearcher/
/mfsearcher/exmassdb/
/mfsearcher/kegg/

共通パラメーター

下記のパラメーターは、各メソッドで共通に使えます。

/range,
/mass
共通
パラメーター 必須 説明 デフォルト
limit no 検索されるデータ数の上限を設定します。検索する質量範囲が広い場合、 非常に多数のデータがヒットすることがあり、サーバーの負荷が高まってパフォーマンスが低下したり、 データ転送に時間がかかったりなどの原因となります。limitを設定すると、ヒット件数が設定値に 達した時点で検索が終了します。検索結果は質量値が小さいものから順に返されるため、 本来ヒットしてほしい必要な化合物のデータが含まれない可能性があります。 ヒット件数が設定値を超えたかどうかは、出力形式(outputパラメーター)で ヘッダー付きのフォーマット(textまたはxml)を選択している場合、ヘッダー情報内の「is-limited」に、 trueの値が設定されます。 正の整数 データベースごとに設定されています

/mfsearcher/exmassdb/range?lowerMs=500&upperMs=500.01&limit=20
/mfsearcher/pubchem/mass?targetMs=500&margin=1&limit=50

/range,
/mass,
/version
共通
パラメーター 必須 説明 デフォルト
output no 出力するデータのフォーマットを指定します。
txt : ヒットしたデータのみを記載したタブ区切りテキスト
txth: 検索条件を含めたヘッダーつきテキスト
xml : xml形式。
※詳しくは下記の出力の項目を参照してください。
/versionメソッドの時、txtとtxthは同じ出力となります。
テキスト
txt,
txth,
xml
から選択
txt

/mfsearcher/exmassdb/range?lowerMs=500&upperMs=500.01&output=txth
/mfsearcher/kegg/mass?targetMs=500&margin=0.1&output=xml
/mfsearcher/pep1000/version&output=xml

N2D専用パラメーター

下記のパラメーターは、N2Dデータベースで使用します。

パラメーター 必須 説明
db yes 検索対象とするデータベースを2文字のアルファベットで指定します。
KG: KEGG, KN: KNApSAcK, FL: FlavonoidViewer, HM: HMDB, LM: LipidMAPS, UN: UNPD, PC: PubChem
KG, KN, FL, HM, LM, UN, PC
複数指定する場合はカンマで区切って指定します(スペースは入れないでください)

/mfsearcher/n2d/range?lowerMs=286.04&upperMs=286.05&db=FL
/mfsearcher/n2d/range?lowerMs=286.04&upperMs=286.05&db=FL,KG,KN,HM,LM

データ出力形式

検索結果はテキストデータとしてサーバーから返されます。MFSearcherでは、次の3つの出力形式を備えており、outputパラメーターで指定できます。

outputパラメーターの値 説明
txt
デフォルト
テキスト形式
検索結果は一行ずつ以下の項目のタブ区切りテキストとして出力されます。
データベース名、 組成式(分子式、 不飽和度、 分子量、 データベース内でのID、 名前
例) /mfsearcher/kegg/range?lowerMs=500&upperMs=501&output=txt

KEGG C23H24O9N4 0.0 500.1543283959 C00927 Isonocardicin A;1-Azetidineacetic acid
KEGG C23H24O9N4 0.0 500.1543283959 C01941 Nocardicin A
KEGG C23H24O9N4 0.0 500.1543283959 C17350 Nocardicin B
  :

txth 上記と同一のテキスト形式に加え、検索条件等に関するヘッダーを出力します。
ヘッダー行は#で始まります。まず、各XML要素とその値が、タブ区切りで一行ずつ記載されます。 へーダーの最後の一行は、検索結果行の列の意味を示し、検索結果(result要素)の各項目名がタブ区切りで出力されます。XML要素の意味については次節をご参照ください。
例) /mfsearcher/kegg/range?lowerMs=500&upperMs=501&output=txth

# database-name KEGG
# search-date 2010-12-17 15:34:34
# search-mode range
# lower-mass 500.0
# upper-mass 501.0
# result-limitation_set-value 100
# result-limitation_is-limited false
# result-record-number 11
# db-name molecular-formula dbe formula-weight id description
KEGG C23H24O9N4 0.0 500.1543283959 C00927 Isonocardicin A;1-Azetidineacetic acid
KEGG C23H24O9N4 0.0 500.1543283959 C01941 Nocardicin A
KEGG C23H24O9N4 0.0 500.1543283959 C17350 Nocardicin B
  :

xml xml形式で出力します。各XML要素の詳細は次節をご覧ください。DTDによるxmlタグの定義は、以下より入手できます。
http:///mfsearcher/mfsearcher.dtd
例) /mfsearcher/kegg/range?lowerMs=500&upperMs=501&output=xml

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE mfsearcher SYSTEM
  "http://webs2.kazusa.or.jp/mfsearcher/mfsearcher.dtd">
<mfsearcher>

  <search-info>

    <search-date>2010-12-17 15:35:22
    </search-date>

    <database-name>KEGG
    </database-name>

    <search-mode>range
    </search-mode>

    <lower-mass>500.0
    </lower-mass>
  :

XML要素(タグ)

XML形式で出力した際の各要素の意味は下記の通りです。ヘッダー付きテキスト形式(txth)で出力した際も、同じ要素名が使用されます。

要素名 説明
mfsearcher Kazusa MFSearcherの情報であることを示します。 (none)
database-info /DATABASE/versionでデータベース情報を確認した際に返される情報 (none)
name データベース名 文字列
record-num データベースに含まれるデータ件数 整数
update-date データベースが更新された日時。
※データがMFSearcherにセットアップされた日時を示しています。 元のデータベースがアップデートされた日付ではありません。
YYYY-MM-DD
search-info /DATABASE/rangeまたは/DATABASE/massでデータベース検索をした際の検索条件等の情報 (none)
search-date 検索日時 YYYY-MM-DD HH:mm:ss
database-name 検索対象としたデータベース名 文字列
search-mode 検索モード。rangeまたはmass range | mass
target-mass massモードの場合に、massで指定した検索の中心となるmass 実数
margin massモードの場合、marginで指定した検索範囲 実数
margin-unit massモードの場合、marginUnitで指定したマージンの単位。massまたはppm ppm | mass
lower-mass 検索されるマス値の下端 実数
upper-mass 検索されるマス値の上端 実数
result-limitation 検索件数の制限に関する情報 (none)
set-value 検索されるデータ件数の制限の設定値 整数
is-limited 出力結果に制限がかかった場合はtrue、それ以外はfalse true | false
result-record-number 実際に検索されたデータ件数 整数
search-results 検索結果 (none)
result 検索された1件ずつのデータ (none)
db-name データベース名 文字列
molecular-formula 組成式(分子式) 文字列
dbe 不飽和度(二重結合・環等量)。ExactMassDB以外では常に0となります。 実数
formula-weight 分子量。組成式から計算される精密質量です。計算元になっている元素の質量は、/mfsearcher/atomlistで入手できます。 実数
id 化合物データの元となっている各データベースでのID。ExactMassDBおよびPep1000では空白となります。
N2Dデータベースでは、データベースを示す2文字のアルファベットとコロンに続く化合物IDが、コンマで連結されて表示されます。化合物IDの前に[ ]が存在する場合、その中の文字は、以下のような、元のデータベースでの登録状況を意味します。数字:チャージ、f:塩などの複合体、r:ラジカル。
文字列
description 化合物の名前。ExactMassDBでは空白になります。
N2Dデータベースの場合、各データベースで最も文字数の少なかった化合物名となります。
文字列

サンプルプログラム

プログラムから利用するための簡単なサンプルを示します。

Perl

use LWP::Simple;

my $url = "http://webs2.kazusa.or.jp/mfsearcher/exmassdb/range?lowerMs=500&upperMs=500.001&output=txth";
my $res = get($url);
print $res;

MFSearcher GUIツール ダウンロード

MFSearcherで検索するためのJava GUIツールを公開しています。

zip圧縮ファイル MFSearcher_1.4.0.zip (841 KB)
マニュアル MFSearcher_manual_ja.pdf (458 KB)

ライセンス

本システムでは、KEGGPubChemLIPID MPASFlavonoidViewerHMDBUNPDの化合物データを、各ウェブサイトで公開されているデータを学術目的で使用しています。KNApSAcKの化合物データは、金谷重彦教授により提供されています。これらの化合物データは、その一部を精密質量の再計算した後、必要な情報を抜粋してデータベースに登録して、本システムの検索で使用されています。検索結果のご利用にあたっては、各データベースのライセンス規約を遵守してください。

クリエイティブ・コモンズ・ライセンス
MFSearcherのシステムおよびExactMassDB、Pep1000データベースは、公益財団法人かずさDNA研究所により作成され、クリエイティブ・コモンズ 表示 - 非営利 3.0 非移植 ライセンスの下に提供されています。

参考文献

MFSearcher
Sakurai N, Ara T, Kanaya S, Nakamura Y, Iijima Y, Enomoto M, Motegi T, Aoki K, Suzuki H and Shibata D (2012) Application of a relationl database system for high-throughput prediction of elemental compositions from accurate mass values. Bioinformatics 29 (2): 290-291
[PMID: 23162084]

KNApSAcK
Shinbo Y, Nakamura Y, Altaf-Ul-Amin M, Asahi H, Kurokawa K, Arita M, Saito K, Ohta D, Shibata D and Kanaya S (2006). KNApSAcK: A comprehensive species-metabolite relationship database. Biotechnology in Agriculture and Forestry. K. Saito, R. A. Dixon and L. Willmitzer. Berlin Heidelberg, Springer-Verlag. 57: 165-181.

The Seven Golden Rules
Kind T and Fiehn O (2007) Seven Golden Rules for heuristic filtering of molecular formulas obtained by accurate mass spectrometry, BMC Bioinformatics, 8, 105.

謝辞

以下の化合物データは、各サイトよりご提供いただきました。
KEGGKNApSAcKFlavonoid Viewer LIPID MAPSHMDBPubChemUNPD

本サイトの研究開発の一部は、経済産業省「環境安心イノベーションプログラム」「植物の物質生産プロセス制御基盤技術開発」(平成14年度~21年度)において独立行政法人 新エネルギー・産業技術総合開発機構(NEDO)からの受託研究(プロジェクト番号P02001)により行われました。また本研究開発の一部は、(独)科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC)が推進するライフサイエンスデータベース統合推進事業の研究開発プログラム「統合化推進プログラム」「メタボローム・データベースの開発」により行われました。

私たちについて

開発メンバー

櫻井 望 (Nozomu Sakurai) かずさDNA研 設計・開発
金谷重彦 (Shigehiko Kanaya) 奈良先端大 KNApSAcK連携
鈴木秀幸 (Hideyuki Suzuki かずさDNA研  
柴田大輔 (Daisuke Shibata) かずさDNA研 ディレクター

お問い合わせ

このサイトは、かずさDNA研究所により開発・運用されています。サイトに関するお問い合わせは、櫻井までお寄せください。

櫻井望 e-mail: sakurai AT kazusa.or.jp (ATを半角@に変更してください)

リンク

KOMICS 私たちのメタボロミクスの取り組みを紹介するサイトです。