MISHIMA

Method for Inferring Sequence History In Terms of Multiple Alignment


---> HomePage maintained by Kirill Kryukov

MISHIMA Alignment server


MISHIMAシステムとは

塩基配列を多重整列する新しい方法です。ClustalWなど既存の大部分の方法が採用しているProgressive Alignment法を用いず,配列間で共通な短いユニーク配列(1〜12塩基)を高速に発見し,それらをseeds(種)として長い塩基配列をブロックに分断します。ブロック長が50塩基を越えるときには,同一の探索をそのブロック内だけで行い,新しいseedsを発見してさらに分断します。このアルゴリズムは,塩基配列がお互いにきわめて近縁な場合に特に有効です。たとえば,動物の同一種内の複数個体のミトコンドリアDNAゲノムを全部配列決定したデータや,同一ウイルスの異なる株の塩基配列などに威力を発揮します。

MISHIMAサーバーの利用方法


入力ファイル:相同性の高いことがすでにわかっている塩基配列をFASTA形式で用意してください。 FASTA形式とは,>(ケット記号)で始まる配列名行のあとに,塩基配列(あるいはアミノ酸配列)が1行ないし複数行で続く形が配列ごとに繰り返される形式です。

 FASTA形式データファイルの例
 
 >sequence 1 (human)
 aatgccccatatccctttttgtttt
 aatgcatatccctcacatgtttt
 >sequence 2 (mouse)
 tatgccccatatctctttttgttttggggaaaaaa
 aatgcatatccctcacatgtttt

<データ入力画面>
塩基配列データをupload:MISHIMA Alignment serverをクリックすると,データ入力画面があらわれます。
この画面の右上に緑色の背景色で Server status というボックスがあります。現在のMISHIMAは1CPUでのみ動きますが,使用しているサーバーがDual CPUなので,2個のジョブを同時に走らせることができます。したがって,
active requestsの前の数字は,0,1,2のどれかです。2のときにはすぐにジョブを走らせることができず,requests in a queueにまわります。
FASTA形式の塩基配列データを copy & pasteするか,あるいはファイルをuploadするかの方法で,データをuploadします。このほか,もう一度同じデータを使いたい時には,Submitted Data IDを Datase IDのボックスにコピー&ペーストします。

入力塩基配列の選択画面へ:以上の準備ができたら,[Proceed to step 2] ボタンをクリックします。

<塩基配列選択画面> 第1行で,"The ID of this newly submitted dataset is: "のあとに,黄色の背景に長い英数字列が示されます。ウェブブラウザーを閉じた後も,このIDを憶えておけば,データ入力画面のRequest IDにコピー&ペーストすることで,結果をチェックすることができます。
第2ブロックで,サーバーが受け取ったデータの概略(塩基配列の本数,平均長,平均GC含量)が示されます。

配列選択処理時のFiltering Options:
塩基配列の中に,たまたま他の大部分の配列よりも極端に短い配列があると,MISHIMAシステムでは多重整列がうまくゆきません。また,他の配列と相同性がなかったり,低かったりする塩基配列がうっかり混じると,やはり多重整列がうまくゆきません。これらのoutlier を半自動的に検出するために,塩基長の平均よりも大きくずれていたり,GC含量の平均よりも大きくずれている配列をチェックすることができます。
 前者については,Remove sequences with length that differs from mean ... ,
 後者については,Remove sequences with GC content that differs from mean by ...
 これらふたつのオプションを用いるには,□チェックボックスをクリックし,また defaultで1.0である標準誤差の値を変更してください。
さらに,データによっては塩基の決定されていないことを示すNが多数あることがあります。Remove sequences with this number of 'N' or mor: の後のボックスに,Nの数が何個以上あったらその配列を多重整列に使わないという意味で数字を入れて,フィルターとします。
最後に,すべての配列のチェックを消すオプションがあります。これは,少数の配列だけをテスト的に選ぶ時に便利です。
これら4種類のオプションのあとに,入力配列のリストが表示されます。大量の塩基配列を比較しようとすると,この段階でもかなり時間がかかります。
多重整列する塩基配列の選択:
 Align? という最初のカラムの□チェックボックスが,配列によってすでにチェックされたりされていなかったりしています。チェックされていない場合には, Length difference from mean あるいは GC-content difference from mean のどちらかの数字が赤字になっているはずです。多重整列に福みたい場合には,チェックを加え,逆に多重整列に含めたくない場合にはチェックをはずします。
 
多重整列時のオプション:このページの末尾に,いくつかのオプションがあります。

ページの左下のオプション
Alignment method options: Use CLUSTAL W to align regions between the seeds (slow)
このオプションをクリックすると,MISHIMAのコアアルゴリズムでブロックごとに切り離された部分ごとにClustal Wを用いて多重整列します。ただし,時間がかかり,また理由は不明ですが,現在のversionでは,このオプションをクリックしてあっても,Clustal Wが用いられないことがあります。

Interface options: Show alignment on web-page
このオプションをクリックすると,計算終了後に自動的にウェブ画面に多重整列結果が表示されます。
ページ右下のOutput options
Alignment format: MISHIMA形式かClustal W形式を選べます。MISHIMA形式とは,ある塩基サイトが すべて同一塩基の場合にはClustal W形式と同じく,一番下に*が示されますが,1〜9配列だけ異なる塩基がある場合にはその数字(1〜9)が示されます。10配列以上が異なる塩基の場合には,空白となります。
他のオプションは,読めば理解できると思いますので,ここでは説明しません。

MISHIMAコアシステムの駆動:それでは, Align! ボタンをクリックしてください。

<多重整列進行画面>別のページが表示され,実際に多重整列されている配列名一覧が出ます。その下に,MISHIMAコアシステムで見つかったSeed配列によってブロックごとに分割されてゆく様子が,示されます。
 たとえば,
  n1 ( 1:97.9 11 2:27.0 12 3:97.4 ....
 という表示は,最初の分割(n1)の様子のあたまの部分を表しており,第一ブロックの平均長が97.9塩基サイト,その次に最初のSeed配列(塩基長が11で,すべての配列で同一かつユニーク)が発見され,平均長27.0塩基サイトの第2ブロックに続く,という具合です。
 
計算の終了:多重整列が終了すると,
 Saving alignment into file
 という表示が現われます。結果のファイルを以下のふたつの方法でdownloadすることができます。
 
 Download the alignment file
 Download the alignment compressed into zip archive
 
 では,MISHIMAシステムをお楽しみください!

Development History

See also Changes at at MISHIMA HomePage maintained by Kirill Kryukov
関係の深いリンク先