分子系統樹を作成する時の手順についてまとめておく。
作業は以下の2段階に分けられる。
1:dnaやアミノ酸の配列を入力して、マルティプルアラインメントを行う。(生成するのは、"-.aln"ファイル)
$ % clustalw -input="inputfile.txt" -align -type=protein -matrix=blosum
2:マルティプルアラインメントの結果を基にして、系統樹のデータを出力する("-phb"ファイル等)
前々回のブログのp53のホモログをswissprotから取ってきたネタで言えば、
1 : EMOBSSのseqretで"p53_*"のキーワードで、p53プロテインのホモログを釣ってくる。
$ seqret swissprot:p53_* -out=p53_swissprot.txt
2:EMBOSSのseqretで"p53_*"で釣ってきたp53のホモログに対してマルティプルアラインメントを行う。
$ clustalw -infile=p53_swissprot.txt -align -type=protein -matrix=blosum
3 : マルティプルアラインメントのファイルを基にして系統樹を書かせる。
$ clustalw -infile=p53_swissprot.aln -tree -outputtree=p53_swissprot.phb
4 : njplotを用いて系統樹を描写する。(NJplotをインストールして使う)
$ sudo apt-get install njplot
$ njplot p53_swissprot.phb
#NJplotのウィンドウが開くので、GUI操作で、FILE -> Save as Postscrip
#生成したp53_swissprot.psファイルをpdfファイル、そしてpngファイルに変化する。
5 :生成したp53_swissprot.psファイルをpdfファイル、そしてpngファイルに変化する。
$ ps2pdf p53_swissprot.ps
$ convert p53_swissprot.pdf p53_swissprot.png
($ sudo apt-get install imagemagick b #imagemagicのインストール)
($ sudo apt-get install ps2pdf #ps2pdfのインストール )