大域的配列
2つの配列の全体を比較し、たがいに類似している領域を可能なかぎり長く、そしてギャップをできるだけ短くするように整列させるもの。Neeedleman-Wunschのアルゴリズムが基本。Needleman-Wunschのアルゴリズムは、動的計画法によってあらかじめ与えられた一致・不一致、ギャップのスコアを元に整列配列のスコアを計算し、もっとも高いスコアになるように2本の配列をペアワイズで整列させるアルゴリズム。整列のすべての可能性を探索し、その中から最適な整列を得ることができる。
$ needle
Needleman-Wunsch global alignment of two sequences
Input sequence: refseqp:NP_203124
Second sequence(s): refseqp:NP_001018443
Gap opening penalty [10.0]: #Enter
Gap extension penalty [0.5]: #Enter
Output alignment [np_203124.needle]: #Enter
#生成したファイル"np_203124.needle"をのぞいてみる♪♪
$ cat np_203124.needle
########################################
# Program: needle
# Rundate: Sun 13 Feb 2011 01:05:46
# Commandline: needle
# -asequence refseqp:NP_203124
# -bsequence refseqp:NP_001018443
# Align_format: srspair
# Report_file: np_203124.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: NP_203124
# 2: NP_001018443
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 345
# Identity: 204/345 (59.1%)
# Similarity: 241/345 (69.9%)
# Gaps: 38/345 (11.0%)
# Score: 1040.0
#
#
#=======================================
NP_203124 1 MDCVGWPPGRKWHLEKNTSCGGSSGICASYVTQMADDQGCIEEQGVEDS- 49
:|......:..:...:||. :||
NP_001018443 1 -------------------------MCRVDKEALTSENEVLEED--QDSY 23
NP_203124 50 ANEDSVDAKPDRSSFVPSLFSKKKKN---VTMRSIKTTRDRV--PTYQYN 94
..||..||||||.... .||...||| :..:....:..|: ||:||.
NP_001018443 24 GEEDVTDAKPDRKGRF-RLFGNFKKNDGKLQEKGESESHYRIVSPTFQYK 72
NP_203124 95 MNFEKLGKCIIINNKNFDKVTGMGVRNGTDKDAEALFKCFRSLGFDVIVY 144
|:.:::||||||||||||:.|||.||||||:||..|||||:||||||.||
NP_001018443 73 MSHQRVGKCIIINNKNFDEKTGMNVRNGTDRDAGELFKCFKSLGFDVAVY 122
NP_203124 145 NDCSCAKMQDLLKKASEEDHTNAACFACILLSHGEENVIYGKDGVTPIKD 194
||.:|..|:.|||..|||||::::||||||||||||.:|||.||..|||.
NP_001018443 123 NDQTCRNMERLLKAVSEEDHSDSSCFACILLSHGEEGMIYGTDGAMPIKT 172
NP_203124 195 LTAHFRGDRCKTLLEKPKLFFIQACRGTELDDGIQADSGPIND---TDAN 241
:|:.|:||.||:|:.||||||||||||:|.|||:|.||||.|| ||||
NP_001018443 173 MTSLFKGDVCKSLVGKPKLFFIQACRGSEFDDGVQTDSGPPNDTIETDAN 222
NP_203124 242 PRYKIPVEADFLFAYSTVPGYYSWRSPGRGSWFVQALCSILEEHGKDLEI 291
||:||||||||||||||||||||||:||||||||||||::|.|.||.|||
NP_001018443 223 PRHKIPVEADFLFAYSTVPGYYSWRNPGRGSWFVQALCNVLSEFGKQLEI 272
NP_203124 292 MQILTRVNDRVARHFESQSDDPHFHEKKQIPCVVSMLTKELYFSQ 336
||||||||..||..|||.|:||.|.||||||||||||||||||:
NP_001018443 273 MQILTRVNYMVATSFESWSEDPRFSEKKQIPCVVSMLTKELYFN- 316
#---------------------------------------
#---------------------------------------
次に、局所的整列をさせてみる。
局所的整列とは、配列の局所的に類似している領域を探し、整列させるもの、局所整列をさせるためにはSmith-Watermanのアルゴリズムが基本になる。これは上のNeedleman-Wunschのアルゴリズムの特殊な形である。Smith-Watermanのアルゴリズムでは局所的な類似性を見て整列させたいので、スコアがマイナスになるとその時点でスコアを0にしてしまう。Needleman-Wunschのアルゴリズムではは率の端から端までを整列させたが、Smith-Watermanのアルゴリズムでは、もっともスコアが高い部分から整列させる。
$ water
Smith-Waterman local alignment of sequences
Input sequence: refseqp:NP_203124
Second sequence(s): refseqp:NP_001018443
Gap opening penalty [10.0]: #Enter
Gap extension penalty [0.5]: #Enter
Output alignment [np_203124.water]: #Enter
#できたファイルをのぞいてみる。
$ cat np_203124.water
########################################
# Program: needle
# Rundate: Sun 13 Feb 2011 01:05:46
# Commandline: needle
# -asequence refseqp:NP_203124
# -bsequence refseqp:NP_001018443
# Align_format: srspair
# Report_file: np_203124.needle
########################################
#=======================================
#
# Aligned_sequences: 2
# 1: NP_203124
# 2: NP_001018443
# Matrix: EBLOSUM62
# Gap_penalty: 10.0
# Extend_penalty: 0.5
#
# Length: 345
# Identity: 204/345 (59.1%)
# Similarity: 241/345 (69.9%)
# Gaps: 38/345 (11.0%)
# Score: 1040.0
#
#
#=======================================
NP_203124 1 MDCVGWPPGRKWHLEKNTSCGGSSGICASYVTQMADDQGCIEEQGVEDS- 49
:|......:..:...:||. :||
NP_001018443 1 -------------------------MCRVDKEALTSENEVLEED--QDSY 23
NP_203124 50 ANEDSVDAKPDRSSFVPSLFSKKKKN---VTMRSIKTTRDRV--PTYQYN 94
..||..||||||.... .||...||| :..:....:..|: ||:||.
NP_001018443 24 GEEDVTDAKPDRKGRF-RLFGNFKKNDGKLQEKGESESHYRIVSPTFQYK 72
NP_203124 95 MNFEKLGKCIIINNKNFDKVTGMGVRNGTDKDAEALFKCFRSLGFDVIVY 144
|:.:::||||||||||||:.|||.||||||:||..|||||:||||||.||
NP_001018443 73 MSHQRVGKCIIINNKNFDEKTGMNVRNGTDRDAGELFKCFKSLGFDVAVY 122
NP_203124 145 NDCSCAKMQDLLKKASEEDHTNAACFACILLSHGEENVIYGKDGVTPIKD 194
||.:|..|:.|||..|||||::::||||||||||||.:|||.||..|||.
NP_001018443 123 NDQTCRNMERLLKAVSEEDHSDSSCFACILLSHGEEGMIYGTDGAMPIKT 172
NP_203124 195 LTAHFRGDRCKTLLEKPKLFFIQACRGTELDDGIQADSGPIND---TDAN 241
:|:.|:||.||:|:.||||||||||||:|.|||:|.||||.|| ||||
NP_001018443 173 MTSLFKGDVCKSLVGKPKLFFIQACRGSEFDDGVQTDSGPPNDTIETDAN 222
NP_203124 242 PRYKIPVEADFLFAYSTVPGYYSWRSPGRGSWFVQALCSILEEHGKDLEI 291
||:||||||||||||||||||||||:||||||||||||::|.|.||.|||
NP_001018443 223 PRHKIPVEADFLFAYSTVPGYYSWRNPGRGSWFVQALCNVLSEFGKQLEI 272
NP_203124 292 MQILTRVNDRVARHFESQSDDPHFHEKKQIPCVVSMLTKELYFSQ 336
||||||||..||..|||.|:||.|.||||||||||||||||||:
NP_001018443 273 MQILTRVNYMVATSFESWSEDPRFSEKKQIPCVVSMLTKELYFN- 316
#---------------------------------------
#---------------------------------------
今回のアライメントでは結果が一緒であったが、一般的に、waterでやると、無理して配列しないため、アライメントの対処から外れてしむ配列が生じがちである。
今回は、vertebrate同士の比較的近いアミノ酸配列に対してのアライメントだったからよかったけどね。