多序列比對

雙序列比對是序列分析的基礎。然而,對于構成基因家族的成組的序列來(lái)說(shuō),我們要建立多個(gè)序列之間的關(guān)系,這樣才能揭示整個(gè)基因家族的特征.

多序列比對

在闡明一組相關(guān)序列的重要生物學(xué)模式方面起著(zhù)相當重要的作用.

多序列比對

有時(shí)用來(lái)區分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關(guān)系,以便對一個(gè)基因家族的特征有一個(gè)簡(jiǎn)明扼要的了解。與雙序列比對一樣,

多序列比對

的方法建立在某個(gè)數學(xué)或生物學(xué)模型之上.

因此,正如我們不能對雙序列比對的結果得出"正確或錯誤"的簡(jiǎn)單結論一樣,

多序列比對

的結果也沒(méi)有絕對正確和絕對錯誤之分,而只能認為所使用的模型在多大程度上反映了序列之間的相似性關(guān)系以及它們的生物學(xué)特征.

分類(lèi)

目前,構建

多序列比對

模型的方法大體可以分為兩大類(lèi).

第一類(lèi)

基于氨基酸殘基的相似性,如物化性質(zhì),殘基之間的可突變性等.

第二類(lèi)

主要利用蛋白質(zhì)分子的二級結構和三級結構信息,也就是說(shuō)根據序列的高級結構特征確定比對結果.

差別

兩種方法所得結果可能有很大差別。一般說(shuō)來(lái),很難斷定哪種方法所得結果一定正確,應該說(shuō),它們從不同角度反映蛋白質(zhì)序列中所包含的生物學(xué)信息.

基于序列信息和基于結構信息的比對都是非常重要的比對模型,但它們都有不可避免的局限性,因為這兩種方法都不能完全反映蛋白質(zhì)分子所攜帶的全部信息.

蛋白質(zhì)序列是經(jīng)過(guò)DNA序列轉錄翻譯得到的。從信息論的角度看,它應該與DNA分子所攜帶的信息更為"接近".而蛋白質(zhì)結構除了序列本身帶來(lái)的信息外,還包括經(jīng)過(guò)翻譯后加工修飾所增加的結構信息,包括殘基的修飾,分子間的相互作用等,最終形成穩定的天然蛋白質(zhì)結構。因此,這也是對完全基于序列數據比對方法批評的主要原因.

多序列比對的步驟

多序列比對一般通過(guò)3個(gè)步驟完成:

(1)兩兩進(jìn)行雙重比對。

(2)生成一系統樹(shù)圖(dendrogram),將序列按相似性大致地分組。

(3)使用系統樹(shù)圖作為引導,產(chǎn)生出最終的多序列比對結果。