4. Többszörös szekvencia-összerendezés és filogenetikai analízis

  1. Többszörös szekvencia-összerendezés
    1. Célja
    2. Definíciója
    3. Szimultán módszerek
    4. Manuális módszerek
    5. Progresszív módszerek
    6. Clustal és MultAlin
    7. Többszörös összerendezések adatbázisai
    8. PSI-BLAST
    9. Prezentációs programok
  2. Filogenetikai analízis
    1. Általános megjegyzések
    2. Lépései
    3. Programok

Többszörös szekvencia-összerendezés

Célja

Lehetővé tenni egy-egy géncsaládon vagy fehérjecsaládon belül az összefüggések felismerését és a családra jellemző, konzerválódott, biológiailag jelentőséggel bíró mintázatok feltárását. Növeli a jel/zaj viszonyt a páronkénti összerendezéshez képest.

A többszörös szekvencia-összerendezés definíciója


A többszörös szekvencia-összerendezés módszerei

Szimultán módszerek

A páronkénti szekvencia-összerendező algoritmusok (Needleman-Wunsch, Smith-Waterman, stb.) kiterjeszthetők több szekvenciára is. Ez azonban többdimenziós mátrixokat igényel, a számítási idő a szekvenciák számával exponenciálisan nő. Ezért csak kisszámú, rövid szekvencia esetében alkalmazhatóak.

Manuális módszerek

bioedit.gif (62k)

Progresszív módszerek

CLUSTAL

Összerendezés CLUSTAL-lal:

 CLUSTAL W (1.60) multiple sequence alignment
 
 
 hum-U1A         ------MAVPETRPNHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRSLKMRGQ 
 mse-U1A         MATIATMPVPETRANHTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRIMKMRGQ
 xla-U1A         ------MSIQEVRPNNTIYINNLNEKIKKDELKKSLYAIFSQFGQILDILVSRNLKMRGQ
 dme-U1A         ---------MEMLPNQTIYINNLNEKIKKEELKKSLYAIFSQFGQILDIVALKTLKMRGQ
                           *   * *************.*******************.  . .*****
 
 hum-U1A         AFVIFKEVSSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTFVERDRKR-EKRKP
 mse-U1A         AFVIFKEVTSATNALRSMQGFPFYDKPMRIQYAKTDSDIIAKMKGTYVERDRKR-EKRKP
 xla-U1A         AFVIFKETSSATNALRSMQGFPFYDKPMRIQYSKTDSDIIAKMKGTFVERDRKRQEKRKV
 dme-U1A         AFVIFKEIGSASNALRTMQGFPFYDKPMQIAYSKSDSDIVAKIKGTFKERPKKVKPPKPA
                 *******  **.****.***********.* *.*.****.**.***. **       .
 
 hum-U1A         KSQETPATKKAVQGGGATPVVGAVQGPVPGMPPMTQAPRIMHHMPGQPPYMPPPGMIPPP
 mse-U1A         KSQETPAAKKAVQGGAAAPVVGAVQ-PVPGMPPMPQAPRIMHHMPGQPPYMPPPGMIPPP
 xla-U1A         KVPEVQGVKNAMPGAALLPGVPGQMAAMQDMPGMTQAPRMMH-MAGQAPYMHHPGMMPPP
 dme-U1A         PGTDEKKDKKKK-----------------------------------------------P
                    .    *                                                  *
 
 hum-U1A         GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG
 mse-U1A         GLAPGQIPPGAMPPQQLMPGQMPPAQPLSENPPNHILFLTNLPEETNELMLSMLFNQFPG
 xla-U1A         GMAPGQMPPGGMPHGQLMPGQMAPMQPISENPPNHILFLTNLPEETNELMLSMLFNQFPG
 dme-U1A         SSAENSNP-----------------NAQTEQPPNQILFLTNLPEETNEMMLSMLFNQFPG
                   * .  *                 .  .*.***.*************.***********
 
 hum-U1A         FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK
 mse-U1A         FKEVRLVPGRHDIAFVEFDNEVQAGAARDALQGFKITQNNAMKISFAKK
 xla-U1A         FKEVRLVPGRHDIAFVEFDNEVQAGAARESLQGFKITQSNSMKISFAKK
 dme-U1A         FKEVRLVPNRHDIAFVEFTTELQSNAAKEALQGFKITPTHAMKITFAKK
                 ********.********* .*.*..**...*******  ..***.****

MultAlin

Összerendezés MultAlin-nal:

 Multalin version 5.4.1
 Copyright I.N.R.A. France 1989, 1991, 1994, 1996
 Published research using this software should cite
 Multiple sequence alignment with hierarchical clustering
 F. CORPET, 1988, Nucl. Acids Res., 16 (22), 10881-10890
 Symbol comparison table: blosum62
 Gap weight: 12
 Gap length weight: 2
 Consensus levels: high=90% low=50%
 Consensus symbols:
  ! is anyone of IV
  $ is anyone of LM
  % is anyone of FY
  # is anyone of NDQEBZ
 
  MSF:    289    Check:   0         ..
  Name: hum-U1A        Len:   289  Check: 9991  Weight:  0.67
  Name: mse-U1A        Len:   289  Check: 9174  Weight:  0.67
  Name: xla-U1A        Len:   289  Check: 7674  Weight:  0.67
  Name: dme-U1A        Len:   289  Check: 3145  Weight:  1.99
  Name: Consensus      Len:   289  Check:  255  Weight:  0.00
 
 //
 
                       1                                                   50 
              hum-U1A  ......MAVP ETRPNHTIYI NNLNEKIKKD ELKKSLYAIF SQFGQILDIL
              mse-U1A  MATIATMPVP ETRANHTIYI NNLNEKIKKD ELKKSLYAIF SQFGQILDIL
              xla-U1A  ......MSIQ EVRPNNTIYI NNLNEKIKKD ELKKSLYAIF SQFGQILDIL
              dme-U1A  .........M EMLPNQTIYI NNLNEKIKKE ELKKSLYAIF SQFGQILDIV
            Consensus  ......m... E.rpN.TIYI NNLNEKIKK# ELKKSLYAIF SQFGQILDIl
 
                       51                                                 100
              hum-U1A  VSRSLKMRGQ AFVIFKEVSS ATNALRSMQG FPFYDKPMRI QYAKTDSDII
              mse-U1A  VSRIMKMRGQ AFVIFKEVTS ATNALRSMQG FPFYDKPMRI QYAKTDSDII
              xla-U1A  VSRNLKMRGQ AFVIFKETSS ATNALRSMQG FPFYDKPMRI QYSKTDSDII
              dme-U1A  ALKTLKMRGQ AFVIFKEIGS ASNALRTMQG FPFYDKPMQI AYSKSDSDIV
            Consensus  vsr.$KMRGQ AFVIFKE..S AtNALRsMQG FPFYDKPMrI qYsKtDSDI!
 
                       101                                                150
              hum-U1A  AKMKGTFVER DRKR.EKRKP KSQETPATKK AVQGGGATPV VGAVQGPVPG
              mse-U1A  AKMKGTYVER DRKR.EKRKP KSQETPAAKK AVQGGAAAPV VGAVQ.PVPG
              xla-U1A  AKMKGTFVER DRKRQEKRKV KVPEVQGVKN AMPGAALLPG VPGQMAAMQD
              dme-U1A  AKIKGTFKER PKK....... .......... .......... ..........
            Consensus  AKmKGT%vER drKr.ekrk. k..e....k. a..g....p. v.........
 
                       151                                                200
              hum-U1A  MPPMTQAPRI MHHMPGQPPY MPPPGMIPPP GLAPGQIPPG AMPPQQLMPG
              mse-U1A  MPPMPQAPRI MHHMPGQPPY MPPPGMIPPP GLAPGQIPPG AMPPQQLMPG
              xla-U1A  MPGMTQAPRM MH.MAGQAPY MHHPGMMPPP GMAPGQMPPG GMPHGQLMPG
              dme-U1A  .......... .......... ......VKPP KPAPGTDEKK DKKKKPSSAE
            Consensus  mp.m.qapr. mh.m.gq.py m..pgm.pPP g.APGq.ppg .mp..qlmpg
 
                       201                                                250
              hum-U1A  QMPPAQPLSE NPPNHILFLT NLPEETNELM LSMLFNQFPG FKEVRLVPGR
              mse-U1A  QMPPAQPLSE NPPNHILFLT NLPEETNELM LSMLFNQFPG FKEVRLVPGR
              xla-U1A  QMAPMQPISE NPPNHILFLT NLPEETNELM LSMLFNQFPG FKEVRLVPGR
              dme-U1A  NSNP.NAQTE QPPNQILFLT NLPEETNEMM LSMLFNQFPG FKEVRLVPNR
            Consensus  #m.P.#p.sE #PPNhILFLT NLPEETNE$M LSMLFNQFPG FKEVRLVPgR
 
                       251                                    289
              hum-U1A  HDIAFVEFDN EVQAGAARDA LQGFKITQNN AMKISFAKK
              mse-U1A  HDIAFVEFDN EVQAGAARDA LQGFKITQNN AMKISFAKK
              xla-U1A  HDIAFVEFDN EVQAGAARES LQGFKITQSN SMKISFAKK
              dme-U1A  HDIAFVEFTT ELQSNAAKEA LQGFKITPTH AMKITFAKK
            Consensus  HDIAFVEFdn EvQagAAr#a LQGFKITq.n aMKIsFAKK

A dme-U1A szekvenciát (Drosophila fehérje) a Clustal és a MultAlin másképpen rendezi hozzá a többihez: Clustal két hézagot nyit, MultAlin csak egy hosszút. A MultAlinnál így több az azonosság, de a következtetés az, h. ez egy bizonytalan régió.


Melyik a legjobb módszer? Ezt nem lehet tudni, a helyes az, ha több módszert is alkalmazunk és az eredményekből konszenzust képezünk, manuálisan is igazítva


Többszörös összerendezések adatbázisai

A Weben többféle összerendezés-adatbázis is elérhető. Két példa:

Pfam

PRINTS


PSI-BLAST


Prezentációs programok


Filogenetikai analízis

Általános megjegyzések


A filogenetikai analízis lépései

Négy lépés:
  1. Összerendezés
  2. A helyettesítési (tkp. evolúciós) modell meghatározása
  3. Faépítés
  4. A fa kiértékelése

1. Összerendezés


A helyettesítési (evolúciós) modell meghatározása

Három eleme (paramétere) van:

Ezek meghatározásának két módja:

A bázisok egymás közti cseréjének gyakorisága

A szekvencián belüli pozíciók mutációgyakoriságának heterogenitása

Melyik helyettesítési modellt válasszuk? A kevés paraméterrel dolgozó modellek jobban alkalmazhatóbbak, megbízhatóbbak, a túlságosan leegyszerűsített modellek viszont hibás eredményt adhatnak. Fontos a tranzíciós és a transzverzió megkülönböztetése és a mutációgyakoriság heterogenitásának figyelembe vétele. Gondosan kell kiválasztani az adott adatokhoz legjobban illeszkedő evolúciós modellt.


A fa felépítése

A faépítő módszerek kétféle osztályozása:

Távolság alapú módszerek

Karakter alapú módszerek

A fák kiértékelése

Kétféle módszer:


Filogenetikai szoftver