Az egyes adatbázisokról:
Másodlagos vagy harmadlagos adatbázis | Elsődleges vagy másodlagos forrása | Mit tartalmaz |
---|---|---|
PROSITE | SWISSPROT | Reguláris kifejezések (mintázatok) |
Profiles (PROSITE része) | SWISSPROT | Súlyozott mátrixok (profilok) |
PRINTS | SWISSPROT+TrEMBL | Összerendezett motívumok (ujjlenyomatok) |
Pfam | SWISSPROT | Rejtett Markov modellek (HMM-ek) |
BLOCKS | PROSITE, ill. PRINTS | Összerendezett motívumok (blokkok) |
eMOTIF | BLOCKS, ill. PRINTS | "Fuzzy" reguláris kifejezések (mintázatok) |
Összerendezésből származtatható a reguláris kifejezés:
Összerendezés | Reguláris kifejezés |
---|---|
ADLGAVFALCDRYFQ SDVGPRSCFCERFYQ ADLGRTQNRCDRYYQ ADIGQPHSLCERYFQ | [AS]-D-[IVL]-G-x4-{PG}-C-[DE]-R-[FY]2-Q |
Jelölések
PROSITE tartalma:
Hely | Szabály |
---|---|
N-glikozilációs hely | N-{P}-[ST]-{P} |
Protein kináz C foszforilációs hely | [ST]-x-[RK] |
Kazein kináz II foszforilációs hely | [ST]-x(2)-[DE] |
Asp és Asn hidroxilációs hely | C-x-[DN]-x(4)-[FY]-x-C-x-C |
Háromféle:
Fehérjecsaládokra jellemző "ujjlenyomatok": összerendezések hézagmentes, konzerválódott szakaszainak ("motívumok") halmazai
Motívum:
YVTVQHKKLRTPL YVTVQHKKLRTPL YVTVQHKKLRTPL AATMKFKKLRHPL AATMKFKKLRHPL YIFATTKSLRTPA VATLRYKKLRQPL YIFGGTKSLRTPA WVFSAAKSLRTPS WIFSTSKSLRTPS YLFSKTKSLQTPA YLFTKTKSLQTPA ^ ^ ^ |
Gyakorisági mátrix:
T C A G N S P F L Y H Q V K D E I W R M ---------------------------------------------------------- 0 0 2 0 0 0 0 0 0 7 0 0 1 0 0 0 0 2 0 0 0 0 3 0 0 0 0 0 2 0 0 0 4 0 0 0 3 0 0 0 6 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 3 0 0 1 0 0 0 3 0 0 0 0 0 0 2 2 0 1 1 0 0 0 0 0 0 0 3 0 4 0 0 0 0 1 0 4 0 1 0 0 1 0 2 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 10 0 9 0 0 0 0 0 0 0 0 0 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 2 0 0 6 0 0 0 0 0 0 0 0 0 0 0 |
(A táblázat sorai az összerendezés oszlopainak felelnek meg.)
T C A G N S P F L Y H Q V K D E I W R M ---------------------------------------------------------- 0 0 4 0 0 0 0 8 4 34 0 0 15 0 0 0 1 7 0 0 0 4 15 0 0 0 0 0 7 0 0 0 37 0 0 0 10 0 0 0 50 0 0 0 0 3 0 18 0 0 0 0 0 0 0 0 0 0 0 2 3 0 12 2 1 8 0 3 6 0 0 0 14 0 0 0 15 2 0 7 9 2 2 2 1 1 0 0 0 0 1 25 0 20 0 6 0 0 4 0 14 0 2 0 0 4 0 14 0 8 31 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 70 0 0 0 0 2 0 0 0 2 1 0 17 0 0 0 0 0 0 0 52 0 0 0 0 1 0 0 0 0 0 0 0 0 0 73 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 68 0 44 0 0 0 0 6 0 0 0 0 12 11 0 0 0 0 0 0 0 0 0 0 1 0 0 0 69 0 0 0 3 0 0 0 0 0 0 0 0 0 2 0 11 0 0 7 0 0 53 0 0 0 0 0 0 0 0 0 0 0 |
Fehérjecsaládokra jellemző "blokkok" halmazai: összerendezések hézagmentes, konzerválódott szakaszainak halmazai (mint a PRINTS, de más az előállítási mód és az eredmény)
SxxxxTxxxP SxxxxTxxxP ...
T C A G N S P F L Y H Q V K D E I W R M ------------------------------------------------------------------------------- -29 -22 -29 -48 -24 -24 -46 40 -13 62 -10 -40 -22 -38 -44 -44 -15 16 -30 -22 -1 -32 -1 -18 -20 -10 -13 -9 20 -22 -21 -18 32 -23 -22 -20 32 -61 -26 19 0 -36 -18 -30 -24 -12 -30 36 0 24 -18 -36 -6 -30 -36 -30 6 -30 -18 -6 3 -29 3 -4 -10 -1 -7 -22 3 -31 -19 -15 14 -8 -15 -13 11 -52 -13 11 5 -48 -1 8 7 1 -4 -54 -31 -46 6 14 -17 27 6 5 -20 -48 18 -9 2 -27 -7 -19 -3 -5 -13 0 -16 6 8 -10 -11 -15 -13 -11 -7 -37 -4 -15 0 -60 -12 24 12 0 -12 -60 -36 -48 0 12 -24 60 0 0 -24 -36 36 0 6 -30 0 18 12 12 0 -48 -36 -42 -6 0 -18 30 0 0 -18 -30 18 -12 -24 -72 -24 -48 -36 -36 -36 24 72 -12 -24 -24 24 -36 -48 -36 24 -24 -36 48 8 -50 -20 -32 2 -2 0 -50 -34 -48 26 18 -24 32 -6 -6 -24 10 62 -2 24 -29 7 -5 5 6 0 -36 -24 -31 6 1 -6 1 4 4 -6 -56 14 -14 0 -36 12 -12 -12 12 72 -60 -36 -60 0 0 -12 -12 -12 -12 -24 -72 0 -24 -6 -44 -2 -18 -16 -10 -12 -10 22 -24 -18 -14 10 -22 -24 -18 6 -40 -26 16 |
Bármely sorban az A aminosav súlyozott pontszáma:
ahol GX az X aminosav gyakorisága (a gyakorisági mátrix megfelelő sorából véve), DXA az aminosavhasonlósági mátrixban az X és az A aminosavak hasonlóságának pontszáma, az összegzés során X mind a 20 lehetséges értéket felveszi. (Az A itt bármelyik aminosavat jelölheti.)
A súlyozott mátrix engedékenyebb a súlyozatlan gyakorisági mátrixoknál: kevesebb azonosságot tartalmazó szekvenciákat is magasan pontoz.
A gyakoriságok számításánál az egymással 80%-nál nagyobb azonosságot mutató szekvenciákat egy csoportba veszik és egy szekvenciaként veszik figyelembe, megfelelő súlyozó faktorokkal
(A fehérjecsaládhoz tartozónak azokat a szekvenciákat tekintik, amelyek a blokkok levezetéséhez felhasznált (PROSITE-ból vett) szekvenciák között vannak.)
Több más adatbázist konvertáltak BLOCKS formátumra, így ezekben együttesen lehet keresést végezni.
(Az ábrán szereplő számok régebbiek!)
A profilok összerendezett szekvenciákból származtatott, a teljes szekvenciát leíró matematikai objektumok. Két fajtájuk:
A rejtett Markov-modell (angolul hidden Markov model, röviden HMM) egy képzeletbeli gép, amely szekvenciákat generál. A gépnek véges sok állapota van, és ezek között lépked. Minden egyes állapotában vagy minden egyes állapotváltáskor kibocsáthat egy szekvenciaelemet (tehát aminosavat vagy nukleotidot), ezekből áll össze a gép által generált szekvencia. A biológiai szekvenciák analíziséhez használt HMM-eknek alapvetően háromféle állapota van: M (match, azaz egyezés), I (insert, azaz inzerció) és D (delete, azaz deléció); ezeken kívül szokás még kiinduló- és végállapotokat és egyéb speciális állapotokat is definiálni. A fenti ábra egy HMM állapotdiagramját mutatja.
A körök és a négyzetek a gép állapotait, az összekötő nyilak az egyes állapotok között lehetséges átmeneteket reprezentálják. Az M és az I állapotok ún. "kibocsátó" állapotok, tehát amikor a gép ezekben az állapotokban van, akkor kibocsát magából egy szekvenciaelemet (aminosavat vagy nukleotidot). A D állapotok nem kibocsátó állapotok. Mindegyik M és I állapothoz tartozik egy táblázat, amely megmondja, hogy az adott állapotban a 20 aminosav, ill. a 4 nukleotid közül melyiket milyen valószínűséggel bocsátja ki a gép (tehát a táblázat 20 vagy 4 számot tartalmaz). A HMM-nek további paraméterei az egyes állapotok közötti átmenetek valószínűségei, tehát az állapotdiagramon lévő, az egyes állapotokat összekötő nyilak mindegyikéhez tartozik egy valószínűségérték. A HMM rendszerint annyi M, I és D állapotot tartalmaz, amilyen hosszú szekvenciát tipikusan generál. A fenti ábrán látható HMM például 4 M állapotot tartalmaz, tehát amennyiben működése során nem megy át sem I, sem D állapoton és nem is kanyarodik vissza a J állapoton keresztül, akkor 4 aminosavból vagy nukleotidból álló szekvenciát generál.
Ha van egy szekvenciahalmazunk, amely egymással rokon szekvenciákat tartalmaz, akkor ennek a szekvenciahalmaznak az elemzésével, az egyes pozíciókban lévő aminosavak gyakorisága és más mennyiségek alapján definiálni lehet egy olyan HMM-et, amely olyan szekvenciákat generál, mint amilyenek a kiinduló szekvenciahalmazban vannak. A HMM felépítése, az állapotdiagram általában már eleve adott, a szekvenciahalmaz elemzésével pedig meghatározhatjuk az M és az I állapotokban az egyes aminosavak, ill. nukleotidok kibocsátásának valószínűségeit, valamint a gép egyes állapotai közötti átmenetek valószínűségeit. A Pfam adatbázis ezeket a paramétereket (pontosabban a számítások megkönnyítése végett a valószínűségek logaritmusát) tartalmazza minden egyes fehérjecsaládra.
Ha tehát a rokon szekvenciákat tartalmazó halmaz alapján definiáltunk egy HMM-et, akkor egy olyan modellünk van, amely ezt a bizonyos szekvenciacsaládot jól leírja, és képes további olyan szekvenciákat generálni, amelyek hasonlóak a kiinduló szekvenciahalmazban lévő szekvenciákhoz. A szekvenciaanalízisnél azonban a HMM-nek nem ez a képessége fontos, hanem egy másik tulajdonsága. Nevezetesen: a HMM segítségével meg lehet határozni egy új szekvenciáról, hogy azt milyen valószínűséggel generálhatja az adott HMM. Ha ez egy nagy valószínűségértéknek adódik, akkor állíthatjuk, hogy a vizsgált, új szekvencia is beletartozik abba a szekvenciacsaládba, amelyikből a HMM megkonstruálása során kiindultunk.
Hogyan határozható meg egy új szekvenciáról, hogy mekkora valószínűséggel generálhatja azt egy bizonyos HMM? Egyszerű: meg kell nézni, hogy a HMM-nek mely állapotok egymásutánján kell végigmennie (vagyis az állapotdiagramban milyen útvonalat kell bejárnia) és mely állapotokban milyen szekvenciaelemet kell kibocsátania ahhoz, hogy éppen a vizsgált (új) szekvencia jöjjön ki. Ezután az állapotdiagramban bejárt útvonal mentén vett átmeneti valószínűségeket és a kibocsátó állapotokban a megfelelő szekvenciaelem kibocsátásának valószínűségeit összeszorozva adódik a vizsgált szekvencia generálásának teljes valószínűsége. (Általában több útvonal is vezethet ugyanahhoz a szekvenciához, ilyenkor vagy az összes lehetséges útvonal összegét, vagy a legvalószínűbb útvonalat szokás figyelembe venni.)
A HMM-ek tehát olyan matematikai objektumok, amelyek szekvenciamintázatokat képesek leírni (legyenek azok akár nagyméretű fehérjeszekvenciák, akár néhány nukleotidból álló funkcionális helyek a DNS-ben). Új szekvenciák esetében segítségükkel egzakt valószínűségérték adható arra nézve, tartozhat-e az új szekvencia az adott HMM által leírt mintázatú szekvenciák csoportjába.
A HMM-eket azért kedvelik, mert egzakt matematikai alapjuk van. Ugyanakkor vannak hátrányaik is. Szerkezetükból adódóan nem képesek megragadni például a szekvenciákban távolabb lévő aminosavak közötti korrelációkat (pl. korrelált mutációk esetében). További hátrány, hogy egy HMM által generált szekvencia egymástól független események egymásutánjának az eredményeként áll elő, ami a valóságban nincs így: a szomszédos szekvenciaelemekhez tartozó valószínűségértékek között a valóságban általában összefüggés van. A fehérjeszekvenciákban például a hidrofób aminosavak általában egymás mellé csoportosulnak, vagyis ha egy pozícióban hidrofób aminosav generálódott, akkor a következő pozícióban nagyobb valószínűséggel kellene szintén hidrofób aminosavnak generálódnia, mint egyébként, de ezt a HMM nem képes figyelembe venni. E tökéletlenségek ellenére a HMM-ek nagyon sikeresnek bizonyultak a szekvenciaanalízisben.
A "rejtett Markov-modell" kifejezésben a "rejtett" jelző egyébként arra utal, hogy mi csak a modell működésének az eredményét, a kimenetet (azaz a generált szekvenciát) ismerjük, maga a modell és a paraméterei számunkra rejtettek. Tehát nekünk a kimenetből kell következtetnünk a modell felépítésére és a működését leíró paraméterekre (az átmeneti és a kibocsátási valószínűségekre).
PROSITE-ban és Pfam-ban.
A többszörös összerendezésekből matematikai úton
Fuzzy reguláris kifejezések, különféle szignifikanciaszintekre optimalizálva.
Fuzzy: többféle aminosavat is megenged a konzerválódott pozíciókban, hasonlóság szerinti csoportokban:
Összerendezés | Fuzzy reguláris kifejezés |
---|---|
ADLGAVFALCDRYFQ SDVGPRSCFCERFYQ ADLGRTQNRCDRYYQ ADIGQPHSLCERYFQ | [ASGPT]-D-[IVLM]-G-x5-C-[DENQ]-R-[FYW]2-Q |
Az engedékenység és a találatok számának viszonya:
Reguláris kifejezés | Találatok száma az OWL 29.6-on |
---|---|
D-A-V-I-D | 71 |
D-A-V-I-[DENQ] | 252 |
[DENQ]-A-V-I-[DENQ] | 925 |
[DENQ]-A-[VLI]-I-[DENQ] | 2739 |
[DENQ]-[AG]-[VLI]2-[DENQ] | 51506 |
D-A-V-E | 1088 |
Ld. példák