
Rövidítések: UTR: Untranslated Region, CDS: Coding sequence
| T | C | A | G | ||
|---|---|---|---|---|---|
| T | Phe | Ser | Tyr | Cys | T |
| C | |||||
| Leu | Stop! | Stop!/Sec | A | ||
| Trp | G | ||||
| C | Leu | Pro | His | Arg | T |
| C | |||||
| Gln | A | ||||
| G | |||||
| A | Ile | Thr | Asn | Ser | T |
| C | |||||
| Lys | Arg | A | |||
| Met/Start | G | ||||
| G | Val | Ala | Asp | Gly | T |
| C | |||||
| Glu | A | ||||
| G |
A genetikai kód közel univerzális (apróbb eltérések azért vannak egyes mikroorganizmusokban, mitokondriumokban, stb.)
A TGA időnként nem Stop-ot, hanem szelenociszteint (Sec) kódol (21. aminosav!)
AACCGTTTACGAAACCAGGTGC
AACCGTTTACGAAACCAGGTGCGCGCCCGCGGGAAT
AACCGTTTACGAACCCAGGTGC
(konszenzus:) AACCGTTTACGAAaCCAGGTGCGCGCGCGcGGGAATCCTAAAAA
CGCGCGCGCGGGAATCCTAAAAA
TGCGCGCGCGAGGGAATCCTAAAAA
|
Kisbetűk: kisebb megbízhatóság
Bemenő szekvencia: humán kreatin kináz génjének részlete
> HUMCKMM1
ggatccttcctccttggcctcccaaagtgctgggattacaggtgtgagccactgcacctg
gcctattacccttctcaggctctggagtccatccttctgctctgtctccctcagttcaat
tgttttttgttttttgttttttttttagacacagtctcgctctgtcaccaaggctggagt
gcagcagtgcgatcacagctcaccgcagcctcacctcccaggctcaagtgatcctcccat
ctcggcctctgagtagctgagactataggtgtgtccacatgtccggctaatttttgtatt
tttagtagagacagggtttcaccgcgttggccagggtggtcttgaactcctgagctcaag
caatcctcctgcctcagcctccttgttttgatttttagatcccacaaataacttgtgatg
tttgtctttctatacctggttcatttaacattttctttttcttttcttttcttttttttt
ttttttgtgagactgagtcttgctctgtcactcaggctggagggcaatggtgcatctcag
ctcactgcaacctccacctcctaggttcaagcaattcttatgcctcagcctcctggctag
ctgggattacaggcgtgtgtcaccatgccaggctaatttttgtacttttagtagagatgg
ggtttcaccatgttggccaggctggtcttgaactcctggcctcaagtgatccacccgcct
ccgcctctgcctcccaaagtgctgggattacgggcctgagccactgtgcccggcccatct
aacattttcactgtcaatcacaatgggattaaaactcctcccacagcccctagggacca
CENSOR futtatás eredménye:
Megtalált repetitív elemek:
kezdet vég elem neve
humckmm1 2 63 Alu-Jb 1 62 c
humckmm1 67 119 L1MA2 697 751 c
humckmm1 138 382 Alu-Jb 42 290 c
humckmm1 383 449 L1MA2 623 696 c
humckmm1 451 480 (TTTTC) 5 33 d
humckmm1 481 775 Alu-Sz 1 290 c
A repetitív elemektől megtisztított szekvencia (a törölt részek kiikszelve):
GXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTATXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXTTGTTTTTTGTTTTTTGTXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
XXXXXCATCTAACATTTTCACTGTCAATCACAATGGGATTAAAACTCCTCCCACAGCCCCTAGGGACCA
|
A génazonosítás legjobb módszere, ha találunk a szekvenciaadatbázisokban már meglévő, hasonló szekvenciát. Ennek módjai:
Your Nucleic Acid Sequence:
10 20 30 40 50
0 TCCATTGAGC CTTATACCAG TAACATCTAC ACTCGAAGAT CTTGTCAGGG
50 GAATTTCAGA TTGTGAATCC TCACTTACTG AAAGATCTTA CTGAGCGGGG
100 CTTGTGGAAT GAAGAGATGA AAAATCAGAT TATTGCATGC AATGGCTCCA
150 TTCAGTTTTC CTTTTTCAGA GCATACCAGA AATTCCTGAT GACCTGAAGC
200 AACTCTATAA GACCGTGTGG GAAATCTCTC AGAAGACTGT TCTCAAGATG
Six-Frame Amino Acid Translation:
Forward 0:
10 20 30 40 50
0 SIEPYTSNIY TRRSCQGNFR L!ILTY!KIL LSGACGMKR! KIRLLHAMAP
50 FSFPFSEHTR NS!!PEATL! DRVGNLSEDC SQD
Forward 1:
10 20 30 40 50
0 PLSLIPVTST LEDLVRGISD CESSLTERSY !AGLVE!RDE KSDYCMQWLH
50 SVFLFQSIPE IPDDLKQLYK TVWEISQKTV LKM
Forward 2:
10 20 30 40 50
0 H!ALYQ!HLH SKILSGEFQI VNPHLLKDLT ERGLWNEEMK NQIIACNGSI
50 QFSFFRAYQK FLMT!SNSIR PCGKSLRRLF SR
Reverse 0:
10 20 30 40 50
0 HLENSLLRDF PHGLIELLQV IRNFWYALKK EN!MEPLHAI I!FFISSFHK
50 PRSVRSFSK! GFTI!NSPDK IFECRCYWYK AQW
Reverse 1:
10 20 30 40 50
0 ILRTVF!EIS HTVL!SCFRS SGISGML!KR KTEWSHCMQ! SDFSSLHSTS
50 PAQ!DLSVSE DSQSEIPLTR SSSVDVTGIR LNG
Reverse 2:
10 20 30 40 50
0 S!EQSSERFP TRSYRVASGH QEFLVCSEKG KLNGAIACNN LIFHLFIPQA
50 PLSKIFQ!VR IHNLKFP!QD LRV!MLLV!G SM
|
| Kodon | E. coli | D. melanogaster | H. sapiens | Z. mays | S. cerevisiae |
|---|---|---|---|---|---|
| AGT | 3 | 1 | 10 | 3 | 5 |
| AGC | 20 | 23 | 34 | 30 | 4 |
| TCG | 4 | 17 | 9 | 22 | 1 |
| TCA | 2 | 2 | 5 | 4 | 6 |
| TCT | 34 | 9 | 13 | 4 | 52 |
| TCC | 37 | 48 | 28 | 37 | 33 |


Pozíciófüggő (inhomogén) ötödrendű Markov-modell: minden pozícióban valamely nukleotid valószínűségét az előtte levő öt nukleotid milyensége határozza meg, s ez a kerethez viszonyított pozíciótól is függ. A valószínűségértékeket a már ismert gének alapján határozzák meg, új szekvencia valószínűsége a modell alapján kiértékelhető.
Promoterek, exon-intron határok, transzlációiniciációs helyek, terminációs helyek azonosítása, az ezekre jellemző szekvenciamintázatok alapján
és hasonlók (súlymátrixszal leírható)

Fekete jelöli a valóságot, szürke a GenScan általi jóslást (ld. jelmagyarázat). Az LMP2 gén jóslása tökéletes, de a TAP1-et és az LMP7-et a GenScan egybeolvasztotta, a TAP2-be eggyel több exont jósolt, a DOB-nak pedig túl korán véget vetett. Az exonok túlnyomó részét mégis hibátlanul detektálta.