2. Adatbázisok

Vázlat:

  1. Adatbázisok általában
  2. Nukleinsavszekvencia-adatbázisok
    • Elsődleges DNS-szekvencia-adatbázisok
    • Specializált adatbázisok
  3. Fehérjeszekvencia-adatbázisok
    • Elsődleges fehérjeszekvencia-adatbázisok
    • Összetett fehérjeszekvencia-adatbázisok
    • Másodlagos és harmadlagos (szekvenciamintázat-)adatbázisok
  4. Térszerkezeti adatbázisok
  5. Fehérjecsaládok adatbázisai
    • Klaszterezés
    • Szekvenciacsaládok adatbázisai
    • Szerkezeti családok adatbázisai

Adatbázisok általában

Rengeteg adatbázis, a következő részterületeken:

Már adatbázisok adatbázisa (katalógusa) is van: DBCAT

A Nucleic Acids Research folyóirat minden évben Adatbázis-különszámot ad ki. Ebben van egy hasznos adatbázislista.


Nukleinsavszekvencia-adatbázisok

Elsődleges DNS-szekvencia-adatbázisok

A GenBank

A GenBank fájlok felépítése ("flat file")

Példa

Kulcsszavak és alkulcsszavak:
KulcsszóMagyarázat, alkulcsszavak
LOCUSRövid címke (pl. itt HUMCYCLOX: humán ciklooxigenáz), bázisok száma (itt: 3387), forrás (itt: mRNS), szekció (itt: PRI=főemlősök), beküldés dátuma
DEFINITIONA szekvencia rövid leírása (pl. minek a génje)
ACCESSIONAzonosítószám: a szekvencia egyedi azonosítója
VERSIONAzonosítószám.verziószám: javítás esetén az első nem változik, csak a második. GI (geninfo identifier): az aktuális verzióhoz rendelt további azonosítószám
KEYWORDSkulcsszavak, a szerző adhatja meg őket, bár a GenBanknál nem szeretik (nincs szabványosítva)
SOURCEMilyen szövetből származik a DNS
ORGANISMForrásorganizmus rendszertani besorolása
REFERENCEirodalmi hivatkozás az egyes szekvenciaszakaszokra
AUTHORSszerzők
TITLEcím
JOURNALfolyóirat
MEDLINEMedline azonosító
FEATURE"Feature table": a szekvencia tulajdonságainak részletes leírása, szakaszonként, a szakaszhatárok megadásával
sourceforrásorganizmus (faj, szövet, sejttípus, hivatkozás a taxonómiai adatbázisra (db_xref)
5'UTRnem transzlálódó szakasz az 5' végen
genea tulajdonképpeni gén
CDSa kódoló szekvencia (coding sequence), megfelelő kereszthivatkozások a fehérjeadatbázisra, fordítás
sig_peptideszignálpeptid
mat_peptideérett peptid (a szignálpeptid lehasadása után maradó rész)
3'UTRnem transzlálódó szakasz a 3' végen
polyA_signalpoliadenilációs szakasz
BASE COUNTMelyik bázisból hány van
ORIGINA szekvencia helye a genomon belül (ha ismert)
 nukleotidszekvencia
//rekord vége


Specializált nukleinsavszekvencia-adatbázisok


Fehérjeszekvencia-adatbázisok

Elsődleges fehérjeszekvencia-adatbázisok

PIR (Protein Information Resource)

SWISS-PROT

A SWISS-PROT rekordok felépítése

Példa

KódJelentés
IDIdentifier: azonosító. Ált. FEHÉRJE_FORRÁSORGANIZMUS alakú. Ez változhat!
ACAccession number: a szekvenciához rendelt azonosító kód, sohasem változik
DTDate: létrehozás és módosítások dátumai
DEDescription: leírás (minek a szekvenciája)
GNGene name: a gén neve
OSOrganism species: milyen fajból származik
OCOrganism classification: a faj rendszertani besorolása
RNReference number: hivatkozás sorszáma
RPReference position: a hivatkozással kapcsolatos szekvenciaszakasz
RAReference authors: szerzők
RLReference location: folyóirat, kötet, oldal
RTReference title: cím
RXReference cross-references: kereszthivatkozások pl. Medline
CCComments: megjegyzések. Információk a funkcióról, poszttranszlációs módosításokról, szövetspecificitásról, sejtbeli elhelyezkedésről, fehérjecsaládhoz tartozásról
DRDatabase cross-references: kereszthivatkozások más adatbázisokra
KWKeywords: kulcsszavak
FTFeature table: információk az egyes szekvenciaszakaszokról (domének, transzmembrán szakaszok, másodlagos szerkezet, diszulfidhidak, kötőhelyek, módosított oldalláncok, szignálszekvenciák, stb., a megbízhatóság jelölésével)
SQSzekvencia hossza, számított molekulatömeg, ellenőrző összeg
 maga a szekvencia
//rekord vége

TrEMBL (translated EMBL)

NRL_3D

Melyik szekvenciaadatbázist használjuk?

Két megoldás:


Összetett fehérjeszekvencia-adatbázisok

Céljuk: egyesíteni az elsődleges fehérjeszekvencia-adatbázisokban lévő szekvenciákat, a redundanciák kiszűrésével. Több ilyen is van:

NRDB (Non-Redundant DataBase)

OWL

SWISS-PROT + TrEMBL

Melyik összetett adatbázist használjuk?


Másodlagos és harmadlagos (szekvenciamintázat-)adatbázisok

Szekvenciamintázat-adatbázisok


Térszerkezeti adatbázisok

PDB (Protein Data Bank)

A konnektivitás problémája

Fájlformátumok


PDBsum

Összefoglalások a PDB-szerkezetekről, rengeteg linkkel más adatbázisokhoz


PQS (Protein Quaternary Structures)


Nézegetők

Rasmol, Cn3d, Weblab Viewer, stb. (ingyenes programok): megjelenítik a térszerkezeteket

Tökéletlenségek: pl. Rasmol az alternatív atompozícióknál hibázik (ld. 5hvp, C lánc)


Fehérjecsaládok adatbázisai

Klaszterezés


Szekvenciacsaládok adatbázisai


Szerkezeti családok adatbázisai

A fehérjék (klaszterezéssel) szerkezeti családokba sorolhatóak, a PDB 15000 szerkezete között csak kb. 600 teljesen különböző alapszerkezet (fold) van.

A fold ("gomboly") fogalma

Példa:

timek.gif (21k) timfold.gif (20k)
Különböző fajokból származó trióz-foszfát izomerázok (TIM) és hasonló fehérjék egymásra illesztett szerkezete (alfa-szénatomokból álló váz). A fehérjecsalád fold-ja, azaz "gombolya", az ún. TIM-barrel fold

SCOP (Structural Classification of Proteins) adatbázis

CATH adatbázis

Fontosabb architektúrák:

Tisztán alfa osztály:
a1.gif (6.7k) a2.gif (8.0k)
Hélixköteg (citokróm C) Hélixek (hemoglobin)

Tisztán béta osztály:
a3.gif (3.7k) a4.gif (5.0k) a5.gif (5.6k)
Egyszeres redő (heregulin alfa) Béta hordó (porin) Béta szendvics (hisztokomp. antigén)
a6.gif (5.5k) a7.gif (7.7k) a8.gif (5.8k)
Béta hasáb (agglutinin) Béta propeller (metilamin dehidrogenáz) Béta szolenoid (Fágfeherje)

Alfa/béta és alfa+béta fehérjék:
a9.gif (7.0k) a10.gif (8.3k) a11.gif (6.3k)
Alfa-Béta tekercs (scytalone dehidratáz) Alfa-Béta hordó (trióz-foszfát izomeráz) Alfa-Beta 2-szendvics (barnáz)
a12.gif (6.7k) a13.gif (11k) a14.gif (7.1k)
Alfa-Béta 3-szendvics (génszabályozó fehérje) Alfa-Béta 4-szendvics (DNáz) Alfa-Béta Lópatkó (RNáz inhibitor)

FSSP (Families of Structurally Similar Proteins) adatbázis

A szerkezeteknek a SCOP, a CATH és az FSSP szerinti osztályozása lényegében megegyezik, apróbb eltérésekkel. A legtöbb kiegészítő információ a SCOP-ban található.