2. Adatbázisok
Vázlat:
- Adatbázisok általában
- Nukleinsavszekvencia-adatbázisok
- Elsődleges DNS-szekvencia-adatbázisok
- Specializált adatbázisok
- Fehérjeszekvencia-adatbázisok
- Elsődleges fehérjeszekvencia-adatbázisok
- Összetett fehérjeszekvencia-adatbázisok
- Másodlagos és harmadlagos (szekvenciamintázat-)adatbázisok
- Térszerkezeti adatbázisok
- Fehérjecsaládok adatbázisai
- Klaszterezés
- Szekvenciacsaládok adatbázisai
- Szerkezeti családok adatbázisai
Adatbázisok általában
Rengeteg adatbázis, a következő részterületeken:
- DNS-szekvenciák
- Összehasonlító genomadatbázisok
- Génexpressziós adatok
- Génazonosítás és génszerkezet
- Genetikai és fizikai genomtérképek
- Genomok
- Intermolekuláris kölcsönhatások
- Anyagcsere- és szabályozási útvonalak
- Mutációk
- Betegségek
- Fehérjék
- Fehérjeszekvencia-mintázatok
- Proteomelemzés
- RNS-szekvenciák
- Térszerkezetek
- Gyógyszerek
- ...stb.
Már adatbázisok adatbázisa (katalógusa) is van: DBCAT
A Nucleic Acids Research folyóirat minden évben Adatbázis-különszámot ad
ki. Ebben van egy hasznos adatbázislista.
Nukleinsavszekvencia-adatbázisok
Elsődleges DNS-szekvencia-adatbázisok
- A következők:
- GenBank (USA, National Center for Biotechnology Information)
- EMBL (Európa, European Bioinformatics Institute)
- DDBJ (DNA Data Base of Japan, Japán, National Institute of
Genetics)
- Együtt: International Nucleotide Sequence Database Collaboration
- Mindhárom adatbázis fenntartója gyűjti a szekvenciaadatokat:
- közvetlenül a szekvenálást végző kutatóktól
- az irodalomból
- szabadalmakból
- a nagy genomszekvenálási projektekből
- Együttműködnek, új adataikat naponta kicserélik egymás között (ezért
ugyanaz van bennük)
- Méretei:
2001 augusztus: kb. 12,8 millió szekvencia, ezekben 13,5 milliárd bázis. 14
havonként megduplázódik.
- A GenBank 17 kisebb szekcióból (division) áll, melyeknek hárombetűs rövidítése
van:
| Szekció | Milyen szekvenciákat tartalmaz | Megjegyzés
|
|---|
| PRI | Főemlősök (Primates) | Az élővilág egyes
csoportjai szerinti szekciók
|
| ROD | Rágcsálók (Rodents)
|
| MAM | Egyéb emlősök (Mammals)
|
| VRT | Egyéb gerincesek (Vertebrates)
|
| INV | Gerinctelenek (Invertebrates)
|
| PLN | Növények (Plant), gombák, moszatok
|
| BCT | Baktériumok (Bacteria)
|
| VRL | Vírusok (Viral)
|
| PHG | Bakteriofágok (phage)
|
| SYN | Szintetikus szekvenciák (synthetic) | Egyéb
kategóriák
|
| UNA | Annotáció nélküliek (unannotated)
|
| EST | Expressed Sequence Tag-ek
|
| PAT | Szabadalmaztatott (patent)
|
| STS | Sequence Tagged Sites
|
| GSS | Genome Survey Sequences
|
| HTG | High Throughput Genomic Sequences
|
| HTC | High Throughput cDNA Sequences
|
- STS: Olyan, rövid szekvenciarészletek (<400 bp), amelyek a
genomban csak egy helyen, egy bizonyos pozícióban találhatóak meg.
Markerként, tájékozódási pontként használatosak.
- EST: Olyan STS-szekvenciák, amelyeket cDNS részleges szekvenálásával nyertek
(komplementer DNS: az mRNS DNS-re átírt változata). Felhasználhatóak egy
gén azonosításához, térképezéséhez, klónozásához.
- GSS: mint az EST, de a genomból nyert szekvenciák (nem feltétlenül
egyedülállóak)
- HTG: a nagy genomszekvenálási projektekből nyert, hosszabb, még nem
véglegesített szekvenciák. Négy kategória:
- Phase 0: klónokból véletlenszerűen nyert szekvenciarészletek
- Phase 1: nem véglegesített szekvencia, rendezetlen, irányítatlan
darabokból állhat, hézagokkal
- Phase 2: már rendezett, irányított darabok, hézagokkal
- Phase 3: véglegesítendő szekvencia, átkerül a megfelelő
rendszertani szekcióba
- HTC: nagy szekvenálási projektekből nyert cDNS szekvenciák
- A szekciókban lévő szekvenciák számának megoszlása (2000 október):
- A szekciókban lévő bázisok számának megoszlása:
A szekvenciák száma szerinti eloszlásban az EST-k vannak többségben
(67%), de a bázisok száma szerint nem, mert rövidek.
A GenBank fájlok felépítése ("flat file")
Példa
Kulcsszavak és alkulcsszavak:
| Kulcsszó | Magyarázat, alkulcsszavak
|
|---|
| LOCUS | Rövid címke (pl. itt HUMCYCLOX: humán ciklooxigenáz),
bázisok száma (itt: 3387), forrás (itt: mRNS), szekció (itt:
PRI=főemlősök), beküldés dátuma
|
| DEFINITION | A szekvencia rövid leírása (pl. minek a génje)
|
| ACCESSION | Azonosítószám: a szekvencia egyedi azonosítója
|
| VERSION | Azonosítószám.verziószám: javítás esetén az első nem
változik, csak a második. GI (geninfo identifier): az aktuális verzióhoz
rendelt további azonosítószám
|
| KEYWORDS | kulcsszavak, a szerző adhatja meg őket, bár a
GenBanknál nem szeretik (nincs szabványosítva)
|
| SOURCE | Milyen szövetből származik a
DNS
| ORGANISM | Forrásorganizmus rendszertani
besorolása |
|
| REFERENCE | irodalmi hivatkozás az egyes
szekvenciaszakaszokra
| AUTHORS | szerzők |
| TITLE | cím | | JOURNAL | folyóirat |
| MEDLINE | Medline azonosító |
|
| FEATURE | "Feature table": a szekvencia tulajdonságainak
részletes leírása, szakaszonként, a szakaszhatárok megadásával
| source | forrásorganizmus (faj, szövet, sejttípus, hivatkozás a
taxonómiai adatbázisra (db_xref)
| | 5'UTR | nem transzlálódó szakasz az 5' végen
| | gene | a tulajdonképpeni gén
| | CDS | a kódoló szekvencia (coding sequence), megfelelő
kereszthivatkozások a fehérjeadatbázisra, fordítás
| | sig_peptide | szignálpeptid
| | mat_peptide | érett peptid (a szignálpeptid lehasadása után
maradó rész)
| | 3'UTR | nem transzlálódó szakasz a 3' végen
| | polyA_signal | poliadenilációs szakasz
| |
| BASE COUNT | Melyik bázisból hány van
|
| ORIGIN | A szekvencia helye a genomon belül (ha ismert)
|
| | nukleotidszekvencia
|
| // | rekord vége
|
Specializált nukleinsavszekvencia-adatbázisok
- dbEST, dbSTS, dbGSS (az NCBI-nél): a GenBankban is meglévő szekvenciák
adatbázisai, de bővebb információt is szolgáltatnak az egyes szekvenciákról
- Genomadatbázisok: Ensembl (emberi genom), SGD (élesztő genomja), ACeDB (A Canenorhabditis
elegans DataBase, C. elegans genomja), stb. Fizikai géntérképekkel, stb. (Részletesen majd a genomikai
előadásban)
- COGs: Clusters of Orthologous Groups of proteins: fehérjéket kódoló
DNS-szekvenciák filogenetikai rendszerezése. 44 organizmus teljes genomja
alapján készült. Az ortológokat egy csoportba sorolja. (Részletesebben majd a genomikai
előadásban.)
Fehérjeszekvencia-adatbázisok
Elsődleges fehérjeszekvencia-adatbázisok
- 1960-as években alapozta meg Margaret Dayhoff a National Biomedical
Research Foundationnál (USA)
- 1988 óta: PIR-International konzorcium tartja fenn (NBRF, JIPID [Japanese
International Protein Information Database], MIPS [Munich Information Center for
Protein Sequences])
- Mintegy 250 000 szekvencia, ezekben 80 millió aminosav (2001 szeptember)
- 4 szekció:
- PIR1: teljesen klasszifikált, annotált szekvenciák
- PIR2: előzetes szekvencia, részlegesen ellenőrzött és klasszifikált
(ide tartozik az adatbázis legnagyobb része)
- PIR3: egyáltalán nem ellenőrzött, nem osztályzott, nem annotált (pár
száz db)
- PIR4: a természetben nem előforduló, nem expresszálódó szekvenciák (pl.
pszeudogének transzlációi, hibás transzlációk, szintetikus szekvenciák) (pár
száz db)
- A szekvenciákat szekvenciaazonosság alapján családokba sorolja.
- 1986-ban született a genfi egyetem és az EMBL együttműködéseként,
1994-től a hinxtoni EBI (European Bioinformatics Institute) vette át, majd
1998-tól a SIB (Swiss Institute of Bioinformatics) is beszállt
- Mintegy 101 000 szekvencia (37 millió aminosav) kb. 7200 fajból
(2001 szeptember)
A szekvenciák megoszlása az élőlények csoportjai szerint
- Fő törekvések:
- nagyon magas szintű és részletes annotáció minden
fehérjéhez (funkció, doménszerkezet, másodlagos és negyedleges szerkezet, poszttranszlációs módosítások,
változatok, a fehérjével összefüggő betegségek, stb.)
- minimális redundancia
- bőséges kereszthivatkozások más adatbázisokra
A SWISS-PROT rekordok felépítése
Példa
| Kód | Jelentés
|
|---|
| ID | Identifier: azonosító. Ált. FEHÉRJE_FORRÁSORGANIZMUS alakú. Ez
változhat!
|
| AC | Accession number: a szekvenciához rendelt azonosító kód,
sohasem változik
|
| DT | Date: létrehozás és módosítások dátumai
|
| DE | Description: leírás (minek a szekvenciája)
|
| GN | Gene name: a gén neve
|
| OS | Organism species: milyen fajból származik
|
| OC | Organism classification: a faj rendszertani besorolása
|
| RN | Reference number: hivatkozás sorszáma
|
| RP | Reference position: a hivatkozással kapcsolatos
szekvenciaszakasz
|
| RA | Reference authors: szerzők
|
| RL | Reference location: folyóirat, kötet, oldal
|
| RT | Reference title: cím
|
| RX | Reference cross-references: kereszthivatkozások pl. Medline
|
| CC | Comments: megjegyzések. Információk a funkcióról,
poszttranszlációs módosításokról, szövetspecificitásról, sejtbeli
elhelyezkedésről, fehérjecsaládhoz tartozásról
|
| DR | Database cross-references: kereszthivatkozások más adatbázisokra
|
| KW | Keywords: kulcsszavak
|
| FT | Feature table: információk az egyes szekvenciaszakaszokról
(domének, transzmembrán szakaszok, másodlagos szerkezet, diszulfidhidak,
kötőhelyek, módosított oldalláncok, szignálszekvenciák, stb., a megbízhatóság jelölésével)
|
| SQ | Szekvencia hossza, számított molekulatömeg, ellenőrző összeg
|
| | maga a szekvencia
|
| // | rekord vége
|
TrEMBL (translated EMBL)
- A SWISS-PROT társadatbázisa, az EMBL-ben lévő összes CDS (kódoló
szekvencia) lefordítása aminosavszekvenciára, számítógépesen annotálva
- Egy részük fokozatosan átkerül a SWISS-PROTba
- Mintegy 480 000 szekvencia (2001 szept.)
- A Protein Data Bank térszerkezeti adatbázisból kivont szekvenciákat
tartalmazza
- Csak a PDB-ben ténylegesen szerkezettel rendelkező aminosavak
- Bőséges annotáció (másodlagos szerk., felbontás, stb.)
Melyik szekvenciaadatbázist használjuk?
- NRL_3D a legkisebb, de van hozzá szerkezeti információ
- PIR(1-4) a legnagyobb, de az annotáció sokszor szegényes
- SWISS-PROT kiválóan annotált, de kevés szekvencia van benne
Két megoldás:
- Mindegyiket használjuk
- Összetett adatbázist használunk
Összetett fehérjeszekvencia-adatbázisok
Céljuk: egyesíteni az elsődleges fehérjeszekvencia-adatbázisokban lévő
szekvenciákat, a redundanciák kiszűrésével. Több ilyen is van:
- Forrás: PDB, SWISSPROT, PIR, GenPept (a GenBank transzlációja), SPupdate
(a SWISSPROT hetenkénti frissítései), GenPeptupdate (a GenPept naponkénti
frissítései)
- Átfogó és naprakész
- De: Redundáns! Csak a teljes azonosságok vannak kiszűrve.
Polimorfizmusok és kisebb szekvenálási hibák miatt
ugyanaz a fehérje többször is szerepelhet; egyes rekordok más rekordokban
lévő fragmentumok egyesítései, stb.
- NCBI fehérjeadatbázisa
- Forrás: SWISSPROT (legnagyobb prioritással), PIR, GenPept, NRL_3D
- Nem naprakész, csak 6-8 hetenként frissítik
- Kb. 280 000 szekvencia
- Kevésbé redundáns az NRDB-nél (egy aminosavban eltérő szekvenciákat is
azonosnak vesz a szűréskor), de mégis van valamennyi redundancia
SWISS-PROT + TrEMBL
- ExPASy-nál együttesen kereshető a két adatbázis
- Naprakész
- Kevésbé redundáns, mint az OWL és az NRDB, de még így is kb. 30%-ban
redundáns
Melyik összetett adatbázist használjuk?
- NRDB naprakész, de elég redundáns
- OWL kevésbé redundáns, de nem naprakész
- SWISSPROT+TrEMBL nem elég átfogó
- Legbiztosabb, ha mindegyiket használjuk, bár ez ellentétes a céljukkal!
Másodlagos és harmadlagos (szekvenciamintázat-)adatbázisok
Szekvenciamintázat-adatbázisok
- Az elsődleges adatbázisokban (a harmadlagosoknál a másodlagosokban lévő
információk) lévő szekvenciák alapján többszörös szekvenciaösszerendezéseket
készítünk. Ekkor láthatóvá válnak a konzerválódott régiók, a
motívumok. Ezekből vezetik le a másodlagos, ill. a harmadlagos
adatbázisokat.
- Számos adatbázis, részletesebben majd külön előadásban.
- Szekvenciaanalízisben nagy jelentőségük van
Térszerkezeti adatbázisok
- Brookhaven National Lab-ból átkerült a Research Collaboratory for
Structural Bioinformatics-hoz
- Kb. 16 000 szerkezet, ebből kb. 15 000 fehérje, a többi
nukleinsav és szénhidrát
- Erősen redundáns (ugyanaz a fehérje sokszor szerepelhet: különböző
szubsztrátokkal és kristályosítási körülményekkel, mutánsok, stb.)
- Röntgen- és NMR-szerkezetek
A konnektivitás problémája
- A szekvencia megadja a molekula konnektivitását is (melyik atom
melyikhez van kötve)
- Szerkezet-feldolgozó programok két módon reprodukálják a konnektivitást:
- Kémiai szabályok alapján: vegyértékek, kötéshosszak alapján.
Hátrány: pontatlan koordináták esetén hibás konnektivitás adódik
- Molekulacsoport-könyvtárakkal: külön tároljuk az összes
aminosav, kismolekula, stb. rendes szerkezetét a konnektivitásokkal együtt.
Nem adódhat hibás konnektivitás.
Fájlformátumok
- Klasszikus PDB formátum: Példa
| Kulcsszó | Magyarázat
|
|---|
| HEADER | Fejléc, a molekula besorolása
|
| COMPND | A molekula megnevezése
|
| SOURCE | Forrásorganizmus
|
| AUTHOR | Szerzők
|
| REVDAT | Frissítési dátumok
|
| JRNL | Az irodalmi hivatkozás
|
| REMARK | Megjegyzések: további irodalmi hivatkozások, felbontás, a
finomítás módszerei, megjegyzések a szerkezethez, javítások
|
| SEQRES | A szekvencia. Nem mindig ugyanaz, mint a koordinátáknál
megadott szekvencia! Itt a valódi biológiai szekvencia van.
|
| HELIX, SHEET | Másodlagos szerk.
|
| SSBOND | Diszulfidhidak
|
| SITE | Megjelölt helyek, pl. kötőhelyek, aktív helyek
|
| CRYST1 | Elemi cella adatai
|
| MTRIX | Másik alegység generáláshoz szükséges mátrix
|
| ATOM, HETATM | Az egyes atomok adatai. Sorszám, atom neve, alternatív
pozíció jelzője, oldallánc neve,
lánc betűjele, oldallánc sorszáma, beszúrási kód, koordináták, occupancy,
hőmérsékleti faktor, lábjegyzet száma
|
| TER | Láncvég
|
| CONECT | Összekötendő atomok
|
| MASTER | Különféle rekordok száma, ellenőrző összegek
|
| END | Vég
|
- Sok probléma: bonyolult formátum, számos hibalehetőség, programmal
nehezen beolvasható (sokféle ellenőrzés kell, stb.), kémiai gráfot nem
mindig képes pontosan megadni
- Előny: ember által is jól olvasható
- Hidrogénatomok csak NMR-szerkezeteknél, ezekben több szerkezet is lehet
- mmCIF (macromolecular Chemical Interchange Format)
- bonyolult formátum, sokféle kulcsszóval, számos plusz információval
(pl. kötésszögek)
- ember számára nehezen olvasható, programokkal könnyen
- PDB formátum számos hibáját kiküszöböli
- MMDB
- ASN.1 szerkezet: hierarchikus felépítésű fájl. Ember számára nehezen,
számítógép számára könnyen olvasható
- Oldallánc-könyvtár alapján pontosan definiálja a kémiai gráfot
- NCBI használja, az ő Cn3D nézegetőprogramjuk ismeri
Összefoglalások a PDB-szerkezetekről, rengeteg linkkel más adatbázisokhoz
- A homooligomereknél a PDB általában csak egy alegységet tartalmaz
- PQS: automatikus módszerekkel generálják a biológiailag aktív oligomer
szerkezetet (nemtriviális, nem mindig egyértelmű, a valószínű szerkezetet
adja meg)
Nézegetők
Rasmol, Cn3d, Weblab Viewer, stb. (ingyenes programok): megjelenítik a
térszerkezeteket
Tökéletlenségek: pl. Rasmol az alternatív atompozícióknál hibázik (ld.
5hvp, C lánc)
Fehérjecsaládok adatbázisai
Klaszterezés
- Klaszterezés: eljárás, mellyel egy halmaz elemeit egymáshoz való közelségük alapján
csoportokba soroljuk. Lehet egyszerű vagy hierarchikus:
Egyszerű klaszterezés: részhalmazokra bontás
Hierarchikus klaszterezés: az osztályozás fastrukúrával
reprezentálható
- Bármilyen halmazon végezhető, amelyben két elem közötti távolság
értelmezhető.
- Szekvenciákra alkalmazva: szekvenciacsaládok adatbázisai
- Térszerkezetekre alkalmazva: szerkezeti családok adatbázisai
Szekvenciacsaládok adatbázisai
- Klaszterezésével családokba sorolhatóak a szekvenciák
- Sok ilyen adatbázis (CLUSTR, PROT-FAM, stb.)
- Bővebben egy másik előadásban
Szerkezeti családok adatbázisai
A fehérjék (klaszterezéssel) szerkezeti családokba sorolhatóak, a PDB
15000 szerkezete között csak kb. 600 teljesen különböző alapszerkezet (fold)
van.
A fold ("gomboly") fogalma
- Fold: Egy fehérje nagybani, durva szerkezete, a polipeptidlánc
gerincének durván vett térbeli lefutása. Magában foglalja a másodlagos
szerkezeti elemek körülbelüli, relatív elhelyezkedését és
összeköttetéseik sorrendjét. A folding (felgombolyodás)
szóból. Magyarul gombolynak mondhatnánk.
- A hasonló szerkezetű fehérjéknek ugyanaz a foldja, vagyis a gombolya. A
fold tehát egy fehérjecsaládot határoz meg, szerkezeti hasonlóság alapján.
Példa:
|
|
| Különböző fajokból származó trióz-foszfát izomerázok
(TIM) és hasonló fehérjék egymásra illesztett szerkezete (alfa-szénatomokból
álló váz).
| A fehérjecsalád fold-ja, azaz "gombolya", az ún.
TIM-barrel fold
|
- Részben manuálisan, részben automatizált módszerekkel készített adatbázis
- Hierarchikus rendszerezés:
- Fold ("gomboly"): Jelentős szerkezeti hasonlóság az
egyazon foldhoz tartozó szerkezetek között.
Lényegében ugyanolyan másodlagos szerkezeti elemek, ugyanolyan sorrendben,
ugyanolyan topológiával. A perifériális részek jelentősen eltérhetnek. Nem
feltétlenül közös eredet magyarázza a hasonló szerkezetet.
- Főcsalád (superfamily): Valószínűsíthető közös evolúciós
eredet az egyazon főcsaládhoz tartozó fehérjék között
Alacsony szekvenciaazonosság, de a funkcionális és szerkezeti hasonlóságok
közös evolúciós eredetre utalnak
- Család: egyértelmű evolúciós rokonság az egyazon családhoz
tartozó fehérjék között
A szekvenciaazonosság a család tagjai között 30% vagy nagyobb, vagy pedig a
hasonló funkcióból és szerkezetből egyértelmű az evolúciós rokonság
(alacsonyabb szekvenciaazonosság esetén is)
CATH adatbázis
- A hierarchia szintjei: Class, Architecture, Topology, Homologous
superfamily: Osztály, Architektúra, Topológia, Homológ főcsalád
- Szintén részben manuálisan, részben automatikusan létrehozott adatbázis
- CATH hierarchia teteje: osztályok (class):
- Tisztán alfa fehérjék
- Tisztán béta
- Alfa és béta (a/b) (parallel béta, váltakozó alfa és béta régiók)
- Alfa és béta (a+b) (antiparallel béta, elkülönülő alfa és béta
régiók)
- Többdoménes fehérjék (domének más-más osztályban)
- Membrán- és sejtfelszíni fehérjék és peptidek
- Kis fehérjék (nagy része ligandum vagy prosztetikus csoport)
- "Coiled coil" fehérjék
- Kisfelbontású fehérjék
- Peptidek
- Tervezett fehérjék
- "CATH-kerék": az adatbázisban lévő osztályok megoszlása:
- Színek: piros (alfa), zöld (béta), sárga (alfa/béta), kék (nincs
másodlagos szerk.)
- Belső kerék: architektúrák
- Külső kerék: topológiák
Fontosabb architektúrák:
Tisztán alfa osztály:
|
|
| Hélixköteg (citokróm C)
| Hélixek (hemoglobin)
|
Tisztán béta osztály:
|
|
|
| Egyszeres redő (heregulin alfa)
| Béta hordó (porin)
| Béta szendvics (hisztokomp. antigén)
|
|
|
|
| Béta hasáb (agglutinin)
| Béta propeller (metilamin dehidrogenáz)
| Béta szolenoid (Fágfeherje)
|
Alfa/béta és alfa+béta fehérjék:
|
|
|
| Alfa-Béta tekercs (scytalone dehidratáz)
| Alfa-Béta hordó (trióz-foszfát izomeráz)
| Alfa-Beta 2-szendvics (barnáz)
|
|
|
|
| Alfa-Béta 3-szendvics (génszabályozó fehérje)
| Alfa-Béta 4-szendvics (DNáz)
| Alfa-Béta Lópatkó (RNáz inhibitor)
|
- Teljesen automatikusan létrehozott adatbázis
- A DALI algoritmus a PDB-ben lévő szerkezetek között hasonlóságot állapít meg, ennek
alapján családokat különít el
- Előnye a SCOPpal és CATHtal szemben: a DALI szervernek el lehet küldeni
új, ismeretlen szerkezetet, s megtalálja a hozzá hasonlókat
A szerkezeteknek a SCOP, a CATH és az FSSP szerinti osztályozása
lényegében megegyezik, apróbb eltérésekkel. A legtöbb kiegészítő információ
a SCOP-ban található.