1. Mi a bioinformatika?

Vázlat: Ez a kurzus. Mi a bioinformatika? Bioinformatika a szakirodalomban. A bioinformatika céljai. A biológiai információ típusai és elemzési módszerei. Az adatok csoportosítása hasonlóságok alapján. A bioinformatikai "spektrum". A szekvencia/szerkezet deficit. Genomprojektek. Miért fontos a bioinformatika? Szekvenciaanalízis. Az ördög a részletekben lakozik. Pár jótanács. Bioinformatikai webhelyek.


Ez a kurzus


Mi a bioinformatika?

Bioinformatika: számítógépes módszerek kidolgozása és alkalmazása a biológiai információ kezelésére és elemzésére.

Egy újabb definíció az Oxford English Dictionaryból:

Bioinformatics is conceptualizing biology in terms of molecules (in the sense of physical-chemistry) and applying "informatics techniques" (derived from disciplines such as applied maths, computer science and statistics) to understand and organise the information associated with these molecules, on a large scale. In short, bioinformatics is a management information system for molecular biology and has many practical applications.

(Hevenyészett fordításban) A bioinformatika a biológia fogalmi megragadása a (fizikai-kémiai értelemben vett) molekulák segítségével, és (az alkalmazott matematikából, a számítógéptudományból, a statisztikából és más tudományágakból származó) "informatikai módszerek" alkalmazása az ezekkel a molekulákkal kapcsolatos információ megértésére és megszervezésére, nagy léptékben. Röviden, a bioinformatika egy információmenedzselési rendszer a molekuláris biológia számára, és sok gyakorlati alkalmazása van.


Bioinformatika a szakirodalomban

bipapers.gif (13k)

A bioinformatikai témájú cikkek aránya nő, mára kb. 2%. Egyes vélemények szerint lassan már nem lesz szükség kísérletekre, mindent szimulálni fogunk.


A bioinformatika céljai

  1. Adatbázisok létrehozása és karbantartása. Az adatok megszervezése, rendezése oly módon, hogy a kutatók könnyedén hozzáférhessenek a meglévő információhoz, és hozzátehessenek újat.
  2. Eszközök, módszerek kifejlesztése az adatok elemzésére. Az adatok haszontalanok, amíg nem elemeztük őket.
  3. Az eszközök és módszerek alkalmazása az adatok elemzésére, és az eredmények értelmezése a biológia szempontjából.

A biológiai információ típusai és elemzési módszerei


Az adatok forrásaAz adathalmaz méreteBioinformatikai témák
Nyers DNS-szekvenciák12 millió szekvencia, 13 milliárd bázis
  • A kódoló és nem-kódoló régiók elkülönítése
  • Az intronok és exonok azonosítása
  • A géntermékek predikciója
  • Igazságügyi elemzések
Fehérjeszekvenciák400 000 szekvencia (egyenként kb. 300 aminosav)
  • Szekvenciaösszehasonlítási algoritmusok
  • Többszörös szekvenciaillesztő algoritmusok
  • Konzerválódott szekvenciamotívumok azonosítása
Makromolekuláris szerkezetek15 000 szerkezet (egyenként kb. 1000 atom koordinátái)
  • Másodlagos és harmadlagos szerkezet jóslása
  • 3D szerkezeteket illesztő algoritmusok
  • Fehérjegeometriai mérések
  • Felszín, térfogat és alak számítása
  • Intermolekuláris kölcsönhatások
  • Molekulaszimulációk (energiafüggvény, molekuláris mozgások, dokkolás)
Genomok300 teljes genom (egyenként 1,6 millió--3 milliárd bázis)
  • Az ismétlődések jellemzése
  • Szerkezetek hozzárendelése génekhez
  • Filogenetikai analízis
  • Genomi méretű felmérések (fehérjetartalom jellemzése, anyagcsere-útvonalak)
  • Kapcsoltság elemzése egyes betegségek és gének összefüggésének vizsgálatához
Génexpressziós adatoklegnagyobb: kb. 20 időpont az élesztő kb. 6000 génjénél
  • Az expressziós mintázatok korrelációjának vizsgálata
  • Az expressziós adatok összekapcsolása a szekvencia-, szerkezeti és biokémiai adatokkal
Egyéb: Szakirodalom11 millió szakcikk
  • Elektronikus könyvtárak az automatizált irodalomkutatáshoz
  • Tudásadatbázisok irodalmi adatokból
Egyéb: Anyagcsere-útvonalak 
  • Reakcióútvonal-szimulációk

Az adatok csoportosítása hasonlóságok alapján

Fontos: Az információ nagy része csoportokba rendezhető, értelmes biológiai hasonlóságok alapján. Ez számos bioinformatikai módszer alapja. Pl.:

--> "véges alkatrészlista" (az élőlények véges számú alkatrészből épülnek fel)


Mintázatfelismerés és predikció

Két alapvető művelet a bioinformatikában


Homológia és analógia

Homológia = közös evolúciós eredet (szekvenciák esetében). Nincs mértéke (nem fejezhető ki %-ban!!!), két szekvencia vagy homológ, vagy nem.

Analógia: hasonlóság, közös evolúciós eredet nélkül

Két fehérje analóg lehet, ha:

Ilyenkor közös evolúciós eredetre nem lehet következtetni. Inkább konvergens evolúció állhat a háttérben.

Pl. szubtilizin és kimotripszin: mindkettő szerin proteáz, a His/Asp/Ser katalitikus triáddal, de térszerkezetük teljesen eltérő:

subt.gif (18k)

Szubtilizin

chtry.gif (18k)

Kimotripszin


Ortológia és paralógia

A homológia két típusa


A bioinformatikai "spektrum"

bispectr.gif (23k)

Bioinformatikai módszerek két dimenziója:


A szekvencia/szerkezet deficit

Az ismert fehérjeszekvenciák és az ismert térszerkezetek számának növekedése az utóbbi években:

infodefi.gif (2.9k)

Genomprojektek

Már megszekvenált genomok (ld. http://www.ebi.ac.uk/genomes/:

Folyamatban lévő fontos genomszekvenálási projektek (ld. http://www.ebi.ac.uk/~sterk/genome-MOT/):


A humán genom projekt


Miért fontos a bioinformatika?


Szekvenciaanalízis


Az ördög a részletekben lakozik

A szekvenciaanalízis során számos csapdát kell elkerülni:


Moduláris fehérjék


A szekvencia és a szerkezet szerepe a funkció meghatározásában

A bioinformatikai programok, eljárások, algoritmusok nem végleges, biztos válaszokat adnak, csak segítenek leszűkíteni a lehetőségek körét és kísérleteket tervezni a kérdések eldöntésére. A valódi válaszokat a biológiai háttérismeretek fényében találhatjuk meg.


Pár jótanács

Ne higgyük el mindig:

Továbbá:


Bioinformatikai webhelyek

EMBL, SRS

NCBI (Medline, Genbank, stb.)

Expasy, Swissprot, Amos

CCP11 projekt