10. fejezet - Bevezetés a bioinformatikába

Tartalom

10.1. B ioinformatikai adatbázisok
10.1.1. Bibliográfiai gyűjtemények
10.1.2. DNS szekvencia-adatbázisok: GenBank és Ensembl
10.1.3. Fehérje-szekvencia adatbázisok: UniProt
10.1.4. Az "omikák" világa. Fajonkénti adatbankok.
10.1.5. Szerkezeti és funkcionális adatbázisok
10.2. Szekvencia-illesztések és egyéb fontos algoritmusok
10.2.1. Páronkénti szekvencia-illesztések (pairwise alignments)
10.2.2. A szekvencia-illesztés paraméterei
10.2.3. A BLAST algoritmus
10.2.4. Szekvenálás ellenőrzése illesztésekkel. Plazmid szerkesztők
10.2.5. Többszörös illesztések (multiple alignments). A Clustal programcsomag
10.2.6. Evolúciósan konzervált elemek azonosítása
10.2.7. Automatizált módszerek a szekvenciák elemzésére
10.3. Nukleinsavak tulajdonságainak jóslása
10.3.1. Leolvasási keretek és gének jóslása
10.3.2. Gén meghatározás cDNS alapján. Eukarióta gének analízise
10.3.3. DNS és RNS szerkezetek jóslása. Oligonukleotid tervezés
10.3.4. Nukleinsavak "olvadáspontja"
10.4. Fehérjék tulajdonságainak jóslása
10.4.1. A fehérjék egyszerű fizikai tulajdonságainak becslése. Reverz transzláció
10.4.2. Lineáris motívumok keresése fehérjékben (és nukleinsavakban)
10.4.3. Fehérjeszerkezetek jóslása. Rendezett és rendezetlen régiók
10.5. In silico szerkezeti analízisek
10.5.1. Makromolekulák grafikai megjelenítése
10.5.2. Homológia-modellezés és in silico dokkolás
10.6. A predikciós módszerek pontossága
10.6.1. Egy predikció "jóságát" leíró paraméterek. Optimális döntések.
10.6.2. Adatbázisok minősége: elsődleges és másodlagos hibák
10.6.3. Ellenőrzött adatbázisok. Ellentmondó kísérleti eredmények kezelése
10.6.4. Mikor használjunk jóslásokat?
10.7. További olvasnivaló a fejezethez

A biológia, különösen a molekuláris biológia 20. század végi és 21. századi fejlődése elképzelhetetlen lett volna megfelelő informatikai háttér nélkül. Egyedül a számítógépek képesek ugyanis áttekinthetően tárolni azt a hatalmas mennyiségű adatot, ami a biológiai polimerek szerkezetének és működésének megértéséhez szükséges. Ugyanezek a számítógépek teszik lehetővé a genomok automatikus összeállítását, gének azonosítását, a nukleinsavak és fehérjék tulajdonságainak jóslását - évről-évre egyre nagyobb pontossággal. A számítógépeket összekapcsoló világháló segítségével a publikációk, kísérletes eredmények, a genomok, gének, nukleinsavak és fehérjék adatai ma már bárhonnan elérhetőek. Ezen felül számos, szabadon hozzáférhető program áll rendelkezésre az interneten, amelyekkel nagyon könnyű molekuláris biológiai elemzéseket végezni. A közvetett információkon alapuló jóslat természetesen nem helyettesíti a pontos mérési eredményeket. Ennek ellenére, a molekuláris szintű kísérletek tervezéséhez és értékeléséhez a megfelelő teljesítményű és tároló kapacitású számítógépek ma már nélkülözhetetlenek.

10.1. B ioinformatikai adatbázisok

10.1.1. Bibliográfiai gyűjtemények

Az olvasóban első kérdésként bizonyára felmerül, hogy mi lehet az internetes oldalak haszna a biológiai kutatás számára. A válasz igen sokrétű. A legnagyobb előny a kísérletes adatokhoz való szabad hozzáférés - akár teljes cikkek alakjában, akár elemi adathalmazok formájában. Mielőtt hozzákezdünk bármilyen kísérletsorozathoz, azt általában jelentős tervezői munka kell, hogy megelőzze. Ebben az első és legfontosabb forrásunk az irodalomban már publikált eredmények lesznek. A világ legnagyobb ilyen irodalmi adatbázisa az amerikai NCBI (National Center for Biotechnology Information) PubMed nevű gyűjteménye. A keresőprogramja nem túl látványos, de nagyon intelligens: kereshetünk kulcsszavakra, szerzők, vagy folyóiratok szerint is. Az egymásra hivatkozó, rokon cikkeket össze is fűzi a keresőprogram (a "related" oszlopban tekinthetők meg). Mindemellett egyéb keresők, köztük a Google Scholar keresőfelület hasznosságát sem szabad lebecsülni, ha irodalmat kutatunk. A már leírt eredmények ismerete már csak azért is fontos, hogy ne ismételjük meg feleslegesen a már jól ismert tényeket bizonyító kísérleteket, illetve hogy ne állítsunk fel elvben is megvalósíthatatlan kísérleti terveket.

10.1.2. DNS szekvencia-adatbázisok: GenBank és Ensembl

Egy molekuláris biológiai laboratórium mindennapi munkája számára az egyik legfontosabb forrásként a gének és fehérjék pontos “képletei”, azaz szekvenciái szolgálnak. Az ezeket tároló és interneten hozzáférhető gyűjteményeket nevezik elsődleges szekvencia-adatbázisoknak. Az ismert fajokból nyert elsődleges genetikai információ három nagy nemzetközi oldalon férhető hozzá: Ilyen az NIH intézménye, az NCBI által fenntartott GenBank adatbázis (USA), az EMBL (European Molecular Biology Laboratory) gyűjteménye, az ENA (European Nucleotide Archive) illetve a DDBJ (DNA Data Bank of Japan) adatbankja. A gyakorlatban leginkább a GenBank adatbázist szoktuk használni. Itt a genomikus adatokon túl cDNS információkat is tárolnak. A cDNS szekvenciákat könnyen lefordíthatjuk aminosav szekvenciákra, de a klónozási feladatokhoz is elengedhetetlen az ismeretük. A primerek tervezéséhez is ismerni kell a cDNS pontos szekvenciáját, akár a nem kódoló szakaszokat is beleértve. A GenBank adatbázisa lehetővé teszi a gének látványos megjelenítését is: ez a Map GeneViewer, amely a Google térképek szoftveres felületén alapszik (ld. 10.1. ábra). A kijelölt génszakaszt felnagyítva (zoom) láthatóvá válik az egyedi nukleotid sorrend. A program külön jelöli az mRNS-re átíródó szakaszokat (az összes ismert variánst), és nemcsak az exonokat, de azok pontos aminosav-fordítását is megadja. Sőt, még a fiziológiás variánsokat (polimorfizmusokat) és a patológiás mutációkat is jelöli. Ez azonban nem az egyetlen genom-vizualizációs program.

Az NCBI GeneViewer oldala

10.1. ábra: Az NCBI grafikus „nézegető” felülete, a GeneViewer. A humán MEF2A gén részlete

Az európai Ensembl genom-adatbázis (amely főleg gerincesek és néhány modell gerinctelen élőlény teljes genom szekvenciáit tartalmazza) internetes felülete szintén könnyen kezelhető. Az utóbbi előnye, hogy tartalmazza például a génekben az eddig leírt potenciális mRNS szekvenciákat (azokat is, amelyekről nem történik fehérjeszintézis), az ismert epigenetikai módosításokat, továbbá rengeteg bioinformatikai jóslással (predikció) kapott információt is.

10.1.3. Fehérje-szekvencia adatbázisok: UniProt

A nukleotidokkal ellentétben, a jelenleg létező legjobb fehérje adatbázis nem az USA-ban található, hanem Európában. Ez nem más, mint a svájci UniProt (régebben SwissProt) gyűjteménye. Ezen adatbank nemcsak a sokféle előrejelző programnak köszönheti kiválóságát, hanem az adatok manuális feldolgozásának is. Az adatbázisban módunk van a fehérjék neve (akár szinonimák) vagy azonosítója alapján kutatni. A UniProt adott fehérjéi szekvencia hasonlóság alapján, a BLAST programmal is megkereshetőek (ld. 10.2.3. fejezet). A bennünket érdeklő találatokat a kijelölésük után kötegelve ("batch" formájában) is letölthetjük, további analízis céljából. A szekvenciák FASTA formátumban fognak megjelenni: a kötelező ">" jel után a fejléc-sor tartalmazza a szekvencia azonosítóját, a fehérje nevét, és az organizmus nevének betűkódját. A második sortól következik csak a tényleges aminosav sorrend, egybetűs kódban.

A UniProt azonban nem csak a fehérjék szekvenciáját adja meg: az egy génhez rendelhető különféle (alternatív splicing és alternatív iniciáció következtében keletkező) izoformák is közös oldalon találhatóak (a különbségekre az oldal külön felhívja a figyelmünket). Ezenkívül információt kapunk a kísérletesen azonosított kötőpartnerekről, az egyes szerkezeti elemekről, és másodlagos (poszttranszlációs) módosításokról is. A weboldalak rengeteg hasznos, direkt hivatkozást is tartalmaznak, más adatbázisokra, például a gén, mRNS és a térszerkezet kapcsán (ld. 10.2. ábra). Jóllehet a GenBank nukleotid szekvenciáihoz is megadják az aminosav szekvencia fordítást (translation), általában jobb, ha a szekvenciának egy dedikált fehérje adatbázisban is utánanézünk. A UniProt manuálisan ellenőrzött fehérje-szekvenciái már jórészt mentesek a predikciós vagy szekvenálási hibák során adódó kellemetlen következményektől (pl. nem létező izoforma, esetleg leolvasási keret eltolódás, angolul frameshift vagy korai stop kodon). Ha egy fehérjével problémák vannak, például csak egy gén alapján jósolt (predicted) szekvencia, vagy még nem is ismert a teljes hossza (incomplete), erre a UniProt külön figyelmeztetést ad. Így nagyobb biztonsággal tervezhetjük az adott szekvenciával a további géntechnológiai munkát (pl. klónozás expressziós vektorba).

Az UniProt adatbázis

10.2. ábra: Az UniProt adatbázis egy oldala. A human ciklin C (CCNC) fehérje aminosav szekvenciája és az annotáció egyes elemei.

10.1.4. Az "omikák" világa. Fajonkénti adatbankok.

Az eddig említett néhány adatbázis csupán példa a molekuláris biológiai kutatási területek egyedi adatgyűjteményeire. Az ilyen területek neveit divatos szóval "-omika" végződéssel szokás ellátni (s a mára a biológiai kutatások egyik fő irányává vált rendszerbiológia részét képezi), magát az adathalmazt pedig (etimológiailag nem teljesen helyes módon) "-om" végződéssel. A genomika a genomok vizsgálatának tudománya, a transzkriptomika az átírt nukleotidoké (mRNS), a proteomika a fehérjéké. Ezenkívül beszélhetünk többek között epigenomikáról (DNS-módosítások), metabolomikáról (anyagcsere köztestermékek), lipidomikáról. Ezen résztudományok számára külön adatbázisok is rendelkezésre állnak. Például a kinom (ami az összes protein-kináz enzimet jelöli) részletes leírására ott vannak a KinBase vagy a PhopsphoSitePlus adatbázisok. Hasonlóan, a glikom az összes biológiailag érdekes szénhidrátot jelöli (amivel a glikomika tudományterülete foglalkozik), külön adatbázisokkal (ilyen például a cukorlánc szerkezete alapján kereshető GlycomeDB). A lipideket kutató szakemberek szintén saját adatbankokat használhatnak (pl. Lipidmaps), amire elsősorban a poliketidek nagy variabilitása miatt van szükség. Az anyagcsere-utak nyomon követésére pedig ott a jól ismert KEGG (Kyoto Encyclopedia of Genes and Genomes), amely enzimenként és lépésenként tekinti át az egész intermedier anyagcserét, interaktív térképekkel. Szak-adatbázisokat azonban nem csak az egész élővilágot áttekintő, integratív jelleggel hoztak létre. Léteznek egy-egy modell-organizmusra fókuszáló genetikai, proteomikai, és egyéb kísérletes adatokat összesítő adatbankok is. Ilyen például a Caenorhabditis elegansra fókuszáló WormBase, a Drosophila melanogaster (ecetmuslica) molekuláris biológiáját taglaló FlyBase, vagy a Saccharomyces cerevisiae (sörélesztő) genetikájával foglalkozó SGD adatbázis. Ezek az oldalak összehasonlításokkal is szolgálnak: az Interactive Fly például a rovaroktól emberig konzervált fehérje-rendszerek működésének az egyik létező legjobb leírását adja.

10.1.5. Szerkezeti és funkcionális adatbázisok

Az előző alfejezetben láttuk, hogy adatbázisokat nem csak az elsődleges DNS vagy fehérjeszekvenciákból lehet létrehozni. Rengeteg génről (illetve annak fehérjetermékéről) állnak rendelkezésre a szekvencián messze túlmutató szerkezeti és működési adatok. Sok fehérje harmadlagos szerkezetét is már meghatározták. Ezeket (de a nukleinsavakét is) a Protein Data Bank (PDB) adatbázis összesíti. A PDB valójában három nagy szerkezeti genomikai kezdeményezés (USA, EU, Japán) kooperációjával jött létre; célja, hogy a makromolekulák térszerkezetei minden kutató számára szabadon elérhetőek legyenek. Ennél persze sokkal feldolgozottabb (másodlagos) adatbázisok is léteznek. A fehérjék szerkezettel bíró doménjeit a legtöbb esetben elegendő egy egyszerű doboz-modellel ábrázolni. Ilyeneket találunk a SMART (Simple Modular Architecture Research Tool) másodlagos adatbázisban, amely - nevének megfelelően - nagyon intelligens keresővel rendelkezik: a megkeresett fehérjében (amit akár szekvenciájával is megadhatunk) automatikusan bejelöli az ismert doméneket, az intron-exon határokat, sőt még listázni is képes a nagy vonalakban hasonló domén felépítésű, rokon fehérjéket (ld. 10.3. ábra).

A SMART adatbázis részlete

10.3. ábra: A SMART adatbázis részlete. A human PSD-95 idegi szinapszis-szervező fehérje domén felépítése.

Ha csak a fehérje-fehérje kölcsönhatásokra vagyunk kíváncsiak, erre is számos, kiváló weboldal áll rendelkezésünkre. Ilyenek az IntAct vagy a BioGRID; de az egyik leglátványosabb (mind adatok, mind grafika tekintetében) a STRING adatbázis (ld. 10.4. ábra). Ez a kölcsönhatásokat, a SMART elemzéseit, sőt, a háromdimenziós szerkezeteket is egyetlen hatalmas gráf-modellbe integrálja. Minden esetben mód van szűrők beállítására: ha például csak a kísérletekkel megerősített kölcsönhatások után érdekelődünk, a nagy áteresztőképességű (hight-throughput) mérések és az adatbányászattal (data mining) nyert automatikus következtetésekre vagy jóslatokra nem, erre is megvan a mód. Az interakciós gráfot pedig tetszés szerint végigjárhatjuk, így az azonos funkcióhoz tartozó fehérjék biokémiai hálózata is megfigyelhető lesz. A fehérjék működésének legrészletesebb osztályozását egy másik adatbázis, a GO (Gene Ontology) ill. annak keresője (AMIGO) tartalmazza. A GO minden egyes fehérjéhez egy hierarchikusan felépített működési leírást ad. Például az emlős izomzat fejlődését szabályozó MEF2A transzkripciós faktorra egy alapszintű leírás a "transcription, DNA dependent" lehet, egy ennél jóval specifikusabb pedig a "heart development". Ha a sejten belüli szabályozási mechanizmusok finom részletei érdekelnek bennünket, felkereshetjük a Reactome vagy a SignaLink oldalát is. Itt minden egyes biokémiai útvonalra külön gráf-modellt találunk. A színes folyamatábrák nagyban segíthetik a komplex biokémiai folyamatok megértését, de a kísérletek tervezését is.

A STRING adatbázis részlete

10.4. ábra: A STRING adatbázis részlete. A human PSD-95 fehérje fontosabb ismert kötőpartnerei.