10.3. Nukleinsavak tulajdonságainak jóslása

10.3.1. Leolvasási keretek és gének jóslása

A modern világban, ahol az eddig ismeretlen organizmusok teljes genomjának szekvenálása ma már rutinszerű eljárásnak számít, égető szükség van olyan módszerekre, amelyekkel a nyers szekvenciákban teljesen automatizált módon meg lehet keresni a fehérjekódoló géneket. Az első és legfontosabb feladat minden ilyen esetben a helyes nyitott leolvasási keret (ORF: open reading frame) megtalálása. Mindez egy nagyon egyszerű elven alapszik: egy START kodon jelenlétén és a STOP kodonok hiányán. Mivel a nem-kódoló régiók nincsenek semmiféle nyomásnak kitéve a kodon-összetételüket tekintve, a STOP-ok véletlenszerűen gyakran fordulnak bennük elő. Ezt egyszerű módon mi is kiszámíthatjuk. Tegyük fel, hogy a vizsgált genom nukleotid-eloszlása (jó közelítéssel) egyenletes. Ebben az esetben minden három nukleotidonként 3/64 valószínűséggel találunk stopot, tehát p=0.047 valószínűséggel ér véget a leolvasás és 1-p=0.953 valószínűséggel folytatódik. Legalább két kodont (1-p)^2 valószínűséggel olvashatunk le, legalább hármat (1-p)^3-nal, stb. A látszólagos ORF-ek hosszúsága így exponenciális eloszlást fog követni:P(x)~(1-p)^x, vagyis pontosabban:

P(x) = -ln(1-p))*exp(x*ln(1-p)).

Ennek várható értéke:

-1/ln(1-p) = 20,8 kodon

(azaz 62,5 nukleotid). Ez lesz az átlagosan leolvasható szekvencia hossz, amennyiben véletlenszerű szekvenciát próbálunk lefordítani. Ugyanez a helyzet, ha egy kódoló régiót nem a megfelelő keretben próbálunk leolvasni. Ha a gyakorlatban azt találjuk, hogy több száz, esetleg több ezer nukleotid hosszan értelmes leolvasást kapunk, annak a valószínűsége, hogy ez véletlen lesz, igen kicsiny (a fenti eloszlás birtokában ezt pontosan ki is számolhatjuk). A módszer így nagyon alkalmas arra, hogy akár kézzel meghatározzuk a DNS szekvenciánk helyes leolvasási keretét, például a klónunk szekvenálása után. Ha nincs deléciónk vagy inszerciónk, általában az a keret lesz a helyes, amelyben a leghosszabban értelmes szekvenciát kapjuk. Így működnek az ORF-kereső prediktorok (pl: ORF Finder), és ezt használják ki az automatikus gén-annotáló szoftverek is (a prokarióta génekben nagyon ritkák az intronok). Ráadásul a legtöbb bakteriális gén igen jellemző promóter szekvenciákkal kezdődik (-35 régió és a -10 "Pribnow box" motívumok, Shine-Dalgarno szekvencia a transzlációs start hely előtt). A rejtett Markov-modell alapú modern génjósoló programok, mint pl. a GLIMMER így képesek a bakteriális genomok csaknem teljes génállományát előre jelezni.

10.3.2. Gén meghatározás cDNS alapján. Eukarióta gének analízise

A fehérjét kódoló géneket természetesen kísérletes úton is meghatározhatjuk. A reverz transzkripcióval cDNS-re átírt, érett mRNS-ek szekvenciáit összevetve a genomikus DNS-sel, pontosan meghatározható az átíródott régió kiterjedése. Amennyiben a cDNS könyvtár nem tartalmazza a teljes hosszúságú mRNS-t, csak rövid darabokat, úgynevezett EST-ket (Expressed Sequence Tag), a helyzet valamivel nehezebb. Ilyenkor előbb számítógépes analízissel össze kell rakni az összetartozó EST-kből a teljes mRNS várható szekvenciáját (ahogy a genomi szekvenciát is a rövidebb kontigokból lehet összeállítani). A teljes cDNS ismeretére azért van szükség, mert így könnyen megadhatóak az intron-exon határok is. Noha az intronok kivágódási helyei (splice sites) jellemző szekvenciákkal rendelkeznek, az intronok és exonok - csak a genomi DNS-sen alapuló - jóslása ma is nagyon nehéz feladat. Ennek az egyik fő oka, hogy a szerkezetileg "unalmas" DNS-sel ellentétben az egyszálú RNS-eknek nagyon komplex térbeli szerkezete lehet, ráadásul rengeteg, ma még kevéssé ismert RNS-kötő fehérje befolyásolja az intronok felismerését. További nehézség, hogy az eukarióta promóterekben nincsenek kötelező elemek (a Pribnow-box homológja, a TATA-box az egyik leggyakoribb elem, de ez is csak a gének 10%-ában található meg). Ezen okok miatt az eukarióta gének automatikus analízise sokkal nagyobb kihívás, mint a prokariótáké. A kivágási (splice) helyek predikciói ma is meglehetősen pontatlanok: az adatbázisokban szereplő, genomikus DNS-ből jósolt fehérjékben bizony gyakoriak a hibásan megadott exonok. A transzlációs start hely jóslása is bizonytalan lehet. A legtöbb eukarióta mRNS-en a metilguanozin-sapka utáni első AUG kodont tekintik a transzlációs start helynek, de ez a sejtben nem mindig van így. Az eukarióta gének transzlációs kezdőpontját az első kodont körbevevő szekvencia környezet (az úgynevezett Kozak-szekvencia) határozza meg. Nagyon erős kontextus esetén előfordulhat, hogy nem AUG, hanem más (pl. CUG) kodonnal indul el a fehérjeszintézis. Gyenge kontextus esetén pedig a riboszóma "átugorhatja" az első AUG kodont. Sajnos ezeket a különlegességeket a mai prediktorok egyáltalán nem veszik figyelembe, ahogy az IRES-eket (Internal Ribosome Entry Site) sem. A szokatlan helyen kezdődő fehérjeszintézis kísérleti bizonyítása sem egyszerű (N-terminális fehérje szekvenálásra van szükség). Eukarióta gének elemzésére ezért újabban egyre nagyobb mértékben használnak evolúciós módszereket is: így az átírt szekvencia, az exonok pozíciója és a transzlációs start helyek jóval nagyobb megbízhatósággal jósolhatóak.

10.3.3. DNS és RNS szerkezetek jóslása. Oligonukleotid tervezés

A dezoxiribonukleinsav volt az első a biológiai makromolekulák közül, amelynek a szerkezetét sikerült exakt módon, röntgenkrisztallográfiával meghatározni. Ebben az is szerepet játszott, hogy a DNS szerkezete meglehetősen szigorúan rögzített: a dimer két szála közötti kapcsolódást az egymással szemben lévő bázisok párosodása és az egymás alatti bázisok közötti másodlagos kötőerők (delokalizált elektronpálya kölcsönhatások: pi-pi stacking) adják. Ez a szerkezet annyira stabil, hogy csak nagy ritkán - például az eukarióta telomereken - képesek az egymással szembeni monomerek "kihurkolódni". Mivel a sejtben megtalálható RNS-ek oroszlánrészének nincs komplementer párja, az ő esetükben a stabilitás alapja teljesen más lesz. A fő kölcsönhatásokat itt is a bázispárosodások és a bázisok átlapolódása fogja adni, de ezek az egyszálú molekulán belül, önmagukba hurkolódva fognak kialakulni. Az eredmény minden esetben egy komplex térszerkezet. A rövid, egymással kettőshélixben párosodó, hajtűkanyar szakaszok (stems) közötti részek kihurkolódhatnak (loops), néha pedig - ahol többféle szakasz párosodik egymás után - komplex csomók (knots) is létrejöhetnek. A belső szerkezetnek komoly szerepe van az RNS-ek biológiai funkciójában: elég csak a riboszómákra vagy a tRNS-ekre gondolni. A korábban említett Kozak szekvencia is egy "nyeles hurkot" (stem-loop structure) képez az iniciátor kodon körül: a szerepe nem közvetlenül a riboszóma kötése.

Mivel a nukleinsavak másodlagos (és harmadlagos) szerkezetének kialakulását lényegében csak a bázis-komplementaritás vezérli, kisebb molekulák esetén az alapvázat sokszor könnyű in silico megjósolni. Ilyenkor mód van az egyes lehetséges alternatív konformációk energiáinak becslésére, és a legstabilabbak kiválasztására. Számos szoftver áll rendelkezésre a nukleotidszálak szerkezetének kiszámítására (RNA123, KineFold). Talán az egyik legkényelmesebb módszer az mFold szerver használata (ld. 10.12. ábra). A természetes RNS-hez hasonlóan, a szintetikus, rövid DNS-oligonukleotidoknak szintén lehet belső szerkezete (Primer Premier, DNASTAR) Ha egy primernek szánt DNS oligonukleotid önmagába hurkolódik, az ronthatja vagy esetleg lehetetlenné is teheti a PCR reakció kivitelezését. Ezért újabban több erre szakosodott cég is javasolja, hogy in silico módszerekkel ellenőrizzük az oligonukleotidunk lehetséges belső szerkezeteit, az ahhoz tartozó elméleti energiákat és "olvadáspontokat", mielőtt megrendelnénk a PCR primereinket. Jó esetben ezeknek a szerkezeteknek illik megszűnnie a PCR-hez használt anellálási hőmérsékleten

10.12. ábra: A humán JNK mRNS jósolt szerkezete az mFold programmal

10.3.4. Nukleinsavak "olvadáspontja"

A nukleotidok szerkezetjóslásában szerepet játszó energiatényezőket egyszerűbb, és sokkal gyakorlatiasabb célokra is fel lehet használni. Ki lehet számolni például a nukleotidok és nukleotid-párok denaturációs hőmérsékletét: ezt a gyakorlatban legtöbbször csak "olvadáspontnak" (Tm: melting temperature) nevezik. Ez természetesen érzékenyen függ a DNS (vagy RNS) monomer-összetételétől: a C-G párok három, míg az A-T párok csak két hidrogénkötésre képesek, ami alacsonyabb kötési energiákat fog okozni az A/T gazdag molekulapárokban. A legrégebben ismert közelítés az oligonukleotid-párok olvadáspontjára az ún. Wallace-szabály:

Tm (°C) = 2*N(A+T) + 4*N(G+C).

Itt az olvadáspontot közvetlenül az egyes párok típusából becsülhetjük (N(G+C) = G/C párok száma, GC%= G/C párok aránya). Ez a szabály csak 20-40 nukleotid hosszúságú tartományban igaz, de ott is elég gyenge közelítésnek számít. Ennél sokkal jobb becslést ad - különösen az 50 nukleotidnál hosszabb párokra - az alábbi, szintén közismert képlet:

Tm (°C) = 81.5 + 16.6*log([Na+]) + 41*GC% - 600/L.

Itt figyelembe vettük nemcsak az oligonukleotid hosszát (L), de az oldat ionerősségét (pl. [Na+]) is. Az eddig említett képletek azonban mind csak empirikus közelítések és meglehetősen korlátozott pontossággal igazak csak. Belső szerkezetek jóslására egyik sem alkalmas. A mai korszerű Tm becslések a kötési energia közvetlen számításán alapulnak. Tudjuk, hogy egy-egy komplementer nukleotid pár önmagában még nem képes stabil kötődésre (mert nem tud pi-pi kölcsönhatásra lépni a szomszédjával). Így nem az egyedi nukleotid párokat, hanem a párok párjait vesszük figyelembe. A közelítés neve ezért "a legközelebbi szomszéd módszere" (Nearest-neighbour method). A kötési energiákat már minden szomszéd-párra megmérték, így könnyen rendelkezésre állnak (az összegük is). A számítás pedig a következő, ismert termodinamikai összefüggésen alapszik:

ΔG = - R*T*ln([A]*[B]/[AB]).

Mivel Tm az a hőmérséklet, ahol a párok pontosan fele disszociált, ezért ha csak a dimer DNS-ből indultunk ki, akkor

[A] = [AB] = [AB]kiindulási/2

Így a

Tm= - ΔG /  (R*ln([AB]kiindulási/2)).

A megfelelő, egyedi ΔS és ΔH értékek ismeretében ez számítógéppel könnyen kiszámítható. A só koncentrációval valamint a terminális nukleotidok gyengébb kötésével (A) korrigálva jó egyezést kapunk a kísérletes adatokkal. Maga a teljes képlet a következő :

Tm (°C) = ΔH*1000 / (A + ΔS + R*ln([DNSdimer]/2)) - 273.15 + 16.6*log[Na+].

Ezt a képletet használják az internetes "oligó kalkulátorok", és a nukleotid szintézisre szakosodott cégek oldalai is. Sajnos 50-nél hosszabb nukleotidok esetében a szomszédossági módszer hatékonysága csökken: így ez a képlet nem jósolja meg egész plazmidok vagy kromoszómák denaturációs hőmérsékletét