10.4. Fehérjék tulajdonságainak jóslása

10.4.1. A fehérjék egyszerű fizikai tulajdonságainak becslése. Reverz transzláció

Hasonlóan a nukleinsavakhoz, a fehérjék számos elemi tulajdonságát is könnyen kiszámolhatjuk a szekvencia ismeretében. A molekulatömeg számítása akár papíron is elvégezhető, ugyanígy a moláris abszorbancia (extinkciós koefficiens) kiszámítása. Utóbbihoz csak az egyes, az UV tartományban elnyelő aminosavak elemi extinkciós együtthatóira van szükség. Mindezeket azonban könnyebb számítógépes programmal elvégezni. Vannak azonban olyan paraméterek, amelyeket "kézzel" kiszámolni meglehetősen fáradságos lenne: ilyen például az izoelektromos pont számítása. Egyedi, semleges aminosavak esetén, ahol az egyes savi (pKa) és bázis (pKb) állandók messze esnek egymástól, az állandók számtani közepével a pI könnyen megbecsülhető. Ez azonban nem így van a nagyobb peptideknél, vagy fehérjéknél. Mivel az egzakt számítás - még elhanyagolásokkal együtt is - hosszadalmas, számítógépes programok használata szükséges. Ezek az algoritmusok is általában közelítésekkel találják meg a pI értékét: nevezetesen, felveszik a becsült titrálási görbét, és megkeresik annak metszéspontját az x-tengellyel. Ehhez a számításhoz persze bizonyos elhanyagolásokat kell tenni. Ilyenkor is általában azt szoktuk feltételezni, hogy a pKa és pKb értékeket nem befolyásolja a molekuláris környezet, valamint azt hogy minden aminosav érintkezik az oldószerrel. Ezért a becsült pI is inkább csak a peptidekre érvényes, nagyobb fehérjékre nem, legalábbis natív állapotban nem. Bizonyos programok megjelenítik a teljes titrálási görbét: ez sokkal jobban alkalmas a tisztítási folyamat (pl. ioncsere) tervezéséhez, mint a pI egymagában, hiszen megadja az elméletileg várt, átlagos töltésszámot az illető pH tartományban. Ezek és sok más fizikai paraméter kiszámítására alkalmas internetes programcsomagot tartalmaz az ExPaSy oldala. Nukleinsavak és fehérjék tulajdonságait egyaránt jósolhatjuk a Sequence Manipulation Suite (SMS2) javascript alapú programjaival. Itt még komplexebb feladatokat is elvégezhetünk. Példaként említjük a reverz transzlációt: meg kell keresni egy ismert fehérje-szekvenciához tartozó legvalószínűbb DNS szekvenciát. Mivel a DNS-kódban gyakran többféle kodon kódol egy-egy aminosavat, ez a megfeleltetés nem egyértelmű. Ha azonban az a feladatunk, hogy tervezzünk egy olyan mesterséges gént, ami adott (esetleg szintén mesterséges) fehérjeszekvenciát kódol, akkor statisztikai megközelítést érdemes használni. Az egyes élőlények kodon-eloszlása ugyanis nem egyenletes: mindig vannak ritka kodonok, amelyhez tartozó tRNS is csak kis mennyiségben van jelen az illető organizmus sejtjeiben. Így tehát, a megfelelő mértékű fehérjeszintézishez érdemes a leggyakrabban használt kodont választani. Ez a megfelelő program és kodon-használati adatbázis segítségével könnyen kivitelezhető.

10.4.2. Lineáris motívumok keresése fehérjékben (és nukleinsavakban)

Ahogy azt korábban említettük, a fehérjék tulajdonságainak jó részét a bennük található aminosavak adott kombinációi (szekvencia-motívumok) határozzák meg. Amennyiben ezek egymás mellett, rögzített távolságra találhatóak, lineáris motívumokról beszélünk. Ezek az esetek többségében a fehérjék rendezetlen részein találhatóak és más molekulákhoz való kapcsolódásra szolgálnak. Az ilyen motívumok azonban alapvetően befolyásolják a polipeptidlánc sorsát és lehetséges módosításait. Például ha egy eukarióta fehérje N-terminális vége megfelelően elrendezett Arg/Lys és hidrofób aminosavakkal kezdődik (szignál peptid), azt a transzlokonok felismerik, így az extracelluláris vagy transzmembrán helyzetű lesz. A szignál peptid előrejelzésére ma már nagyon jó algoritmusaink vannak (pl. a neurális háló alapú SignalP). Ha a fehérje ezenkívül több rövid (~15-30 aminosav), tisztán hidrofób szakaszt is tartalmaz, akkor valószínűsíthetően többszörösen transzmembrán szerkezetű lesz a sejtekben. Meglepő módon, a membránfehérjék topológiáját (intracelluláris / extracelluláris szakaszokat) is relatíve magas megbízhatósággal tudjuk jósolni, olyan programokkal, mint a Phobius (amely rejtett Markov-modell alapú). Van mód a sejten belüli lokalizáció megjósolására ismert példák alapján, neurális háló algoritmussal is: ilyen a WolfPSort program. Az exportra szánt fehérjén glikozilációs helyek lehetnek, amelyek szintén előre jelezhetőek (NetNGlyc). Az endoplazmás retikulum fehérjéire pedig a „visszatartó” motívum (idealizálva: KDEL, Lys-Asp-Glu-Leu) jellemző, ez például pontozómátrixokkal található meg könnyűszerrel. Egyelőre azonban nincs egyszerű módszer a Golgi-apparátus fehérjéinek megtalálására. A mitokondriális, kloroplaszt és peroxiszomális fehérjék viszont mind-mind jellemző N-terminális vagy C-terminális tranzit- vagy import-szignálokkal rendelkeznek, amelyek segítségével in silico is nagy valószínűséggel azonosíthatók (pl. TargetP-vel).

A citoplazmában maradó fehérjéken is különféle lineáris motívumok irányítják a legtöbb poszt-transzlációs módosítást. A foszforiláció vagy ubiquitiniláció általában szigorúan szabályozottan történik, de az enzimet felismerő (kináz-kötő vagy ubiquitin-ligáz kötő) motívumok gyakran távol esnek a ténylegesen módosított helytől. Más motívumok, például a proteázok felismerő helyei, leggyakrabban az aktuális módosítás helyén találhatóak. Ezeket a rendkívül sokrétű módosításokat lehet akár egyszerre is jósolni. Az ELM (Eukaryotic Linear Motifs) szervere erre a feladatra specializálódott. A megadott fehérjeszekvenciában megkeresi az ismert motívumokkal összeférő szakaszokat, sőt még pontozást is végez, mégpedig szerkezeti (rendezetlenségi) és evolúciós konzerváltsági alapon. Az ismert kötőelemeket és módosítási helyeket a program külön kiemeli. Az eddig azonosított több száz különféle lineáris motívum többsége nem a módosítások irányítására szolgál, hanem egyszerűen csak adott fehérje komplexek összeszerelődésére. Ilyen motívumokat keresni a DNS-en is lehet, sőt érdemes is: A transzkripciós faktorok kötőhelyei például DNS-alapú lineáris motívumok, amelyeket pontozómátrix módszerrel lehet azonosítani a genom különféle helyein. Ugyanígy jósolhatóak a másodlagos (például DNS metilációs) módosítási helyek is (pl. az úgynevezett CpG szigetek)

10.4.3. Fehérjeszerkezetek jóslása. Rendezett és rendezetlen régiók

A 21. század egyik legnagyobb informatikai kihívása a fehérjék szerkezetének szekvencia alapú jóslása. Ellentétben a nukleinsavakkal, a fehérjék szerkezetét a legváltozatosabb oldallánc-oldallánc kölcsönhatások tartják össze, így a lánc helyi összetétele nem jósolja meg még a másodlagos szerkezetet sem: a háromdimenziós kényszerfeltételek ismeretére van szükség. Amennyiben mindenféle előzetes ismeret nélkül szeretnénk térszerkezetet jósolni (ab initio folding), egy nagyon erősen számítógép igényes feladat elé nézünk. Ilyen szimulációkat például a ROSETTA programmal lehet végeztetni, de a futásidők ma még általában elégtelenek a nagyobb, stabil szerkezetek meghatározására.

Jóslás a Jpred programmal

10.13. ábra: A ciklin E1 fehérje Jpred programmal jósolt másodlagos szerkezete és a valós másodlagos szerkezet összehasonlítása

Valamivel könnyebb dolgunk van, ha csak azt tűzzük ki célul, hogy szeretnénk a másodlagos szerkezeti elemeket megjósolni. Az olyan prediktorok, mint a JPred könnyen megtalálják a másodlagos szerkezeti elemeket, de a valódi típusukat (a-hélix, β-redő, kanyar) sokszor elvétik (ld. 10.13. ábra).

Például a β-redőket gyakran hélixnek jósolják, vagy fordítva. Általában elmondható, hogy a stabil szerkezet jelenlétének ténye sokkal könnyebben jelezhető előre, mint maga a konkrét szerkezet. Ha csak az a célunk, hogy elkülönítsük a rendezett doméneket a szerkezet nélküli, flexibilis régióktól, már ma is számos megbízható program áll rendelkezésre. Ezeket elsősorban a rendezetlenség - aminosav-összetétel alapú - jelzésére dolgozták ki (pl. DisoPred, PondR), de a módszer megfordításával képesek a domén jellegű, rendezett régiókat is megadni (pl. IUPred). Az eljárás előnye, hogy a teljesen ismeretlen doméneket is előre lehet vele jelezni (de a szerkezetüket természetesen nem) (ld. 10.14. ábra).

Az ismert szerkezetű domének azonosítása leghatékonyabban a homológia-alapú keresőkkel végezhető el. Az egyik legszélesebb körben használt ilyen kereső szerver a PFAM (Protein Families). A PFAM az összes fontosabb ismert domén egyedi motívum-lenyomatát tartalmazza, amelyeket (rejtett Markov-modellek segítségével) végigfuttat az általunk megadott szekvencián. A statisztikailag erősen szignifikáns találatokat visszaadva, megkaphatjuk a fehérjénk homológia alapú szerkezeti modelljét. Ilyen kereséseket más szervereken is lehet végeztetni. A ProSite (ExPaSy) programcsomag például nem csak a lineáris motívumok keresésére alkalmas: a keresője számára megadhatunk akár teljesen egyedi domén definíciókat is, ha újszerű doméneket szeretnénk azonosítani. Persze az a tény, hogy két domén belseje hasonlít egymásra, még nem adja meg automatikusan a választ, ha a rendezettség pontos külső határait szeretnénk tudni: ehhez konzerváltsági analízisekre is szükség lehet. A domének illetve azok határainak ismerete nagyon fontos a géntechnológiai alkalmazások számára: A fehérje fragmentumok klónozását mindig úgy kell tervezni, hogy ne vágjunk bele a rendezett domének belsejébe. Ilyenkor ugyanis (jó eséllyel) egy nagyon instabil, nehezen oldható és mindenhez aspecifikusan, véletlenszerűen kötődő fehérjét kapnánk. E miatt korábban sajnos nagyon sok fehérje-fehérje kölcsönhatás-térképezési kísérlet bukott meg.

IUPred jóslás

10.14. ábra: Rendezett domének és rendezetlen régiók jóslása az IUPred programmal