10.6. A predikciós módszerek pontossága

10.6.1. Egy predikció "jóságát" leíró paraméterek. Optimális döntések.

Az előrejelző módszerek részletes tárgyalása után nem kerülhetjük el, hogy magáról az előrejelzés minőségéről ne beszéljünk, ezt kell ugyanis mérlegelni akkor, amikor arról döntünk, hogy elfogadjuk-e egy módszer jóslatát vagy sem. A predikciók jóságának tárgyalásához előbb néhány statisztikai fogalmat kell bevezetnünk. Egy két-kimenetelű (+/-) mérés, elemzés vagy döntés esetén szenzitivitásnak nevezzük a sikeresen felismert elemek arányát (az összes pozitív elem közül), specificitásnak pedig a sikeresen elvetett elemek arányát (az összes negatív elem közül). A legtöbb eddig leírt algoritmus rendelkezik egy vagy több változtatható paraméterrel, ami befolyásolja a módszer jóságát. Például az illesztések magas p-érték mellett nagyon magas szenzitivitással (megtalálják az összes egyezést), de alacsony specificitással (rengeteg véletlen egyezést is találnak) fognak rendelkezni. Alacsony p-érték (mint határérték) esetén megfordul a helyzet: az összes egyezés jó lesz (magas specificitás), de a valódi egyezések csak kis hányadát találjuk meg (alacsony szenzitivitás). A döntésre használt határértéket szoktuk levágási értéknek (cutoff) nevezni. Egy-egy levágási érték jóságát pedig - a mérnöki tudományokból kölcsönvett módszerrel - az úgynevezett ROC görbével fejezhetjük ki. Az ROC (Receiver Operating Characteristics) grafikon pontosan mutatja, hogy egy adott paraméter-érték, mint levágási érték esetén a valódi pozitívoknak mely részét találtuk meg, illetve hogy az összes lehetséges elem hányad részét fogadtuk el (ld. 10.17. ábra). Az optimális döntéseket a valódi pozitívok arányának becslésével (Bayes-analízis alkalmazásával) ilyen görbék alapján már viszonylag könnyű megadni (főleg a tévedés "költségének" ismeretében). E szerint minden módszer rendelkezik egy rá jellemző, fix hibavalószínűséggel, még az optimális döntés esetén is: ezek léte a módszer lényegéből fakad.

10.17. ábra: ROC görbék használata bioinformatikai jósló módszerek jóságának elemzésére

10.6.2. Adatbázisok minősége: elsődleges és másodlagos hibák

A jóslataink helyességét nemcsak az eredendő hiba befolyásolja. Az adatbázisokban tárolt szekvenciák minősége is lehet hibaforrás. Könnyű belátni, hogy ilyen mennyiségű biológia adat mérésénél és elemzésénél hiba nélkül dolgozni szinte lehetetlen. Az adatbázisokban előfordulhatnak elsődleges hibák: ezek a mérési hibákból fakadnak, például egy-egy kétes minőségű szekvenálásból. Érdekes tény például (és könnyű megfigyelni) hogy a legkorábban szekvenált modell- organizmusok (pl. Mus musculus, Drosophila melanogaster, Saccharomyces cerevisiae) genomi és cDNS szekvenciája sokkal több hibával rendelkezik, mint az újabban szekvenáltaké. Így ha azt találjuk, hogy az egér egy adott génjének adott aminosava eltér az összes többi emlősben megfigyelhető, mindig konzervált aminosavtól, az eltérés eredete vélhetően szekvenálási hibában keresendő: nem arról van szó ugyanis, hogy az egér "feltalált" volna számos, amúgy teljesen szokatlan biológiai megoldást. Mivel a legtöbb élőlény cDNS-szekvenciái nem, vagy csak darabokban hozzáférhetőek, nagyon sok, az adatbázisokban található fehérjeszekvencia valójában csak jóslat (ez a tény fog remélhetőleg megváltozni az RNAseq új-generációs szekvenálás elterjedésével; ld. 5.3. fejezet). Az ilyen, prediktált szekvenciákban pedig viszonylag gyakoriak a másodlagos hibák: tévesen jósolt transzlációs kezdőhelyek, eltévesztett exonok (valójában intron-szekvenciák, exonként átírva) és hiányzó szakaszok. Ezek az annotáló-program tévedéséből fakadnak. Az ilyen hibákat leginkább a biológiai korrelációk segítségével, többszörös szekvencia-illesztésekkel szűrhetjük ki. Ha például a ló egy adott, genomi szekvenciából jósolt fehérjéjének közepén található egy szokatlan, hosszú darab, ami az összes emlőstől különbözik (de máshol mindig konzervált), akkor ebben az esetben egy hibásan jósolt exonról lehet szó (ld. 10.18. ábra).

10.18. ábra: Fehérje-szekvencia adatbázisokban előforduló gyakoribb hibák többszörös illesztéssel kimutatva.

10.6.3. Ellenőrzött adatbázisok. Ellentmondó kísérleti eredmények kezelése

Az elsődleges adatbázisok minősége javítható, ha nem csak automatizált módszerekkel előállított adatokat tartalmaznak. Az ilyen, szakemberek által ellenőrzött rendszerek (manually curated databases) közé tartozik például a UniProt fehérje adatbázis (ld. 10.1.3. ). Itt a gépi analízist kísérleti adatokkal váltják fel, amikor azok a szakirodalomban elérhetővé válnak. Ezek a kézi annotációk jelentős emberi munkaerőt kötnek le, cserében viszont a legmegbízhatóbb adathalmazt nyújtják. Persze a szakirodalomban leírt kísérletek sem mindig mentesek a hibáktól: mérési hibák éppúgy előfordulhatnak, mint hibás értelmezések. Ebből fakadóan találkozhatunk egymásnak tökéletesen ellentmondó publikációkkal is: hol az egyik, hol a másik, esetleg mindkét kutatócsoport tévedett.. Mindezek rontják a "kézi" annotációk pontosságát is. Ezért a szakemberek által ellenőrzött adatokat sem szabad feltétlenül hibátlanként kezelni.

10.6.4. Mikor használjunk jóslásokat?

Mindezek után bizonyára felmerül az olvasóban a kérdés: érdemes-e egyáltalán előrejelző programokat használnunk? És ha igen, akkor mikor? Általános aranyszabálynak annyit mondhatunk, hogy a kísérletes adatok általában pontosabbak, mint a jóslatok. A prediktáló módszereket is mindig a rendelkezésre álló információ alapján válasszuk meg. Tehát amennyiben mód van pl. egy fehérje doménjének homológia alapú elemzésére, ne kezdjünk ab initio folding szimulációkba. Fontos megjegyezni, hogy a kutatás maga kétirányú: a már kísérletesen igazolt eredményeket is érdemes újra számítógépes analíziseknek alávetni, és új modelleket építeni rájuk.