9.3. A Humán Genom Projekt (HGP)

A molekuláris biológia rendkívül gyors fejlődésének egyik legjobb példája a Humán Genom Projekt, amely nem kisebb célt tűzött ki maga elé, mint meghatározni a teljes emberi genomot. 1953 áprilisában jelent meg a DNS szerkezetét leíró publikáció James Watson és Francis Crick szerzőségével a Nature-ben, és a hetvenes évek közepén fedezték fel a DNS szekvenálás technikáját. Alig harminc évvel később pedig meghatározták a teljes emberi genomot. Érdekesség, hogy Watson 1990-ben a Humán Genom Projekt vezetője lett és 1992 áprilisáig dolgozott ebben a pozícióban. (Azért mondott le ilyen gyorsan, mert összekülönbözött a főnökével a gének szabadalmaztatásának ügyében. Watson álláspontja az volt, hogy a projekt összes eredményét szabadon elérhetőve kell tenni.) A gyors technikai fejlődés azt is lehetővé tette, hogy a projekt az eredetileg tervezettnél két évvel korábban befejeződhessen. A mikrobiális genomok átlagosan 3 millió bp-ból állnak, míg az emberi genom ennél három nagyságrenddel több, mintegy 3 milliárd bp-t talrtalmaz. A Humán Genom Projekt tizenhárom éven keresztül zajlott, és 2003-ban zárták le. A projekt célját az alábbiakban határozták meg:

  1. A humán DNS összes génjének (a korábbi becslés ~100.000 volt, a mai ismert szám <23.000) azonosítása.

  2. A humán DNS nagyjából 3 milliárd bázispárjának meghatározása.

  3. A kinyert információmennyiség adatbázisban történtő tárolása.

  4. Az adatfeldolgozási eljárások korszerűsítése.

  5. A projekt során létrehozott illetve korszerűsített technológiák átadása a magánszektornak.

  6. A felmerülő etikai, jogi és társadalmi kérdések tisztázása.

9.3.1. Nehézségek a humán genom vizsgálatában

Már a projekt legelejétől világos volt, hogy a biológiai tudományok eddigi legnagyobb volumenű és rengeteg technikai nehézséggel járó munkájába vágnak bele. Az első nehézség mindjárt a vizsgálni kívánt genom mérete volt, amely több nagyságrenddel meghaladta a korábban vizsgált genomok méretét. Másik komoly nehézség volt az ismétlődő szekvenciák jelenléte.

Egyrészt a DNS-polimeráz nem olvassa le a teljes szekvenciát, megakad vagy átugrik szakaszokat, ha túl sok A és T vagy G és C követi egymást akár több száz nukleotidon keresztül. Még komolyabb problémát jelentenek a hosszabb (a szokásos 500 bp-os leolvasott szekvencia szakaszoknál hosszabb) ismétlődő régiók, hiszen ezek egymástól megkülönböztethetetlenek. Duplikációk esetén az is előfordulhat, hogy az összeillesztés csak egyszer veszi figyelembe az adott szekvenciarészletet, és így a végső szekvencia „összeomlik“, rövidebbnek adódik, mint a valóságban (ld. 9.8. ábra). Mindezen problémák miatt a kutatók fontosnak tartották, hogy jó minőségű genetikai és fizikai térképek készüljenek a humán genomról.

A kontigok összeillesztésének problémái

9.8. ábra: A kontigok összeillesztésének problémái. Ha a genom hosszú ismétlődő szekvenciákat tartalmaz, mint például egy 7 kb hosszúságú LINE szegmens (long interspersed element), az ismétlődő részletek egymástól nehezen megkülönböztethetők a szekvencia kontigok összeillesztése során. A rossz egymáshoz rendelés eredménye a szekvencia összeállítás „összeomlása“ lehet, amikor az egymáshoz tartozó, de két LINE régiót tartalmazó szakasz helyett két különböző kontigot állít össze a szoftver, és a duplikáció eltűnik.

9.3.2. Elindul a HGP

A teljes humán genom vizsgálatának ötlete a 80-as években merült fel komolyabban, mikor lehetővé vált a DNS automata szekvenálása. 1987-ben az Egyesült Államok Energia Hivatala (U.S. Department of Energy) részvételével indult el egy korai genom projekt, amelynek célja a radioaktív sugárzás hatásának vizsgálata volt, különös tekintettel arra, hogyan lehet megvédeni a genomot a mutagén hatásoktól. További megbeszélések következtek, melyben már az NIH (National Institute of Health) is részt vett, és a két kutatóközpont közös erőfeszítésének eredményeként 1990 októberében hivatalosan is elindult a HGP. Szinte azonnal nemzetközi együttműködés alakult ki, amiben Anglia, Németország, Franciaország, Kína és Japán is részt vett, kialakítva a Humán Genom Konzorciumot. Bár a projekt indulásakor még sok kutató komoly ellenérzéssel szemlélte a munkát, megkérdőjelezve az egész projekt hasznosságát, már a 90-es évek közepére jelentős mennyiségű adatot sikerült gyűjteni. A humán genom egyes részeinek fizikai térképe mellett humán és egér genetikai térképek születtek, nagyszámú cDNS szekvencia, és teljes bakteriális genom szekvenciák váltak elérhetővé. Kialakult a genomika tudománya.  Érdekesség, hogy James Watson már a projekt legelején felhívta a figyelmet arra, hogy a megszülető eredményeknek jelentős bioetikai, szociális hatási lehetnek. Ezért a projekt összköltségvetésének először három, majd később öt százalékát az ezzel kapcsolatos kutatásokra fordították.

9.3.3. Megjelenik egy versenytárs

1998-ban Craig Venter (aki a H. influenzae genom projektet is vezette) bejelentette, hogy Celera Genomics néven létrehoz egy vállalatot, ami 2-3 éven belül végez a teljes humán genom szekvenálásával. Tervük szerint shotgun módszert alkalmaznak, és így el tudják kerülni az idő és pénzigényes térképezést. Nem csak gyorsabban, de olcsóbban is dolgoznak: a 3 milliárd dolláros államilag finanszírozott projekttel szemben 300 millió dolláros költségvetést tartott reálisnak. Összességében a kialakult verseny jót tett a teljes HGP-nek. Mindkét kutatói csapat nagy erőfeszítéseket tett, hogy minél hamarabb elkészüljön az első „draft“, vázlatos szekvencia. Ebben a legnagyobb nehézséget a fentebb már említett szekvencia összeillesztés okozta. Mindkét csoportnak sikerült olyan algoritmusokat kidolgozni, amik a korábbinál jóval nagyobb hatékonysággal tudták az egybefüggő szekvenciarészleteket összeállítani. A Celera kutatói hamarosan publikálták a Drosophila melanogaster vázlatos szekvenciáját, megmutatva, hogy a shoutgun módszernek a bakteriális genomoknál jóval nagyobb méretű genomok esetén is van létjogosultsága.

9.3.4. A humán genom vázlatos (draft) szekvenciája

A HGP egyik legfontosabb mérföldköve egy 2000 júniusában tartott sajtókonferencia volt, ahol a Humán Genom Konzorcium és a Celera együtt mutatta be a humán genom első vázlatos szekvenciáját A humán genom projekt ekkor még messze volt attól, hogy késznek lehessen tekinteni. Az eukromatinnak, vagyis a kromatin génekben gazdag részének körülbelül 90%-a volt megtaláható a bejelentett szekvenciában, de sok hibával és nagyon sok gap-pel. A két szekvenciát 2001 februárjában publikálták. A Humán Genom Konzorcium a Nature-ben, a Celera Genomics pedig a Science-ben, mivel utóbbi nem volt hajlandó a teljes szekvenciát teljesen elérhetővé tenni, amibe pedig a Nature szerkesztői nem egyeztek bele. Bár mindkét szekvencia erősen hiányos volt, mégis rengeteg új információt tartalmazott. Sok újdonság derült ki az ismétlődő szekvenciák és a gének genomon belüli elhelyezkedéséről, illetve fény derült arra is, hogy a korábban előrejelzett 100 000 helyett csak alig 23000 gén található meg a humán genomban, körülbelül annyi, mint az ecetmuslica genomjában.

9.3.5. 2003-ra elkészül a szekvencia

A draft szekvenciák elkészülte után a feladat a hibák kijavításának és a lyukak betömésének sziszifuszi munkája volt. A hibajavításban nagy segítséget jelentettek a különböző megoldásokkal készült térképek. Egyedi DNS markereket kerestek, amiket a térképekből származó információkkal összepárosítva meg lehetett állapítani, hogy egyes kontigok mely más kontigokkal kapcsolódnak össze. A H. infulenzae leírásánál említett módszereket is alkalmazták a lyukak betömésére. Voltak olyan gap-ek is, amelyek éppen egy paired-end módszerrel szekvenált 3kb-os klón közepére estek. Ebben az esetben primer walking módszert alkalmaztak, vagyis a klón két végén található, nagyjából 500bp-os már megismert szekvenciára terveztek egyedi oligonukleotidokat. Megszekvenáltak még 500 bp-t, majd újabb olgonukleotidokat terveztek, és így „végigsétálva“ az adott klónon annak szekvenciája ismertté vált. Az egyes javítások után újabb és újabb szakaszok váltak teljessé, amit megint újabb javítások követhettek a kapott új szekvencia információk alapján. Ezzel az iteratív, az előző eredményekre épülő módszerrel végül sikerült megalkotni egy majdnem teljes, jó minőségü genom szekvenciát.

A projekt 2003-as befejezésére az eukromatin 99,3%-áról állt rendelkezésre szekvencia információ, és a 2001-es, tehát a draft szekvencia bejelentésekor még meglevő 145 514 lyukat mindössze 281-re sikerült leszorítani. A kész szekvencia bejelentése 2003. árilis 25-én történt meg, éppen 50 évvel a híres Watson és Crick publikáció megjelenése után.

9.3.6. A szekvenálás technikájának fejlődése

A Humán Genom Projekt sikeréhez nagyban hozzájárult, hogy az évek során a DNS szekvenálás technikája is jelentős fejlődésen ment át. A fluoreszcens technikaés az automata szekvenátorok megjelenése komoly előrelépésnek számított a korábbi manuális technikához képest, hiszen nem kellett radoaktívan jelölt nukleotidokat és az előhíváshoz röntgenfilmet használni. Mindez azonban nem lett volna elegendő egy ilyen nagyszabású projekthez, mert a teljes humán genom szekvenálásához körülbelül 1 millió gélelektroforézist kellett volna végezni, mindegyik gélen 48 szekvenálási reakcióval. Az áttörést a kapilláris elektroforézisen alapuló technika hozta meg, amely jóval hatékonyabbnak bizonyult, mert így nem volt szükség akrilamid gélekre a szekvenáláshoz. A 2001-ben bemutatott második generációs szekvenáló készülékek tovább növelték a hatékonyságot, napjainkra pedig a „harmadik“ vagy „következő“ generációs készülékek és az új-generációs szekvenálási eljárások (ld. 5.3. fejezet) bizonyítják, hogy egészen olcsó és gyors is lehet a teljes genom szekvenálása.

9.3.7. Etikai kérdések avagy kinek a DNS-ét használták a szekvenáláshoz?

Ahogy korábban említettük, már a projekt legelején felmerült, hogy a HGP komoly etikai, jogi és szociális vonatkozásokkal is rendelkezik. Az egyik legelső fontos etikai kérdés az volt, hogy kinek a DNS-ét használják a szekvenáláshoz, illetve hogyan kezeljék a szekvenálás során keletkező bizalmas adatokat. A Humán Genom Konzorcium munkatársai különösen nagy hangsúlyt fektettek arra, hogy teljesen anonim legyen a szekvencia, és még utólag se lehessen visszakövetni, hogy kinek a DNS-ét használták a munkához. Ehhez például a már eredetileg is anoniman kezelt DNS minták közül 10-ből egyet választottak ki, amelyekről eltávolítottak mindenfajta jelzést. Mára annyit lehet tudni, hogy a HGP során meghatározott genomszekvencia 70%-a egy donortól, míg a maradék 30% több különböző donortól származik. A Celera Genomics is anonim módon tervezte kezelni a mintákat. Huszonegy, különböző etnikai csoporthoz tartozó donortól származó mintából véletlenszerűen választották ki a ténylegesen felhasznált DNS-t. A Celera akkori vezetője, Craig Venter a vállalattól történt távozása után bevallotta, hogy variált a mintákkal, és az ő DNS-e volt az egyik, amit a munkához használtak. Bejelentette, hogy a szekvencia alapján szívbetegségre és Alzheimer-kórra van hajlama. A tudományos közvélemény rendkívül etikátlannak tartotta az eljárást, mert ugyan Venter-nek joga van ahhoz, hogy a világ elé tárja a saját DNS-szekvenciáját, ezzel a rokonairól is bizalmas információkat tesz közzé, amihez azok nem járultak hozzá. Bár Venter szerint az ő példája megmutatja, milyen fantasztikus eszköz a saját genetikai információnk ismerete (aminek hatására ő egyébként azóta több testmozgást végez és diétázik), egyben arra is rávilágít, milyen komoly etikai, és az egyének életére közvetlenül kiható problémákat vet fel a genom szekvenálás. Különös tekintettel arra, hogy a szekvenálás technológiájának fejlődése hamarosan elhozza az „1000 dolláros genom“ időszakát, amikor gyorsan és olcsón lehet meghatározni az egyes emberek teljes genetikai állományát. (Valójában azt is mondhatjuk, hogy ez a korszak el is érkezett. Van már olyan amerikai cég, amely pontosan 1000 dollár ellenértékeként bárki teljes „exom“-ját, azaz a teljes fehérjekódoló DNS szekvenciát elkészíti; a teljes eukromatint tartalmazó genom pedig 1500 dollárba kerül).