9. fejezet - Genom projektek

Tartalom

9.1. A genomszekvenálás alapjai
9.1.1. Térképezés
9.1.2. Genomszekvenálás térkép-alapú módszerrel
9.1.3. A shotgun módszer
9.2. Egy példa: a Haemophilus influenzae baktérium szekvenciájának meghatározása
9.2.1. A lefedettség (coverage) jelentősége
9.2.2. Paired-end szekvenálás
9.3. A Humán Genom Projekt (HGP)
9.3.1. Nehézségek a humán genom vizsgálatában
9.3.2. Elindul a HGP
9.3.3. Megjelenik egy versenytárs
9.3.4. A humán genom vázlatos (draft) szekvenciája
9.3.5. 2003-ra elkészül a szekvencia
9.3.6. A szekvenálás technikájának fejlődése
9.3.7. Etikai kérdések avagy kinek a DNS-ét használták a szekvenáláshoz?
9.4. További genom projektek
9.5. További olvasnivaló a fejezethez

A genom egy adott organizmusban megtalálható örökletes információ összessége ami általában a DNS-ben, de pl. egyes vírusok esetén az RNS-ben kódolt információ. A genom projektek olyan tudományos vállalkozások, amelyek célja, hogy egy adott organizmus teljes genomját meghatározzák, vagyis az organizmus teljes DNS-ét szekvenálják. A genom meghatározásának következő része, hogy a genomhoz biológiai információt rendelnek hozzá, a genomot annotálják. Ennek során meghatározzák, hogy a genom mely szakaszai tartalmaznak fehérjék kódolásáért felelős géneket, vagy egyéb fontos szakaszokat (pl. promóterek, enhanszerek stb). Ebben a fejezetben bemutatjuk a teljes genomok vizsgálatára irányuló kutatások történetét, a legfontosabb technológiai újításokat, és genom projektek néhány eredményét.

9.1. A genomszekvenálás alapjai

A genom szekvenálása, vagyis nagyon hosszú, összefüggő DNS szakaszok szekvenciájának meghatározása jóval komplexebb feladat, mint egy rövid DNS darab bázissorendjének meghatározása. Ennek oka, hogy a szekvenálás eredményeként kapott néhány száz bázispár hosszúságú DNS szakaszokból össze kell állítani a nagyságrendekkel nagyobb genom (az egy-egy kromoszómának megfelelő DNS molekulák) teljes szekvenciáját. Az összeállításra alapvetően két technikát különböztethetünk meg. Az egyik, korábban kifejlesztett és nagyon munkaigényes technika a térkép-alapú módszer. A másik az úgynevezett teljes genom shotgun („sörétes puska“) módszer, amely egyszerűbb, de nagyon komoly számítástechnikai kapacitást igényel. A térkép-alapú módszert szokták „felülről-lefelé“ (top-down) módszernek is hívni, mivel ebben az esetben a nagyobb egységből (genom vagy kromoszómák térképezése) indulnak ki. A shotgun módszert ellenben „alulról-felfelé“ (bottom-up) módszernek is nevezik, mert a genom meghatározása gyakorlatilag vakon történik, néhány száz bp hosszúságú szekvencia részletek (read-ek) összerakásából áll össze a genom. Nagyméretű genomok esetén a két technika kombinációja a leghatékonyabb.

9.1.1. Térképezés

A térkép-alapú (vagy más szóval klón-kontig) módszer esetén a szekvenálás előtt elkészítik a genom fizikai és/vagy genetikai térképét, vagy már meglevő térképet használnak. A genom szekvenálás során a térkép segít a szekvenált DNS darabok genomban történő elhelyezésében. A fizikai térképezés egyik módszere, hogy a genomot, vagy nagyméretű genomok esetén a genom feldarabolásával létrehozott óriási DNS szakaszokat restrikciós enzimmel (pl. HindIII) hasítják, és a kapott darabokat gélelektroforézissel elválasztják. Az eredményként kapott hasítási mintázat („ujjlenyomat“: DNA fingerprint) elárulja, hogy mely DNS szakaszok tartalmaznak egymással átfedő részeket (hiszen ezeken a helyeken az ujjlenyomat megegyezik), és ez alapján meg lehet mondani, hogy az adott DNS szakasz hol helyezkedik el a genomban. A fizikai térképezés így abszolút módon meghatározza, hogy egyes DNS szakaszok egymáshoz képest hogyan helyezkednek el, és hol találhatók (ld. 9.1. ábra).

Fizikai és genetikai térképezés

9.1. ábra: A genom szekvencia összeállítását jelentősen megkönnyíti, ha rendelkezésre áll genetikai és/vagy fizikai térkép. A) Fizikai térképezésre használhatók restrikciós endonukleáz hasítóhelyek. A nagyméretű klónok hasítási mintázata alapján összeállítható egy klón kontig, és az egyes szakaszok helye a genomban kijelölhető. B) A gének és DNS markerek rekombinációs gyakorisága alapján megállapítható az egymáshoz viszonyított helyzetük.

A genetikai térképezés ezzel szemben az egyes DNS szakaszok egymáshoz viszonyított relatív helyzetéről ad információt. Az egymáshoz közel elhelyezkedő gének illetve régiók nagyobb valószínűséggel öröklődnek együtt, mint az egymástól távolabbiak. Vagyis az egymáshoz közeli DNS szakaszok rekombinációs frekvenciája alacsony, míg a távolabbiaké magasabb. Több generáció vizsgálatával és megfelelő DNS markerek használatával feltérképezhető különböző gének egymáshoz viszonyított távolsága. Ilyen markerek lehetnek fenotípusosan megjelenő tulajdonságok is (ld. 9.1. ábra). Tipikus DNS markerek a restrikciós fragment hosszúság polimorfizmusok (RFLP: Restriction Fragment Length Polymorphism), a szekvencia hosszúság polimorfizmusok (SSLP: Simple Sequence Length Polymorphism), vagy az egyedi nukleotid polimorfizmusok (SNP: Single Nucleotide Polymorphism). Az RFLP-k esetén egy restrikciós endonukleáz hasítási mintázatát vizsgálják a két allélon. Ha ezek eltérnek, vagyis az egyik allélon hiányzik a hasítóhely egy mutáció miatt, az adott helyet markerként lehet használni. Az SSLP-k valamilyen ismétlődő szekvenciarészletet tartalmaznak eltérő számban az allélokon, míg az SNP-k egy bázispár különbséget jeleznek (pl. az egyik allélon C, a másikon T található).

A genetikai és a fizikai térképezés során kapott térkép, a két módszer közötti elvi különbség miatt, a legtöbb esetben jelentősen különbözik (ld. 9.2. ábra).

A genetikai és fizikai térkép viszonya

9.2. ábra: A genetikai és fizikai térkép viszonya. A genetikai és fizikai térképek nem teljesen egyformák, mert a genetikai térkép csak a markerek egymáshoz viszonyított helyzetéről ad információt.

9.1.2. Genomszekvenálás térkép-alapú módszerrel

A térkép-alapú szekvenáláskor a genomot nagyméretű, 40-200 kbp méretű darabokra hasítják. Az így kapott DNS fragmentumokat ezután olyan vektorokba klónozzák, amelyek képesek ilyen méretű szakaszokat is befogadni. Tipikusan ilyen vektorok a BAC vektorok, de kozmidok vagy YAC vektorok is használhatók (ld. 8.2.5. fejezet). Mivel a genom hasítása véletlenszerűen történt, a kapott DNS fragmentumok is véletlenszerűen találhatók meg a BAC-könyvtárban, és a fragmentumok egymással átfedő szakaszokat tartalmaznak. A következő lépés tehát az, hogy megállapítsák, mely DNS darabok fednek át egymással. Ennek során a könyvtárban található klónok „ujjlenyomatát“ készítik el (ld. 9.1.1. ). Ha ez rendelkezésre áll, már meg lehet határozni, hogy a sok DNS fragmentumból melyek azok, amelyeket felhasználva fel lehet építeni a teljes genomot. Ezt angol kifejezéssel „minimum tiling path“-nak hívják (magyarul a „legrövidebb kirakható út“). Miután a fizikai térkép elkészült, a hatalmas, már térképezett inszerteket tartalmazó BAC klónokat shotgun módszerrel szekvenálják. Ehhez a klónokat véletlenszerűen tovább darabolják maximum 1500 bp nagyságú szakaszokra, szubklónozzák (pl. M13 fág vagy plazmid vektorba), majd szekvenálják. A kapott szekvenciákat az átfedő régiók alapján egymáshoz illesztve meg lehet határozni az eredeti inszertek szekvenciáját, majd a térkép alapján a teljes genomszekvenciát (ld. 9.3. ábra).

A genomszekvenálás módszerei

9.3. ábra: A genomszekvenálás módszerei. A klón-kontig stratégia esetén a kiinduló nagyméretű inszert helyzete ismert a genomon belül. Ezt shotgun módszerrel szekvenálják, majd a genomban elhelyezik. A kontigok genombeli pozícióját a rajtuk található markerek segítségével próbálják meghatározni. A markerek nagyobb száma mindkét esetben jelentősen segítheti a végső szekvencia összeállítását.

Az összeillesztés természetesen nem mindig egyszerű. Ha az egyes DNS szakaszokat a rendelkezésre álló információk alapján nem lehet összeilleszteni, itt a szekvencia egy lyukat, „gap“-et tartalmaz. Azokat a nagyméretű, térképezett DNS szakaszokat, amelyeket az átfedő klónok alapján, „gap-mentesen“ össze lehet illeszteni, klón-kontignak nevezik (a contig elnevezés a contigous, magyarul összefüggő szóból ered). A klón-kontigok némileg különböznek a szekvencia kontigoktól, amikről a következő fejezetben lesz szó. Ezt a módszert használták a sörélesztő (Saccharomyces cerevisiae) és a Caenorhabditis elegans nevű fonálféreg genomjának meghatározásához, illetve a Humán Genom Program során is ezt a technikát használta az egyik kutatócsoport.

9.1.3. A shotgun módszer

A shotgun módszer esetén előzetes, térképezésből származó információ nélkül történik a szekvenálás, ezért sokkal gyorsabb. A DNS-t itt is feldarabolják, de jóval kisebb szakaszokra. Készítenek egy kb. 2 kbp és egy kb. 10 kbp darabokból álló könyvtárat. Mivel a rövidebb inszertek miatt nincs szükség speciális vektorokra, plazmid vektorokat használnak, és a végeredmény egy sok százezer vagy akár millió tagból álló plazmid könyvtár. Az így kapott klónokat szekvenálják, és az átfedő szekvenciarészletek alapján szekvencia-kontigokat állítanak össze, majd a teljes genom „mester“ szekvenciáját. Fontos megemlíteni, hogy nagyméretű, komplex genomok esetén a végső szekvencia összeillesztésénél térképek felhasználása nagymértékben segíti a munkát (ld. 9.3. ábra).