9.2. Egy példa: a Haemophilus influenzae baktérium szekvenciájának meghatározása

Eleinte a kutatók kételkedtek abban, hogy egyáltalán lehetséges a nagyszámú egyedi szekvenciából egy teljes genomot sikeresen összeállítani. 1995-ben azonban Craig Venter és munkatársai publikálták a Haemophilus influenzae baktérium 1830 kb hosszúságú genomját, amelyet shotgun módszerrel határoztak meg (ld. 9.4. ábra). A genom szekvenálásának első lépéseként a baktérium DNS-ét szonikálással (magas frekvenciájú hanghullámok segítségével) kis darabokra törték. Az így kapott DNS szakaszokat elektroforetizálták, és 1,6-2 kb nagyságú darabokat izoláltak, majd klónoztak, létrehozva a plazmid könyvtárat. Ezután összesen 19.687 klónt véletlenszerűen kiválasztva 28.643 szekvenálást végeztek, melynek során néhány száz bázispár hosszan tudták leolvasni az egyes klónok szekvenciáját (vagyis nem az egész klón bázissorrendjét határozták meg, csak a klónok „végét“) . Többnyire egyetlen irányból történt a szekvenálás, azonban a szekvenálások körülbelül egyharmadát a klónok másik végéről is elvégezték (lásd 19.687 klón és kb. 30%-kal több szekvenálási reakció). Ez a megoldás komoly segítséget jelentett a teljes szekvencia összeállításában. Az összes szekvenálási reakció 16%-át sikertelennek ítélték, mert a kapott szekvencia kevesebb, mint 400 bázispárt tartalmazott. A maradék 24.304 szekvenálás végül 12.631.485 leolvasott bázispárt jelent, ami mintegy hatszorosa a H. influenzae genomjában található összes bázispárnak. Ekkora ráhagyás (~6x) szükséges is ahhoz, hogy teljes lefedettséget lehessen elérni a genom meghatározásakor. Ezek után következett a kapott szekvenciák összeillesztése, vagyis a rövid szekvenált DNS szakaszok átfedő részeit felhasználva a szekvencia-kontigok összeállítása, ami a számítástechnika akkori fejlettségét figyelembe véve, komoly feladat volt. A konkrét kísérletben 30 órán keresztül dolgozott a számítógép, és végül 140 szekvencia-kontigot sikerült meghatározni.

A shotgun módszer sémája

9.4. ábra: A shotgun módszer a H. influenzae példáján bemutatva. A baktériumból izolált genomiális DNS-t szonikálással darabolják, majd agaróz gélelektroforézissel elválasztják, hogy 1,6-2 kb nagyságú darabokat tudjanak izolálni. Ezekből készül a klón könyvtár, amelyből nagyszámú, véletlenszerűen kiválasztott klónt szekvenálnak. A szekvencia kontigok összeillesztésével készül el a genom teljes szekvenciája.

Természetesen ezek után a feladat a kontigok közötti lyukak betömése. A hiányzó DNS szakaszok egy részét viszonylag egyszerűen meg lehetett határozni. Ehhez újra végignézték (szkrínelték) a könyvtár összes klónját, és olyan klónokat keresetek, amelyekben egyszerre található meg két különböző kontig végszekvenciája. Ekkor ugyanis elegendő volt végigszekvenálni az egész klónt, és meg lehetett határozni a hiányzó részletet a két kontig között. Ezzel a módszerrel a 140 lyukból 99-et sikerült is betömni. Még mindig maradt 42 lyuk, amelyet meg kellett szüntetni. Mivel valószínűleg a lyukakat tartalmazó DNS szakaszok nem voltak jelen a könyvtárban (mert instabil klónokat eredményeztek), új könyvtárat hoztak létre, λ-fág vektort használva. A 42 gap szélein található szekvenciákat felhasználva 84 oligonukleotidot szintetizáltak, amelyekkel végigpróbálták az új könyvtárat. Ha egy klónhoz két oligonukleotid hibridizált, akkor azt végigszekvenálták, mivel az adott klónnak tartalmaznia kellett két kontig közötti szekvenciát. Ilyen módon további 23 lyukat sikerült betömni (ld. 9.5. ábra).

A genom szekvenálás befejező lépései

9.5. ábra: A genom szekvenálás befejező lépése a szekvencia javítása és a lyukak eltüntetése. A) A szekvencia lyukak javítására a könyvtárban megtalálható klónok közül azokat lehet használni, amelyek két kontig végszekvenciáját tartalmazzák. B) Fizikai lyukak esetén a még nem összeállított kontigok végszekvenciájáról szintetizálnak primereket, és ezeket egy teljesen új könyvtár klónjaihoz hibridizáltatják. Az ugyanazon klónhoz hibridizáló primerek jelzik, hogy az adott klón tartalmazza a hiányzó szekvenciarészletet (bal oldali panel). A másik lehetőség, hogy az oligonukleotidokat párba állítva sok PCR-t végeznek, és a keletkező terméket szekvenálják.

A hiányzó szakaszok meghatározásához ugyanezt a 84 oligonukleotidot használták. Egyrészt véletlenszerűen összepárosították az oligonukleotidokat, majd PCR elvégzésével megnézték, hogy kapnak-e terméket a H. influenzae genomját templátként használva. Ha igen, akkor a PCR termék szekvenálásával meg lehetett határozni egy-egy hiányzó DNS szakaszt. Mivel a lehetséges oligonukleotid párok száma túl magas lett volna ahhoz, hogy mindegyiket mindegyikkel kipróbálják, egy másik módszert is alkalmaztak. A primereket olyan H. influenzae DNS szakaszokhoz hibridizáltatták, amelyeket a genom restrikciós endonukleázzal történő emésztésével állítottak elő. Azon oligonukleotidok, amelyek azonos restrikciós fragmentumhoz kötődnek, nagy valószínűséggel egymáshoz közeli DNS szakaszokhoz tartoznak. Az így kapott primerpárokkal PCR-t végeztek, majd a terméket szekvenálták. Végül az összes hiányzó DNS szakaszt sikerült meghatározni, és ezzel megszületett a H. influenzae teljes genomja (ld. 9.6. ábra).

A fenti példával sikerült bebizonyítani, hogy a shotgun stratégia működőképes és nincsen szükség előzetes információra a genomról ahhoz, hogy a szekvenciáját meg lehessen határozni. Az azóta eltelt évek során ezres nagyságrendű prokarióta szervezet genomját szekvenálták, köztük olyan fontos patogénekét, mint pl. a TBC-t okozó Mycobacterium tubercolosis, vagy a kolera, a tüdőgyulladás, az anthrax (lépfene) kórokozójáét. A kapott genomszekvenciák alapján meghatározhatók a kórokozók génjei által kódolt fehérjék, és új terápiás megoldások kidolgozására nyílik lehetőség.

9.6. ábra: A H. influenzae genomtérképe.

9.2.1. A lefedettség (coverage) jelentősége

A H. influenzae által bemutatott példán már említettük, hogy az összes megszekvenált bázispár körülbelül hatszorosa volt a baktérium teljes genetikai állományának. Általánosságban elmondható, hogy a szubklón könyvtárak létrehozásának fontos szempontja, hogy a klónok száma optimális lefedettséget (coverage) vagy más szóval többletet (redundancy) biztosítson. A két kifejezés arra utal, hogy a szekvenálás során az eredeti genom méreténél jóval nagyobb számú bázispár meghatározására van szükség ahhoz, hogy a teljes genom reprezentálva legyen. A lefedettség jellemzésére egy számot szoktak megadni. Az 1x lefedettség nem jelenti azt, hogy a teljes genom minden régiója szekvenálásra került. Mivel a klón könyvtárakból véletlenszerűen kerülnek kiválasztásra a szekvenálandó klónok, előfordul, hogy ugyanazt a szakaszt többször is megszekvenálják, míg más régiók teljesen kimaradhatnak. A kutatók jellemzően 6x-10x lefedettséget alkalmaznak, ezzel biztosítható, hogy a genom 99,8-99,99%-a legyen szekvenálva. További előnye a nagy feleslegnek, hogy így megnövekszik az átfedő szekvenciák száma, ami a kontigok összeállításában jelent komoly segítséget.

9.2.2. Paired-end szekvenálás

Ugyancsak a H. influenzae példáján láttuk, hogy a szekvenálási reakciók száma nagyobb volt, mint az összes kiválasztott klón száma, mert a szekvenálások körülbelül egyharmadát a másik irányból is elvégezték. A szekvencia read-ek egymáshoz rendelése, egymással való összekapcsolása komoly feladatot jelent, és rengeteg hibalehetőséget is rejt magában, elég csak például az ismétlődő szekvenciarészletek okozta problémákra gondolni. A könyvtárakat úgy hozzák létre, hogy az ezekben található DNS szakaszok körülbelül egyforma hosszúságúak legyenek. A paired-end szekvenálás során a klónozó vektor mindkét vége felől készül egy szekvencia. Ennek hatalmas előnye, hogy mivel az adott DNS szakasz hossza ismert, azt is tudni lehet, hogy a két read milyen távolságra van egymástól. A teljes szekvencia összeállítása során figyelembe tudják venni ezt a távolság információt, így ha egy paired-end szekvenálási reakció két termékét a számítógép egymástól százezer bázispárra helyezi, akkor egyértelműen kiderül, hogy hiba történt az egymáshoz rendelés közben (ld. 9.7. ábra).

Paired-end szekvenálás

9.7. ábra: Paired-end szekvenálás. A 2-3 kb hosszúságú klónok végeiről néhány száz bp hosszúságú read-ek készülnek. Ha mindkét oldalról szekvenálják a klónokat, akkor az ellentétes oldali szekvenciák közötti távolság körülbelül megegyezik, feltéve, hogy nagyjából egyforma hosszúságú inszerteket szekvenálnak. Ez az információ felhasználható a szekvenciarészletek összeillesztésekor.