A kutatás első lépése: Az irodalmazás

Ahhoz, hogy egy kutatást – legyen szó genetikai betegségek vizsgálatáról, vagy más jellegű munkáról, illetve szakdolgozatról – elkezdjünk, első lépésként a vonatkozó tudományos szakirodalmat kell megismernünk. Az irodalmazás fő célja, hogy megszerezzük a kutatómunkánkhoz szükséges ismereteket, megismerjük a korábbi eredményeket és azon módszerek részleteit, amelyeket alkalmazni fogunk. Továbbá az irodalmazás segít elkerülni a felesleges munkát, mert rámutathat arra, hogy valaki korábban már elvégezte azt a kísérletet vagy vizsgálatot, amit esetleg mi is tervezünk. Bármilyen tudományos írásos műben (TDK dolgozat, szakdolgozat, disszertáció, cikk, stb.), ha mások által közölt eredményeket, állításokat vagy módszereket említünk, kötelező azok forrásának feltüntetése. A tudományos kutatás etikája megkívánja, hogy a hivatkozások esetében az érintett mű adatait pontosan és kellő részletezéssel közöljük.

A megfelelő bioinformatikai alkalmazások segítségével az irodalmazás több szakasza is könnyebbé tehető. Az interneten elérhető kereső-alkalmazások, cikk-gyűjtemények használata, a talált cikkek rendezését szolgáló web alapú vagy telepített programok alkalmazása, illetve ezek szövegszerkesztőbe beépülő moduljaival az elvárt formátumú idézések elkészítése mind azt hivatott szolgálni, hogy a felhasználó csak azzal töltsön időt, amit a számítógép helyette nem tud elvégezni.

A tudományos közlés formái

A tudományos közlésnek számos formája létezik. Vannak olyanok melyek segítségével a tudományos teljesítmény is mérhető. Ezek a következők:

  • Folyóirat cikk

    • Impakt faktorral rendelkező vagy nem rendelkező folyóiratban

  • Konferencia

    • Előadás vagy poszter

    • Van abstrakt-kötet vagy nincs

    • Cikk is megjelenik róla a konferenciakiadványban vagy nem

    • Hazai vagy nemzetközi konferencián

  • Értekezés

    • TDK dolgozat

    • Szakdolgozat

    • PhD-disszertáció, doktori értekezés

    • Nagy-doktori disszertáció

  • Szakkönyv

És vannak olyanok, melyek a tudományos ismeretterjesztés céljából készülnek:

  • Tankönyv

  • Ismeretterjesztő írások

  • Publicisztikák

  • Rádió és TV műsorok

  • Blogok

Ha nem ismerjük az adott szakterületet, akkor célszerű először összefoglaló jellegű, ú.n. review cikkeket, illetve szakkönyveket olvasnunk, majd ezután térhetünk rá a kutatómunkákat leíró „research” publikációkra. A review cikkek egy-egy témát átfogóan dolgoznak fel és sok odavágó publikáció eredményeit összegzik.

A tudományos folyóiratok

A tudományos közlések leggyakoribb formája a tudományos folyóiratokban megjelenő cikkek. A folyóiratokban olvasható cikkek tudásanyaga csak több éves csúszással jelenik meg összefoglaló szakkönyvekben, és még később a tankönyvekben. A tudományos folyóiratoknak különböző fajtái léteznek. Vannak általános tudományos folyóiratok, mint pl. a Nature és a Science és áttekintő folyóiratok, pl. Current Opinion in Biotechnology és Trends in Genetics. Léteznek tágabb szakterületet lefedő szakfolyóiratok, mint pl. a Molecular Systems Biology, illetve szűkebb szakterületet cikkeit közlő szakfolyóiratok, pl.  PLoS Neglected Tropical Diseases.

Impakt faktor

Azt, hogy egy folyóirat mennyire elismert az impakt faktor (IF) nevű mérőszámmal szokás mérni. Az IF-t az ISI (Institute of Scientific Information, a Science Citation Index kiadója) állapítja meg minden évben rengeteg – de nem az összes – tudományos folyóiratra. Az IF nagysága a folyóiratban megjelent cikkek idézettségét tükrözi, vagyis azt, hogy hányan tartották idézésre, felhasználásra megfelelőnek az újságban közölt cikkeket.

A folyóiratok IF-át minden évben újraszámítják, a következő módon: Az előző két évben az adott folyóiratban publikált minden cikkre a tárgyévben kapott idézetek összege osztva az előző két évben a folyóiratban megjelent „idézhető cikkek” számával. Azaz az IF nem közvetlenül a cikk hatását, idézettségét mutatja, hanem annak a folyóiratnak a mérőszáma, amelyben a cikket leközölték.

A kutatók általában arra törekednek, hogy minél magasabb IF-ral rendelkező folyóiratba publikáljanak. Ám meg kell jegyeznünk, hogy tudományterületenként erősen eltérnek az IF-ok. Általánosságban az orvosi, neurobiológiai, immunológiai és a kimagasló természettudományos eredményekkel foglalkozó (Nature, Science) folyóiratoké nagyon magas (IF: 15-40), utána következnek a molekuláris biológiai folyóiratok (IF: 5-15), a rendszertannal és matematikával foglalkozó folyóiratoké pedig igen alacsony (sokszor 1 alatti). (A teljesség igénye nélkül.) Következésképp az IF-ok összevetése mindig csak az adott tudományterületen belül adhat a valósághoz közeli jelzést a kutatók munkájáról.

A tudományos cikkek

A tudományos cikkek formai tulajdonságai

A tudományos cikkek formailag általában hasonlóképpen épülnek fel. Az első oldal tetején (vagy az alján) olvasható a folyóirat neve, az évfolyam és szám, amiben a cikk megjelent, valamint az oldalszámok. Ezután következik a cikk címe. A cikkírók törekednek arra, hogy a cikkük címe kifejezze a cikk tartalmát, ugyanakkor rövid legyen, figyelemfelkeltő és ne túl általános. A cím egységet alkot az absztrakttal, de a szakirodalomban keresgélő olvasó számára ez az első szűrő.

A cím után, a szerzők felsorolása található. A biológia területén az a szokásjog, hogy a közleményben leírt kutatás legnagyobb részét az a szerző végezte, illetve a cikk szövegét is az a szerző írta, aki a felsorolás első helyén van – első szerző. Utána következnek a társszerzők, akik valamilyen részfeladatot végeztek a kutatás során – a sorrendjük többnyire a szakmai hozzájárulásuk mértékét tükrözi. Az első szerzőn kívül a másik kitüntetett az utolsó szerző, aki a kutatás szellemi vezetője, illetve a kutatócsoport vezetője. (Ettől eltérő gyakorlatot alkalmaznak a matematikusok, akik sokszor egyszerűen ABC sorrendben tüntetik fel a szerzőket.) A szerzők közül valamelyiket (általában az elsőt vagy az utolsót) kijelölik kapcsolattartónak (corresponding author), aki a folyóirat szerkesztőségével történő – általában írásos – kommunikációt folytatja. Az ő elérhetősége a cikk első oldalán meg is jelenik.

A normál terjedelmű (nem short communication) tudományos cikkek egy rövid tartalmi összefoglalóval, az ú.n. absztrakttal kezdődnek. Az absztrakt röviden leírja a cikk tartalmát, vagyis ezt elolvasva el tudjuk dönteni, hogy érdemes-e a cikk teljes szövegét is áttanulmányoznunk. Többnyire még a fizetős folyóiratokban található absztraktok is ingyenesen elérhetők, a bennük található szavakat a publikációkat gyűjtő portálok kereshetővé teszik. A szöveges mellett egyre több folyóirat bevezeti a grafikus absztrakt használatát is, amely vizuálisan fejezi ki a cikk fő mondanivalóját.

A kutatásokat leíró tudományos cikkek tényleges szövege a következő fejezetekre tagolódik: Bevezetés (Introduction), Anyagok és módszerek (Materials and Methods), Eredmények (Results), Következtetések (Discussion, Conclusion), köszönetnyilvánítás (Acknowledgments) és Irodalomjegyzék (References). A bevezető fejezetben található a kutatás céljainak meghatározása, a témában megjelent szakirodalom áttekintése és a kutatással kapcsolatos kérdések megfogalmazása.

A tudományos közlemények anyagok és módszerek fejezete azért lényeges, hogy a cikkben foglaltakat más kutatók is reprodukálni tudják. Ezért annak minden vizsgálati eszközt, forrást és szoftvert tartalmaznia kell. A kísérlet körülményei, a reagensek típusa, stb. is felsorolásra kerülnek benne.

A eredmények leírása a cikk egyik legfontosabb fejezete. Sokszor szerepelnek benne ábrák (pl. grafikonok, folyamatábrák, fotók) és táblázatok, melyek az leírt szöveg megértését segítik elő, de a feliratukkal együtt önmagukban is értelmezhetőnek kell lenniük. Az eredmények alapján levont köveztetések külön fejezetben kapnak helyet. A szerzők itt foglalják össze és értelmezik a bemutatott eredményeket, valamint levonják a következtetéseket és kitekintést nyújtanak a további szükséges vizsgálatok elvégzésére.

Az irodalomjegyzék fejezetben a tudományos cikk hivatkozásai szerepelnek. Egy cikk hivatkozásai nem tartalmazzák a téma teljes bibliográfiáját, csak az elsődlegesen használt forrásokat. A szövegközi idézet helyén számmal vagy „elsőszerző, évszám”-mal jelzik a citált közleményt, míg az irodalomjegyzékben részletesebb bibliográfiai adatok is helyet kapnak (további szerzők neve, cikk címe, folyóirat neve, száma, oldalszám). Az irodalomjegyzékben a folyóiratok nevei gyakran rövidített formában jelennek meg. Bizonyos folyóiratok – helytakarékossági okokból – a hivatkozott közleményeknek csak a szerzőit és elérését (folyóirat, évfolyam, oldalszám) adják meg, a címét nem.

A szakirodalom keresése

Manapság az egyetemek vagy kutatóintézetek könyvtárai mellett, és adott esetben helyett a kutatók az interneten lévő szabadon, vagy előfizetéssel elérhető gyűjteményekben és a folyóiratok online felületén keresik a számukra szükséges szakirodalmat. A releváns tudományos közleményhez a témára utaló keresőszavakkal, a szerzők vagy a tudományos folyóirat nevével keresve, esetleg egy cikk hivatkozásait felhasználva juthatunk el. Ha természettudományos, biológiai témában kutatunk, akkor az alábbi szakirodalom keresőkkel célszerű megismerkednünk:

  • PubMed: Az NCBI adatbázison[1] belül a leggyakrabban használt, biológiai és orvosi vonatkozású tudományos publikációk gyűjteménye. A PubMeden működik egy keresőszolgáltatás, amellyel (általában) elérhető a talált cikk absztraktja, a cikkel kapcsolatos közlemények listája, valamint a publikációt megjelentető folyóirat honlapján a teljes cikkre mutató link. Ennél a linknél külön megjelölik a teljes egészében ingyenesen elérhető publikációkat (freefull-text vagy open access cikkek)[2].

    • PubMed Central: Az NCBI PubMed mellett üzemelő szolgáltatás, amely kizárólag a világ bármely pontjáról, előfizetés nélkül is ingyenesen elérhető közleményeket tartalmaz és azokat egységes felületen prezentálja.

  • Google Scholar vagyGoogle Tudós: Hatékony és általános (nem csak orvosbiológiai) tudományos közleménykereső. Megtalálja a disszertációkat, konferencia kiadványokat, egyéb az interneten fent lévő tudományos anyagokat is (a PubMeddel szemben). Egy-egy találatnál megjeleníti, azt is, hogy hány publikációban hivatkoztak eddig rá (citáció, idézetek száma).

  • ScienceDirect, Scopus, SciVerse:

    • ScienceDirect: Ingyenes tudományos publikáció kereső. A talált cikkeket meg is tudja jeleníteni, amennyiben azok ingyenesen elérhetők vagy az egyetem előfizetett rá.

    • Scopus*: Fizetős tudományos publikáció kereső. Megjeleníti a citációkat és statisztikákat is készíthetünk a találatokról a segítségével. Felhasználói felülete hasonlít a ScienceDirectére.

    • SciVerse: A ScienceDirect és a Scopus egyesített felhasználói felülete, mellyel mind a két adatbázisban egyszerre kereshetünk.

  • EISZ Elektronikus Információszolgáltatás*: Regisztráció után sok folyóirat elérhető ezen a portálon keresztül. Pl. ISI Web of Science (kereső), ScienceDirect (kereső), Science Magazine (folyóirat), Nature (folyóiratcsomag), SpringerLink (folyóirat kiadó), JSTOR (folyóirat kiadó).

  • További hasznos weboldalak:

    • ISI Web of Science*: Tudományos közlemény kereső, melyet a citációk keresésére optimalizáltak. Lassabban frissül, mint az előző keresők (vagyis nem tartalmazza a legfrissebb publikációkat). A találatokról és citációkról különféle statisztikákat készíthetünk a segítségével.

    • CiteseerX: Publikáció és citáció kereső, ahol a teljes cikkek is elérhetők.

    • iHOP: Fehérjék kapcsolataira fókuszáló publikációk kereshetők vele.

    • BioMed Search: Biológiai és orvosi tudományos publikációkban megjelent ábrák között lehet ezen az oldalon keresni.

    • Matarka: Magyar folyóiratok tartalomjegyzékeinek kereshető adatbázisa. A cikkeket többnyire csak anyagi ellentételezés fejében lehet letölteni.

    • MTMT Magyar Tudományos Művek Tára: Egy-egy magyar szerző életművére tudunk itt rákeresni. Az adatbázis a szerzőknek köszönhetően folyamatosan bővül.

Némelyik cikket, folyóiratot vagy keresőszolgáltatást csak előfizetéssel lehet megtekinteni. Mivel az Eötvös Loránd Tudományegyetem is több ilyen előfizetéssel rendelkezik, célszerű ELTÉs IP címmel rendelkező számítógéppel végezni a keresést. A fenti felsorolásban az otthoni gépről nem, de ELTÉs IP címmel rendelkező számítógépről elérhető szolgáltatásokat *-gal jelöltük.

Ha a kereső vagy a folyóirat honlapjáról nem tudjuk ingyenesen letölteni a szükséges tudományos közleményt, akkor célszerű a Google keresőjével is rákeresnünk. Javaslat: a kereséshez tegyük idézőjelek közé a cikk címét, és írjuk elé, hogy PDF. Ha így sem találjuk a cikket, akkor kérhetjük a könyvtárosok segítségét vagy írhatunk a cikk szerzőinek, hogy legyenek kedvesek küldjék el a cikket.

Attól függően, hogy egy témát szeretnénk körüljárni, vagy egy konkrét cikket szeretnénk elolvasni, a keresés történhet kulcsszavak, szerző neve, folyóirat, a cikk címe vagy a publikáció egyéni azonosítószáma alapján.

  • A kulcsszavak olyan, az adott publikációra jellemző szavak, melyeket a szerző vagy a közleményt katalogizáló adott meg. A kulcsszavak kijelölik a közlemény témáját.

  • A közleményt jegyző szerző(k) nevére kereshetünk teljes névvel (pl. Jack Peter Smith vagy Smith, Jack Peter) vagy a keresztneve(ke)t lerövidítve (pl. JP Smith vagy Smith, JP). Az egyes kereső alkalmazásokban általában le van írva, hogy milyen formában várják a szerzők neveit.

  • Ha tudjuk a keresett cikk címét, akkor ennek segítségével általában könnyen meg tudjuk találni a közleményt.

  • Ha tudjuk, hogy a cikk melyik folyóiratban és annak melyik számában jelent meg, akkor a cikket a folyóirat online archívumában is megtaláljuk.

  • Minden tudományos cikknek, folyóiratnak és könyvnek vannak azonosító számai, melyek alapján egyértelműen beazonosíthatók és megtalálhatók. A cikkek esetében ilyen azonosítószám a DOI (Digital Object Identifier; pl. 10.1007/BF01734359) vagy a PubMed ID (PMID), amely csak számokból áll (pl: 7288891). A folyóiratokat az ISSN (International Standard Serial Number) számuk, a könyveket pedig az ISBN (International Standard Book Number; pl: 0878931775) számuk alapján is azonosítják.

A  különböző keresőszavakat ÉS (AND), VAGY (OR) vagy NEM (NOT) kapcsolatban össze is fűzhetjük. Erről egy hasznos leírás található az EISZ oldalán.

A közlemény címe, szerzője és absztraktja alapján eldöntjük, hogy a találat érdekes-e számunkra. Ezt követően pedig vagy letöltjük a teljes cikket PDF formátumban, vagy rögzítjük az elérhetőségeit. Rövid időn belül ki fog derülni, hogy a kereső-alkalmazások mellett szükségünk lesz egy másik informatikai segédletre, amely a nagyszámú publikációk kezelését biztosítja számunkra.

Szakirodalmak kezelése

Miután megtaláltuk a megfelelő tudományos közleményeket nem árt azokat átlátható és kereshető módon tárolni a számítógépünkön. Ehhez nyújtanak segítséget a bibliográfiája nyilvántartó szoftverek, melyek a nyilvántartáson kívül a dokumentumba (szakdolgozat, cikk) való hivatkozásbeillesztést is segítik.

A legnépszerűbbek fizetős szoftverek:

  • EndNote: Windows és Mac OSX operációs rendszereken fut, Microsoft Office alá beépülő plug-in-ja van.

  • Reference Manager: Windows operációs rendszereken fut. Együttműködik a Microsoft Office-szal.

  • RefWorks: Internet alapon („web-based”) működő multiplatform szoftver. Vagyis használható Windows, Mac és Linux operációs rendszereken is. Együttműködik a Microsoft Office-szal és az Open Office (vagy Libre Office) nevű ingyenes irodai szoftvercsomaggal is.

Ingyenes alternatíváik:

  • EndNoteWeb: Internet alapon (web-based) működő multiplatform szoftver. Csak korlátozott számú referenciát tud ingyenesen tárolni.

  • Zotero: Eredetileg a Firefox internetböngészőbe épülő multiplatform program, de elkészült a Google Chrome-mal és a Safarival alatt futó, valamint a „stand alone” vagyis böngésző nélkül is használható verziója is. Együttműködik a Microsoft Office-szal és az Open Office-szal, Libre Office-szal is. A saját gépünkön és egy internetes tárhelyen is tárolja az összegyűjtött referenciáink adatbázisát. Az éppen a böngészőben látott tudományos közlemény adatait (szerzők, cím, folyóirat, stb.) a böngésző URL címsor végén látható kis szimbólumra kattintva lehet a referencia adatbázisunkba menteni.

  • Mendeley: Multiplatform program. Beépített PDF olvasója is van, ahol a cikkekhez kommenteket is fűzhetünk, illetve kiemelhetünk bizonyos részeket. Együttműködik a Microsoft Office-szal és az Open Office-szal, Libre Office-szal is, melyekbe külön plug-in-ként épül be (dokumentáció). A saját gépünkön és egy internetes tárhelyen is tárolja az összegyűjtött referenciáink adatbázisát.

A felsorolt szoftverek használatakor a megtalált tudományos közleményeket előbb be kell vinnünk a program adatbázisába. Van olyan szoftver, amely közvetlenül tud csatlakozni bizonyos webes szakirodalmi adatbázisokhoz (pl. a PubMed-hez) majd ott a program segítségével kereshetünk (pl. EndNote), és van olyan, amely a böngészőbe integrálódva segíti a találatok importálását a saját referencia adatbázisunkba (pl. Zotero). Utána, mikor az éppen szövegezett dolgozatba be szeretnénk szúrni egy hivatkozást ugyanezt a programot tudjuk használni. A programok segítik a hivatkozások nyilvántartását – vagyis, amit a szövegbe beszúrtunk, az automatikusan megjelenik a szöveget követő bibliográfiában is, ha kitöröljük a hivatkozást, akkor azt a dokumentum irodalomjegyzékéből is törli. A szoftvereknek köszönhetően a bibliográfiát  pár kattintással a szakdolgozat vagy a folyóirat követelményeinek megfelelő módon formázhatjuk.  Valamint elkerülhetjük a hivatkozások kézi sorszámozásából, és azoknak átírásából, újraformázásából adódó kellemetlenségeket.

Az NCBI adatbázis és honlap

A DNS- és fehérjeszekvenálási módszerek elterjedésével párhuzamosan megjelentek a meghatározott szekvenciákat összegyűjtő, számítógépes elemzéseket is lehetővé tevő elektronikus adatbankok. Ezek a molekuláris biológiai adatbázisok különböző bioinformatikai intézetek honlapjain, bárki számára ingyenesen, online elérhető információforrások. Az NCBI (National Center for Biotechnology Information vagyis Nemzeti Biotechnológiai Információs Központ, 7.1. ábra) is egy közülük, melynek angol nyelvű honlapján a molekuláris biológiai- és orvosi tudományok, a bioinformatika, és az ezekhez kapcsolódó publikációk adatbázis-gyűjteményét találjuk. Az 1988-ban alapított adatbázis központja az USÁ-ban, Maryland államban található Bethesda városban van, ahol a National Library of Medicine (NLM) és a National Institute of Health (NIH) részeként üzemel. A kereszthivatkozásokkal teli, strukturált, kereshető adatbázisokat és honlapot folyamatosan fejlesztik, az adatbázisok tartalma napról-napra frissül, bővül. Az NCBI naponta összehangolja a szekvenciák leírását Európa (EMBL, European Molecular Biology Laboratory) és Japán (DDBJ, DNA Database of Japan) hasonló adatbázis-gyűjteményével, ezért a bennük található alap információk megegyeznek.

Az Entrez keresőmotor felülete]

7.1. ábra: Az NCBI nyitólapja. Ha a bal-felső sarokban lévő NCBI logóra kattintunk, bármely NCBI-os oldalról visszakerülünk a nyitólapra.

Az adatbázisok építőkövei az úgynevezett rekordok, melyek a konkrét egy-egy dologra (pl. egy szekvenciára) vonatkozó adatokat és hivatkozásokat tartalmazzák (lásd Nucleotide GenBank fejezet). A rekordokhoz az adatokat a világ minden részén dolgozó kutatók szolgáltatják. A külön adatbázisok (szakirodalmi, nukleotid- és fehérjeszekvencia, gén, genom, taxonómiai, szerkezeti, expressziós, kémiai, etc.) egymáshoz tartozó elemei kereszthivatkozások (linkek) révén kapcsolódnak össze, így például egy mRNS szekvenciáról közvetlenül az általa kódolt fehérjére ugorhatunk.

Az NCBI-on található összes adatbázis összes rekordja között egy integrált keresőmotor, az Entrez[3] (7.2. ábra) segítségével kereshetünk.

7.2. ábra: Az Entrez keresőmotor felülete

Az NCBI-on található fontosabb adatbázisok és szolgáltatások

  • PubMed és PubMed Central: Lásd A szakirodalom keresése fejezetben.

  • Books vagy Bookshelf: Online elérhető tudományos könyvek, tankönyvek. A könyvek nem tölthetők le egy-az-egyben, csak az adott témában kiadott keresési találatokhoz tartozó részek olvashatók el belőlük. Az NCBI megismeréséhez hasznos lehet a The NCBI Handbook (NCBI kézikönyv), egy-egy ismeretlen tudományos témához való első közeledéshez pedig a Coffe Break (Kávészünet) című könyv.

  • OMIM: Az ember mendeli módon öröklődő génváltozatait leíró, rendezett gyűjtemény (Online Mendelian Inheritance in Man).

  • GenBank vagy Nucleotide és Protein: Minden eddig megszekvenált és publikált nukleinsav és protein szekvenciát tartalmazó adatbázisok. Gének, genomok, cDNS-ek (komplementer DNS: az mRNS DNS-re átírt változata), nem kódoló régiók, RNS-ek, fehérjék, több, mint 160.000 fajból. Minden szekvenciához tartozik egy egyedi azonosító szám, az Accession Number. A szekvencia adatbázisok:

  • Nucleotide: Nukleotid szekvenciák gyűjteménye.

  • Protein: cDNS-ből átírt vagy megszekvenált peptidek, fehérje szekvenciák adatbázisa.

  • RefSeq: Referencia szekvenciák átfogó, integrált, jól annotált[4], nem redundáns[5] adatbázisa. Ezekhez a szekvenciákhoz lehet viszonyítani pl. a különböző SNP-ket.

  • SNP: Singel Nucleotide Polymorphism, a populációkban fellelhető pontmutációk, illetve rövid szakaszokat érintő mutációk adatbázisa. A találati eredmények többféleképpen megjeleníthetőek, (7.3. ábra) pl.:

  • MapView: (kék) az SNP helye a kromoszómán. Pl.: a Az V véralvadási faktor Leiden-mutációja fejezetben tárgyalt mutáció (rs6025) MapView nézete.

  • GeneView: (rózsaszín) polimorfizmusok helye és formája az adott génben. Pl.: az V véralvadási faktor GeneView nézete.

  • STS: Sequence Tagged Site-ok adatbázisa. (Lásd A mutációk detektálása fejezetben.)

  • EST: Expressed Sequence Tag rekordok. Olyan STS-szekvenciákat tartalmaz, amelyeket cDNS-ek részleges szekvenálásával nyertek. Felhasználhatóak egy gén azonosításához, térképezéséhez, klónozásához.

  • Genome: Teljes genom szekvenciák, kromoszómák (megjeleníteni az NCBI-ba integrált MapView-val  lehet).

  • Gene: A megszekvenált genomokban lévő génekről összegyűjtött információk.

  • UniGene: Gén központú, a transzkriptom (teljes átíródó mRNS szett) megjelenítésére szolgáló összesített gyűjtemény.

  • UniSTS: Markerek (pl. komplett előre megtervezett PCR reakciók) és genom térképezési adatok adatbázisa.

  • GEO: Gene Expression Omnibus, gén expressziós adatok gyűjteménye. Microarray, új-generációs szekvenálás és egyéb nagy áteresztőképességű (high-throughput) technikákkal nyert funkcionális genomi adatokat tartalmaz.

  • Taxonomy: Olyan rendszertani adatbázis, melyben minden a GenBankban megtalálható, a szekvenciák forrásául szolgáló élőlény, és annak rendszertani besorolása fel van tüntetve.[6]

  • Structure: Makromolekula (főleg fehérje) szerkezetek gyűjteménye.

  • Probe: Szekvencia specifikus próbák és reagenseik gyűjteménye. Pl.: PCR primerek, restrikciós enzimek RFLP-hez, stb.

  • BLAST: Szekvencia-hasonlóság kereső programcsomag (Basic Local Alignment Search Tool).

Találat az SNP adatbázisban

7.3. ábra: Találat az SNP adatbázisban

Az itt felsoroltakon kívül még számos egyéb adatbázis, gyűjtemény és alkalmazás található az NCBI-on, és a kínálat évről-évre bővül. Az összes az NCBI-on elérhető adatbázis és alkalmazás strukturált nézetét megtalálhatjuk a honlaptérképen, abc szerint rendezve pedig itt. A Database oldalon további információkhoz juthatunk NCBI adatbázis rendszereit illetően, például megnézhetjük, hogy mely adatbázis rész melyik másikkal van összekötve, kereszthivatkozások útján. Az NCBI ftp oldaláról letölthetőek a szoftverek vagy akár az egész adatbázisok is, amelyből ezután – lokális kereséseket lehetővé tevő – új adatbázist építhetünk a saját számítógépünkön.

Nucleotide GenBank

Egy nukleotidszekvencia GenBank file-formátumú[7] rekordjában a következő lényeges adatok találhatóak (példaként [ zárójelek között az emberi V véralvadási faktor rekordjának konkrét adatai szerepelnek):

  • LOCUS: Rövid címke. A szekvencia belső azonosítójával kezdődik [NM_000130], mely az Accession Number-rel (lásd lejjebb) ellentétben csak az NCBI-on használatos, de azzal sokszor megegyezik. Majd a bázisok számával [9179 bp], a szekvencia forrásával [mRNA], szekciójával [PRI = főemlősök] és a beküldés dátumával [10-MAR-2012] folytatódik.

  • DEFINITION: A szekvencia rövid leírása [Homo sapienscoagulation factor V (proaccelerin, labile factor)(F5), mRNA], pl. milyen faj milyen génje, egész vagy töredék szekvencia, stb.

  • ACCESSION: A szekvencia azonosítószáma [M90100]. Minden az adatbankokba bekerülő szekvencia kap egy egyedi azonosító számot vagy Accession Number-t (AC). Egy nemzetközi egyezmény[8] értelmében adott Accession Number minden adatbázisban (nem csak NCBI-on) ugyanahhoz és csak ahhoz a szekvenciához tartozik.

  • VERSION: Az azonosítószám után, ponttal elválasztva a verziószám található [NM_000130.4]. Ha a beküldött szekvenciában hibát észlelnek és kijavítják, akkor az Accession Number nem változik, csak a verziószám nő.

  • KEYWORDS: A szekvenciát beküldő kutató által megadott, a szekvenciára vonatkozó, nem szabványosított kulcsszavak.

  • SOURCE, ORGANISM: A faj, amelyből a szekvencia származik, és annak rendszertani besorolása.

  • REFERENCE: A szekvenciára vonatkozó szakirodalmi hivatkozások felsorolása standardizált formában.

  • FEATURES: A Feature table-ben (tulajdonság táblázat) a szekvencia tulajdonságainak részletes leírását találjuk, szabványosított, a szekvenciákat kezelő szoftverek számára könnyen feldolgozható formában.

  • source: a szekvencia hossza, és forrása (faj, szövet, sejttípus, hivatkozás a taxonómiai adatbázisra).

  • gene: a gén hossza [1..9179], rövid neve [F5], szinonímái [FVL; PCCF; THPH2], kereszthivatkozások.

  • 5'UTR: az 5' végi nem transzlálódó szakasz helye a szekvenciában.

  • exon: Exonok helye a szekvenciában [pl: 1..303; 304..395, ...].

  • CDS: a kódoló szekvencia (coding sequence) helye az egész szekvenciában [146..6820], kereszthivatkozások más, pl. fehérje adatbázisra [protein_id="NP_000121.2"], a lefordított fehérje szekvenciája.

  • sig_peptide: a szignálpeptid helye [146..229].

  • mat_peptide: az érett peptid (a szignálpeptid lehasadása után maradó rész) helye [230..6817].

  • STS: STS szekvenciák helye [pl: 947..1185, 2868..3085, …].

  • 3'UTR: a 3' végi nem transzlálódó szakasz helye.

  • polyA_signal: a poliadenilációs szakasz helye [pl: 6948..6953].

  • ORIGIN: A szekvencia helye a genomon belül (ha ismert és közlik). Ez után következik maga a nukleotid szekvencia. Melyet a könnyebb eligazodás kedvéért 10 bázisonként tagolnak, és a sorok előtt számozzák a sor első bázisának pozícióját. A rekord végét a // jel jelöli.[9]

Összességében elmondható, hogy az NCBI az élettudományok területén dolgozó kutatók egyik leggyakrabban használt adatbázisa, amellyel minden kutatói pályára készülő diáknak ajánlott megismerkednie.



[1] NCBI: National Center for Biotechnology Information vagyis Nemzeti Biotechnológiai Információs Központ, www.ncbi.nlm.nih.gov, lásd:Az NCBI adatbázis és honlap fejezetben.

[2] Nem árt tudni, hogy valaki mindig fizet az adott publikációért: vagy a szerzők fizetnek a folyóiratnak azért, hogy a cikküket mindenki ingyenesen elérhesse (free full-text vagy open access), vagy az olvasó – illetve annak anyaintézménye – fizet a nem ingyenes cikk letöltéséért.

[3] Az entrez franciául azt jelenti, hogy bemenni, és antré-nak ejtik. De az alkalmazást magyarul inkább entrez-nek ejtjük.

[4] Annotáció: A szekvencia adatainak pontosítása, pl: hol helyezkedik el a genomban, hol az eleje-vége, exon-intron és egyéb szerkezeti elemek határai, funkciója, stb.

[5] Nem redundáns: Ugyanaz a szekvencia nem szerepel többször, több azonosító számmal.

[6] Adott Taxonomy ID minden (nem csak NCBI) adatbázisban ugyanahhoz a fajhoz tartozik.

[7] Különböző szekvencia file-formátumok léteznek, melyek egyike a GenBank formátum. Az egyik legelterjedtebb, és a legtöbb bioinformatikai szoftver használt file-formátum neve FASTA.

[8] International Nucleotide Sequence Database Collaboration

[9] A felsoroltak nem minden GenBank rekordban találhatók meg maradéktalanul, valamint egyéb mezők is előfordulhatnak, itt csak a legfontosabbakat emeltük ki.