af de billioner af celler, der komponerer vores krop, fra neuroner, der videresender signaler i hele hjernen til immunceller, der hjælper med at forsvare vores kroppe mod konstant eksternt angreb, næsten alle indeholder de samme 3 milliarder DNA – basepar, der udgør det menneskelige genom-hele vores genetiske materiale. Det er bemærkelsesværdigt, at hver af de over 200 celletyper i kroppen fortolker denne identiske information meget forskelligt for at udføre de funktioner, der er nødvendige for at holde os i live. Dette viser, at vi er nødt til at se ud over selve DNA-sekvensen for at forstå, hvordan en organisme og dens celler fungerer.
undersøgelse af genomet som helhed
så hvordan begynder vi at forstå genomet som helhed? I 2000 leverede Human Genome Project Den første fulde sekvens af et humant genom . DNA ‘ et, der udgør alle genomer, består af fire relaterede kemikalier kaldet nukleinsyrer – adenin (a), guanin (G), cytosin (C) og thymin (T). En sekvens af DNA er en streng af disse nukleinsyrer (også kaldet “baser” eller “basepar”), der er kemisk bundet til hinanden, såsom AGATTCAG, som “læses” lineært. Eksperimentelle metoder til at bestemme DNA-sekvensen sammen med hjælp fra nogle magtfulde computere gav i sidste ende forskere en sekvens fuld af A ‘er, G’ er, C ‘er og T’ er, der var 3 milliarder bogstaver lange. På det tidspunkt troede forskere, at de vidste nok om, hvordan DNA arbejdede for at søge efter genomets funktionelle enheder, ellers kendt som gener. Et gen er en streng DNA, der koder for de oplysninger, der er nødvendige for at fremstille et protein, som derefter fortsætter med at udføre en eller anden funktion i vores celler.
efter Human Genome Project fandt forskerne, at der var omkring 20.000 gener i genomet, et tal, som nogle forskere allerede havde forudsagt. Bemærkelsesværdigt udgør disse gener kun omkring 1-2% af de 3 milliarder basepar af DNA . Det betyder, at overalt fra 98-99% af hele vores genom skal gøre noget andet end kodning for proteiner – forskere kalder dette ikke-kodende DNA. Forestil dig at få flere bind encyklopædier, der indeholdt en sammenhængende sætning på engelsk hver 100 sider, hvor resten af rummet indeholdt en smattering af ufortolkelige tilfældige bogstaver og tegn. Du vil sandsynligvis begynde at undre dig over, hvorfor alle disse tilfældige bogstaver og tegn var der i første omgang, hvilket er det nøjagtige problem, der har plaget forskere i årtier.
hvorfor bruges så meget af vores genom ikke til at kode for protein? Tjener dette ekstra DNA noget funktionelt formål? For at begynde at få en ide om, hvorvidt vi har brug for alt dette ekstra DNA, kan vi se på nært beslægtede arter, der har vildt varierende genomstørrelser. For eksempel slægten Allium, som omfatter løg, skalotteløg, og hvidløg, har genom størrelser spænder overalt fra 10 til 20 milliarder basepar. Det er meget usandsynligt, at en så stor mængde ekstra DNA ville være nyttigt i en art og ikke i dens genetiske fætter, måske argumenterer for, at meget af genomet ikke er nyttigt . Desuden er disse genomer meget større end det menneskelige genom, hvilket indikerer enten, at en løg er meget kompleks, eller mere sandsynligt, at størrelsen på et genom ikke siger noget om, hvor kompleks organismen er, eller hvordan den fungerer.
hvilke dele af genomet er funktionelle?
på grund af fantastiske teknologiske fremskridt inden for sekventering af DNA og ved brug af computere til at hjælpe med at analysere de resulterende sekvenser (samlet kendt som Bioinformatik), er store projekter, der ligner Human Genome Project, begyndt at afsløre kompleksiteten og størrelsen af det menneskelige genom. Et bestemt projekt, ENCODE, eller Encyclopedia of DNA Elements, satte sig for at finde funktionen af hele det menneskelige genom . Med andre ord, mens Human Genome Project satte sig for at læse blueprints of human life, var målet med ENCODE at finde ud af, hvilke dele af disse blå udskrifter der faktisk gør noget funktionelt. En gruppe laboratorier fra hele verden arbejder på ENCODE-projektet, der startede i 2003 og er finansieret af National Human Genome Research Institute. Netop denne måned offentliggjorde konsortiet sine vigtigste resultater i over 30 videnskabelige tidsskriftartikler, og det har fået en betydelig opmærksomhed fra medierne .
Figur 1. De 46 kromosomer (øverst), der komponerer hele det menneskelige genom. Hvert kromosom (midten) er en lang, kontinuerlig DNA-strækning, der er drysset med gener, der koder for de oplysninger, der er nødvendige for at fremstille et protein. Gener udgør kun en lille procentdel af genomet, og resten består af intergeniske regioner (bund), der ikke koder for proteiner. Det er de regioner, der koder er mest interesseret i at studere. (Billedkredit: bruger – Plociam)
for bedre at forstå målet med ENCODE er det først nyttigt at forstå, hvad vi mener med “funktionel.”Husk, at gener koder for de oplysninger, der er nødvendige for at fremstille proteiner, som er de molekyler, der udfører funktioner i cellen. Hvor meget protein et givet gen i sidste ende producerer, eller om det overhovedet er tilladt at fremstille noget, bestemmes af dets genekspression. I tilfælde af genomet vil enhver ikke-proteinkodende sekvens, der er funktionel, formodentlig have en vis effekt på, hvordan et gen udtrykkes; det vil sige en funktionel sekvens regulerer på en eller anden måde, hvor meget protein der fremstilles ud fra en given kodende DNA-sekvens. Det er forskellen i sammensætningen af proteiner, der hjælper med at give en celle sin identitet. Da hver celle indeholder nøjagtigt det samme DNA og genom, er det derfor niveauerne af genekspression, der bestemmer, om en celle vil være en neuron, hud eller endda en immuncelle.
mens Human Genome Project primært brugte teknikken til DNA-sekventering til at læse det menneskelige genom, kræver det faktisk at tildele roller til og karakterisere funktionen af disse DNA-Baser en meget bredere vifte af eksperimentelle teknikker. ENCODE-projektet brugte seks tilgange til at hjælpe med at tildele funktioner til bestemte sekvenser i genomet. Disse tilgange omfattede blandt andet sekventering RNA, et molekyle svarende til og fremstillet af DNA, der bærer instruktioner til fremstilling af proteiner og identifikation af DNA-regioner, der kunne være kemisk modificeret eller bundet af proteiner . Forskere valgte disse metoder, fordi de hver især giver spor om, hvorvidt en given sekvens er funktionel (dvs.om den påvirker genekspression). Hvis cellen bruger energi til at fremstille RNA fra DNA, bruges den sandsynligvis til noget. Derudover påvirker proteiner, der binder til DNA, om et gen udtrykkes, og kemiske modifikationer af DNA kan også forhindre eller forbedre genekspression.
hver af disse tilgange kan identificere sekvenser inden for genomet, der har en slags biokemisk aktivitet, og for at tilføje nytten af dette projekt gennemførte laboratorierne disse teknikker i flere celletyper for at tage højde for naturlig variation. Så hvad fandt de i sidste ende? Ved hjælp af de seks tilgange var projektet i stand til at identificere biokemisk aktivitet for 80% af baserne i genomet . Selvom dette ikke nødvendigvis betyder, at alle de forudsagte funktionelle regioner faktisk tjener et formål, antyder det stærkt, at der er en biologisk rolle for meget mere end 1% af vores DNA, der danner gener. Mange forskere har allerede mistanke om dette, men med ENCODE har vi nu et stort, standardiseret datasæt, der kan bruges af individuelle laboratorier til at undersøge disse potentielt funktionelle områder. På samme måde, fordi det var et så stort projekt med streng kvalitetskontrol, kan vi være sikre på, at dataene er reproducerbare og pålidelige.
Nyttighed og kontrovers
selvom de største fordele, der stammer fra dette projekt, muligvis ikke realiseres i nogle år (svarende til Human Genome Project), er der i øjeblikket allerede nogle områder, hvor dette enorme datasæt vil være nyttigt. Der er en række sygdomme, der synes at være forbundet med genetiske mutationer; imidlertid er mange af de mutationer, der er blevet opdaget, ikke inden for egentlige gener, hvilket gør det vanskeligt at forstå, hvilke funktionelle ændringer mutationerne forårsager. Ved hjælp af dataene fra ENCODE-projektet vil forskere være i stand til at finpudse de sygdomsfremkaldende mutationer hurtigere, da de nu kan forbinde mutationerne med funktionelle sekvenser, der findes i ENCODE-databasen. Ved at matche disse to skal forskere og læger være i stand til at begynde at forstå, hvorfor en bestemt mutation forårsager en sygdom, hvilket vil hjælpe med udviklingen af passende terapier.
selvom ENCODE-projektet var en bemærkelsesværdig bedrift af videnskabeligt samarbejde, er der stadig kontroverser omkring projektet . Nogle forskere har givet udtryk for deres bekymring for, at pengene brugt på dette projekt (op mod $200-300 millioner) kunne have været mere nyttige til at forsyne individuelle forskere med tilskud. Nogle biologer har også givet udtryk for deres bekymring over, hvordan resultaterne af projektet blev præsenteret for offentligheden, både med hensyn til hype omkring projektet og selve resultaterne. På grund af omkostningerne og kompleksiteten af disse typer undersøgelser er det vigtigt for forskere at præsentere et upartisk perspektiv. Behovet for omhyggelig præsentation for offentligheden blev demonstreret af hype omkring et nyligt papir udgivet af NASA-forskere om bakterier, der kunne bruge arsen på en måde, der aldrig var blevet observeret før. Efter at have meddelt, at de havde opdaget noget nyt og spændende, selv til det punkt at kalde en pressekonference, imploderede den selvgenererede hype til sidst, efter at resultaterne i sidste ende blev afvist . Som med ethvert nyt stort projekt skal både forskere og offentligheden være tålmodige med at tildele værdi, indtil de sande fordele ved projektet kan realiseres.
en anden stor kritik af de papirer, der blev offentliggjort af ENCODE-gruppen, fokuserede på betydningen af udtrykket “biologisk funktion.”I main ENCODE journal paper udtalte forfatterne, at de havde tildelt en biologisk funktion til omkring 80% af det menneskelige genom . Som andre har bemærket, bare fordi en given DNA-sekvens binder protein eller er forbundet med en eller anden kemisk modifikation, betyder det ikke nødvendigvis, at det er funktionelt eller tjener en nyttig rolle. Mange proteinbindingshændelser er tilfældige og ubetydelige. Det har også været kendt i nogen tid, at meget af det ikke-kodende “junk” DNA faktisk ikke er junk, så nogle forskere har sat spørgsmålstegn ved nyheden af resultaterne af ENCODE. Alle disse bekymringer er helt sikkert berettigede, og faktisk viser samtalen omkring projektet præcist, hvordan videnskaben skal fungere.
det vil sandsynligvis tage år at forstå fuldt ud, hvordan ENCODE har hjulpet det videnskabelige samfund, men ikke desto mindre har dette projekt fremhævet, hvor vigtigt det er at studere genomet som helhed, ikke kun for at forstå, hvorfor vi har så meget ikke-kodende DNA i hver eneste celle, men også for at informere os om emner, der er relevante for de fleste mennesker, især hvordan sjældne eller flere genetiske mutationer fører til sygdomsudvikling.
Jonathan Henninger er kandidatstuderende i det biologiske og Biomedicinske Videnskabsprogram ved Harvard University.
yderligere Information
Video – encodes hovedkoordinator Birney diskuterer projektets hovedmål.
Human Genome Project hjemmeside <http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml>
ENCODE hjemmeside <http://www.genome.gov/10005107>
ENCODE artikler offentliggjort i Nature <http://www.nature.com/encode/>
“Bits af Mystery DNA, langt fra “Junk,” spiller afgørende rolle, “Gina Kolata, Ny York Times <http://www.nytimes.com/2012/09/06/science/far-from-junk-dna-dark-matter-proves-crucial-to-health.html?pagewanted=all>
reddit.com “Spørg mig om noget” med encode project contributors <http://www.reddit.com/r/askscience/comments/znlk6/askscience_special_ama_we_are_the_encyclopedia_of/>
“blindet af stor videnskab: Den lektion, jeg lærte af ENCODE, er, at projekter som ENCODE ikke er en god ide, ” af Michael Eisen <http://www.michaeleisen.org/blog/?p=1179>
“ENCODE siger hvad?”af Sean Eddy <http://selab.janelia.org/people/eddys/blog/?p=683>
“nye videnskabelige artikler beviser, at NASA mislykkedes Big Time med at fremme angiveligt jordrystende opdagelse, der ikke var,” af Matthæus Herper <http://www.forbes.com/sites/matthewherper/2012/07/08/new-science-papers-prove-nasa-failed-big-time-in-promoting-supposedly-earth-shaking-discovery-that-wasnt/>
“udvikling af genomstørrelse på tværs af nogle dyrkede Alliumarter.”Ricroch et al., Genom 2005. <http://www.ncbi.nlm.nih.gov/pubmed/16121247>
“en integreret encyklopædi af DNA-elementer i det menneskelige genom.”ENCODE – Projektkonsortiet, Nature 2012. <http://www.nature.com/nature/journal/v489/n7414/full/nature11247.html>