av de biljoner celler som komponerar vår kropp, från neuroner som reläsignaler i hela hjärnan till immunceller som hjälper till att försvara våra kroppar från konstant yttre angrepp, innehåller nästan alla samma 3 miljarder DNA – baspar som utgör det mänskliga genomet-hela vårt genetiska material. Det är anmärkningsvärt att var och en av de över 200 celltyperna i kroppen tolkar denna identiska information väldigt annorlunda för att utföra de funktioner som krävs för att hålla oss vid liv. Detta visar att vi måste se bortom DNA-sekvensen för att förstå hur en organism och dess celler fungerar.
studera genomet som helhet
så hur börjar vi förstå genomet som helhet? År 2000 tillhandahöll Human Genome Project den första fullständiga sekvensen av ett mänskligt genom . DNA som utgör alla genom består av fyra relaterade kemikalier som kallas nukleinsyror – adenin (a), guanin (G), cytosin (C) och tymin (t). En sekvens av DNA är en sträng av dessa nukleinsyror (även kallade ”baser” eller ”baspar”) som är kemiskt fästa vid varandra, såsom AGATTCAG, som ”läses ut” linjärt. Experimentella metoder för att bestämma DNA-sekvensen, tillsammans med hjälp från några kraftfulla datorer, gav slutligen forskare en sekvens full av A, G, C och T som var 3 miljarder bokstäver långa. Vid den tiden trodde forskare att de visste tillräckligt om hur DNA arbetade för att söka efter de funktionella enheterna i genomet, annars känt som gener. En gen är en DNA-sträng som kodar för den information som krävs för att göra ett protein, som sedan fortsätter att utföra någon funktion i våra celler.
efter Human Genome Project fann forskare att det fanns cirka 20 000 gener i genomet, ett antal som vissa forskare redan hade förutsagt. Anmärkningsvärt innefattar dessa gener endast cirka 1-2% av de 3 miljarder basparen av DNA . Det betyder att allt från 98-99% av hela vårt genom måste göra något annat än att koda för proteiner – forskare kallar detta icke-kodande DNA. Tänk dig att få flera volymer uppslagsverk som innehöll en sammanhängande mening på engelska var 100: E sida, där resten av utrymmet innehöll en smattering av otolkbara slumpmässiga bokstäver och tecken. Du skulle förmodligen börja undra varför alla dessa slumpmässiga bokstäver och tecken var där i första hand, vilket är det exakta problemet som har plågat forskare i årtionden.
varför används inte så mycket av vårt genom för att koda för protein? Tjänar detta extra DNA något funktionellt syfte? För att börja få en uppfattning om huruvida vi behöver allt detta extra DNA kan vi titta på närbesläktade arter som har vildt varierande genomstorlekar. Till exempel har släktet Allium, som inkluderar lök, schalottenlök och vitlök, genomstorlekar som sträcker sig från 10 till 20 miljarder baspar. Det är mycket osannolikt att en så stor mängd extra DNA skulle vara användbart i en Art och inte i dess genetiska kusin, kanske hävdar att mycket av genomet inte är användbart . Dessutom är dessa genom mycket större än det mänskliga genomet, vilket indikerar antingen att en lök är mycket komplex eller mer sannolikt att storleken på ett Genom inte säger något om hur komplex organismen är eller hur den fungerar.
vilka delar av genomet är funktionella?
på grund av fantastiska tekniska framsteg inom sekvensering av DNA och användning av datorer för att hjälpa till att analysera de resulterande sekvenserna (kollektivt känd som bioinformatik) har storskaliga projekt som liknar Human Genome Project börjat unravel komplexiteten och storleken på det mänskliga genomet. Ett särskilt projekt, koda, eller Encyclopedia of DNA-element, anges för att hitta funktionen av hela det mänskliga genomet . Med andra ord, medan Human Genome Project bestämde sig för att läsa ritningarna av mänskligt liv, var målet med ENCODE att ta reda på vilka delar av de blå utskrifterna som faktiskt gör något funktionellt. En grupp laboratorier från hela världen arbetar med ENCODE-projektet, som startade 2003 och finansieras av National Human Genome Research Institute. Just denna månad publicerade konsortiet sina huvudresultat i över 30 vetenskapliga tidskriftsartiklar, och det har fått stor uppmärksamhet av media .
Figur 1. De 46 kromosomerna (överst) som komponerar hela det mänskliga genomet. Varje kromosom (mitten) är en lång, kontinuerlig sträcka av DNA som ströks med gener som kodar för den information som krävs för att göra ett protein. Gener utgör bara en liten andel av genomet, och resten består av intergena regioner (botten) som inte kodar för proteiner. Det här är de regioner som kodar är mest intresserade av att studera. (Bildkredit: Wikimedia Commons; användare-Plociam)
för att bättre uppskatta målet att koda är det först bra att förstå vad vi menar med ”funktionell.”Kom ihåg att gener kodar för den information som krävs för att göra proteiner, vilka är molekylerna som utför funktioner i cellen. Hur mycket protein en given gen slutligen producerar, eller om det är tillåtet att göra någon alls, bestäms av dess genuttryck. I fallet med genomet skulle någon icke-proteinkodande sekvens som är funktionell förmodligen ha någon effekt på hur en gen uttrycks; det vill säga en funktionell sekvens reglerar på något sätt hur mycket protein som tillverkas av en given kodande DNA-sekvens. Det är skillnaden i proteinsammansättningen som hjälper till att ge en cell sin identitet. Eftersom varje cell innehåller exakt samma DNA och genom är det därför nivåerna av genuttryck som avgör om en cell kommer att vara en neuron, hud eller till och med en immuncell.
medan Human Genome Project främst använde tekniken för DNA-sekvensering för att läsa upp det mänskliga genomet, kräver faktiskt att tilldela roller till och karakterisera funktionen hos dessa DNA-baser ett mycket bredare spektrum av experimentella tekniker. ENCODE-projektet använde sex metoder för att hjälpa till att tilldela funktioner till särskilda sekvenser inom genomet. Dessa tillvägagångssätt inkluderade bland annat sekvensering av RNA, en molekyl som liknar och tillverkas av DNA som bär instruktioner för att göra proteiner och identifiera regioner av DNA som kan modifieras kemiskt eller bindas av proteiner . Forskare valde dessa metoder eftersom de var och en ger ledtrådar om huruvida en given sekvens är funktionell (dvs. om den påverkar genuttryck). Om cellen spenderar energi för att göra RNA från DNA, används det sannolikt för något. Dessutom påverkar proteiner som binder till DNA huruvida en gen uttrycks, och kemiska modifieringar av DNA kan också förhindra eller förbättra genuttryck.
var och en av dessa tillvägagångssätt kan identifiera sekvenser inom genomet som har någon form av biokemisk aktivitet, och för att öka användbarheten av detta projekt genomförde laboratorierna dessa tekniker i flera celltyper för att redogöra för naturlig variation. Så vad hittade de i slutändan? Med hjälp av de sex metoderna kunde projektet identifiera biokemisk aktivitet för 80% av baserna i genomet . Även om detta inte nödvändigtvis betyder att alla de förutsagda funktionella regionerna faktiskt tjänar ett syfte, föreslår det starkt att det finns en biologisk roll för mycket mer än 1% av vårt DNA som bildar gener. Många forskare misstänkte redan detta, men med ENCODE har vi nu en stor, standardiserad datamängd som kan användas av enskilda laboratorier för att undersöka dessa potentiellt funktionella områden. På samma sätt, eftersom det var ett så stort projekt med strikta kvalitetskontroller, kan vi vara säkra på att uppgifterna är reproducerbara och pålitliga.
användbarhet och kontrovers
även om de viktigaste fördelarna som härrör från detta projekt kanske inte realiseras under några år (liknar Human Genome Project), finns det för närvarande några områden där denna enorma datamängd kommer att vara användbar. Det finns en mängd sjukdomar som verkar vara associerade med genetiska mutationer; men många av de mutationer som har upptäckts ligger inte inom faktiska gener, vilket gör det svårt att förstå vilka funktionella förändringar mutationerna orsakar. Med hjälp av data från ENCODE-projektet kommer forskare att kunna finslipa de sjukdomsframkallande mutationerna snabbare, eftersom de nu kan associera mutationerna med funktionella sekvenser som finns i ENCODE-databasen. Genom att matcha dessa två bör forskare och läkare kunna börja förstå varför en viss mutation orsakar en sjukdom, vilket kommer att hjälpa till med utvecklingen av lämpliga terapier.
även om ENCODE-projektet var en anmärkningsvärd prestation av vetenskapligt samarbete, finns det fortfarande kontroverser kring projektet . Vissa forskare har uttryckt sin oro för att pengarna som spenderas på detta projekt (uppemot 200-300 miljoner dollar) kunde ha varit mer användbara för att förse enskilda forskare med bidrag. Vissa biologer har också uttryckt sin oro över hur resultaten av projektet presenterades för allmänheten, både vad gäller hype kring projektet och resultaten själva. På grund av kostnaden och komplexiteten hos dessa typer av studier är det viktigt för forskare att presentera ett opartiskt perspektiv. Behovet av noggrann presentation för allmänheten demonstrerades av hype kring ett nyligen publicerat papper publicerat av NASA-forskare om bakterier som kunde använda arsenik på ett sätt som aldrig hade observerats tidigare. Efter att ha meddelat att de hade upptäckt något nytt och spännande, till och med för att ringa en presskonferens, imploderade den självgenererade hype så småningom efter att resultaten slutligen motbevisades . Som med alla nya storskaliga projekt måste både forskare och allmänheten ha tålamod när de tilldelar värde tills de verkliga fördelarna med projektet kan realiseras.
en annan stor kritik av de artiklar som publicerats av ENCODE-gruppen fokuserade på betydelsen av frasen ”biologisk funktion.”I huvudkodningstidskriften uppgav författarna att de hade tilldelat en biologisk funktion till cirka 80% av det mänskliga genomet . Som andra har noterat, bara för att en given DNA-sekvens binder protein eller är associerad med någon kemisk modifiering betyder inte nödvändigtvis att den är funktionell eller tjänar en användbar roll. Många proteinbindningshändelser är slumpmässiga och obetydliga. Det har också varit känt under en tid att mycket av det icke-kodande ”skräp” – DNA inte är skräp, så vissa forskare har ifrågasatt nyheten av resultaten av ENCODE. Alla dessa problem är verkligen motiverade, och faktiskt visar konversationen kring projektet exakt hur vetenskapen ska fungera.
det kommer sannolikt att ta år att fullt ut förstå hur ENCODE har hjälpt det vetenskapliga samfundet, men ändå har detta projekt belyst hur viktigt det är att studera genomet som helhet, inte bara för att förstå varför vi har så mycket icke-kodande DNA inom varje cell, men också att informera oss om ämnen som är relevanta för majoriteten av människor, särskilt hur sällsynta eller flera genetiska mutationer leder till sjukdomsutveckling.
Jonathan Henninger är doktorand i programmet biologiska och biomedicinska vetenskaper vid Harvard University.
ytterligare Information
Video – encodes huvudkoordinator Ewan Birney diskuterar projektets huvudmål.
Human Genome Project hemsida <http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml>
koda hemsida <http://www.genome.gov/10005107>
koda artiklar publicerade i Nature <http://www.nature.com/encode/>
”bitar av mysterium DNA, långt ifrån ”skräp”, spelar avgörande roll, ”Gina Kolata, The New York Times <http://www.nytimes.com/2012/09/06/science/far-from-junk-dna-dark-matter-proves-crucial-to-health.html?pagewanted=all>
reddit.com” fråga mig vad som helst ” med ENCODE project contributors <http://www.reddit.com/r/askscience/comments/znlk6/askscience_special_ama_we_are_the_encyclopedia_of/>
”förblindad av stor vetenskap: Lärdomen jag lärde mig från ENCODE är att projekt som ENCODE inte är en bra ide, ” av Michael Eisen <http://www.michaeleisen.org/blog/?p=1179>
”ENCODE säger vad?”av Sean Eddy <http://selab.janelia.org/people/eddys/blog/?p=683>
”nya vetenskapliga artiklar visar att NASA misslyckades med att främja förmodligen jordskakande upptäckt som inte var,” av Matthew Herper <http://www.forbes.com/sites/matthewherper/2012/07/08/new-science-papers-prove-nasa-failed-big-time-in-promoting-supposedly-earth-shaking-discovery-that-wasnt/>
”utveckling av genomstorlek över vissa odlade Alliumarter.”Ricroch et al., Genom 2005. <http://www.ncbi.nlm.nih.gov/pubmed/16121247>
”en integrerad encyklopedi av DNA-element i det mänskliga genomet.”ENCODE-Projektkonsortiet, Nature 2012. <http://www.nature.com/nature/journal/v489/n7414/full/nature11247.html>