Parmi les milliards de cellules qui composent notre corps, des neurones qui relaient des signaux dans tout le cerveau aux cellules immunitaires qui aident à défendre notre corps contre les agressions extérieures constantes, presque toutes contiennent les mêmes paires de bases d’ADN 3 milliards qui composent le génome humain – l’intégralité de notre matériel génétique. Il est remarquable que chacun des plus de 200 types de cellules du corps interprète très différemment ces informations identiques afin de remplir les fonctions nécessaires pour nous maintenir en vie. Cela démontre que nous devons regarder au-delà de la séquence de l’ADN lui-même afin de comprendre comment un organisme et ses cellules fonctionnent.
Étudier le génome dans son ensemble
Alors, comment commencer à comprendre le génome dans son ensemble? En 2000, le Projet Génome humain a fourni la première séquence complète d’un génome humain. L’ADN qui compose tous les génomes est composé de quatre produits chimiques apparentés appelés acides nucléiques – l’adénine (A), la guanine (G), la cytosine (C) et la thymine (T). Une séquence d’ADN est une chaîne de ces acides nucléiques (également appelés « bases » ou « paires de bases ») qui sont chimiquement attachés les uns aux autres, comme l’AGATTCAG, qui est « lu » linéairement. Des méthodes expérimentales pour déterminer la séquence de l’ADN, avec l’aide de certains ordinateurs puissants, ont finalement donné aux scientifiques une séquence pleine de A, G, C et T, longue de 3 milliards de lettres. À l’époque, les chercheurs pensaient en savoir assez sur le fonctionnement de l’ADN pour rechercher les unités fonctionnelles du génome, autrement appelées gènes. Un gène est une chaîne d’ADN qui code pour les informations nécessaires à la fabrication d’une protéine, qui remplit ensuite une fonction au sein de nos cellules.
Après le Projet sur le génome humain, les scientifiques ont découvert qu’il y avait environ 20 000 gènes dans le génome, un nombre que certains chercheurs avaient déjà prédit. Fait remarquable, ces gènes ne comprennent qu’environ 1 à 2% des 3 milliards de paires de bases d’ADN. Cela signifie que de 98 à 99% de notre génome entier doit faire autre chose que de coder des protéines – les scientifiques appellent cet ADN non codant. Imaginez qu’on vous donne plusieurs volumes d’encyclopédies contenant une phrase cohérente en anglais toutes les 100 pages, où le reste de l’espace contenait une poignée de lettres et de caractères aléatoires ininterprétables. Vous commenceriez probablement à vous demander pourquoi toutes ces lettres et caractères aléatoires étaient là en premier lieu, ce qui est exactement le problème qui afflige les scientifiques depuis des décennies.
Pourquoi une telle partie de notre génome n’est-elle pas utilisée pour coder les protéines? Cet ADN supplémentaire sert-il un but fonctionnel? Pour commencer à avoir une idée de si nous avons besoin de tout cet ADN supplémentaire, nous pouvons examiner des espèces étroitement apparentées qui ont des tailles de génome très variables. Par exemple, le genre Allium, qui comprend les oignons, les échalotes et l’ail, a des tailles de génome allant de 10 à 20 milliards de paires de bases. Il est très peu probable qu’une si grande quantité d’ADN supplémentaire soit utile chez une espèce et non chez son cousin génétique, arguant peut-être qu’une grande partie du génome n’est pas utile. De plus, ces génomes sont beaucoup plus grands que le génome humain, ce qui indique soit qu’un oignon est très complexe, soit plus probablement que la taille d’un génome ne dit rien de la complexité de l’organisme ou de son fonctionnement.
Quelles Parties du Génome sont Fonctionnelles ?
En raison des progrès technologiques étonnants dans le séquençage de l’ADN et l’utilisation d’ordinateurs pour aider à analyser les séquences résultantes (collectivement appelées bioinformatiques), des projets à grande échelle similaires au Projet sur le génome humain ont commencé à démêler la complexité et la taille du génome humain. Un projet particulier, ENCODE, ou l’Encyclopédie des éléments de l’ADN, visait à trouver la fonction de l’ensemble du génome humain. En d’autres termes, alors que le Projet sur le génome humain avait pour objectif de lire les plans de la vie humaine, l’objectif d’ENCODE était de savoir quelles parties de ces empreintes bleues faisaient réellement quelque chose de fonctionnel. Un groupe de laboratoires du monde entier travaille sur le projet ENCODE, qui a débuté en 2003 et est financé par l’Institut National de Recherche sur le génome Humain. Ce mois-ci, le consortium a publié ses principaux résultats dans plus de 30 articles de revues scientifiques, et les médias lui ont accordé une grande attention.
Figure 1. Les 46 chromosomes (en haut) qui composent l’ensemble du génome humain. Chaque chromosome (milieu) est un long tronçon continu d’ADN parsemé de gènes qui codent les informations nécessaires à la fabrication d’une protéine. Les gènes ne représentent qu’un faible pourcentage du génome, et le reste est composé de régions intergéniques (en bas) qui ne codent pas pour les protéines. Ce sont les régions qui CODENT est le plus intéressé à étudier. (Crédit image: Wikimedia Commons; User-Plociam)
Pour mieux apprécier l’objectif de CODER, il est d’abord utile de comprendre ce que nous entendons par « fonctionnel. »Rappelez-vous que les gènes codent les informations nécessaires à la fabrication des protéines, qui sont les molécules qui remplissent des fonctions dans la cellule. La quantité de protéines qu’un gène donné produit en fin de compte, ou s’il est autorisé à en produire, est déterminée par son expression génique. Dans le cas du génome, toute séquence non codante en protéines qui est fonctionnelle aurait vraisemblablement un effet sur la façon dont un gène est exprimé; c’est-à-dire qu’une séquence fonctionnelle régule d’une certaine manière la quantité de protéines produites à partir d’une séquence d’ADN codante donnée. C’est la différence de composition des protéines qui aide à donner son identité à une cellule. Puisque chaque cellule contient exactement le même ADN et le même génome, ce sont donc les niveaux d’expression des gènes qui déterminent si une cellule sera un neurone, une peau ou même une cellule immunitaire.
Alors que le Projet sur le génome humain a principalement utilisé la technique du séquençage de l’ADN pour lire le génome humain, l’attribution de rôles et la caractérisation de la fonction de ces bases d’ADN nécessitent un éventail beaucoup plus large de techniques expérimentales. Le projet ENCODE a utilisé six approches pour aider à attribuer des fonctions à des séquences particulières du génome. Ces approches comprenaient, entre autres, le séquençage de l’ARN, une molécule similaire à et fabriquée à partir d’ADN qui contient des instructions pour la fabrication de protéines, et l’identification de régions d’ADN qui pourraient être modifiées chimiquement ou liées par des protéines. Les chercheurs ont choisi ces méthodes parce qu’elles donnent chacune des indices pour savoir si une séquence donnée est fonctionnelle (c’est-à-dire si elle influence l’expression des gènes). Si la cellule dépense de l’énergie pour fabriquer de l’ARN à partir de l’ADN, elle est probablement utilisée pour quelque chose. De plus, les protéines qui se lient à l’ADN influencent l’expression d’un gène, et les modifications chimiques de l’ADN peuvent également empêcher ou améliorer l’expression des gènes.
Chacune de ces approches peut identifier des séquences dans le génome qui ont une sorte d’activité biochimique, et pour ajouter à l’utilité de ce projet, les laboratoires ont mené ces techniques dans plusieurs types de cellules afin de tenir compte de la variabilité naturelle. Alors qu’ont-ils finalement trouvé? En utilisant les six approches, le projet a pu identifier l’activité biochimique de 80% des bases du génome. Bien que cela ne signifie pas nécessairement que toutes ces régions fonctionnelles prédites servent réellement un but, cela suggère fortement qu’il y a un rôle biologique pour beaucoup plus que le 1% de notre ADN qui forme des gènes. De nombreux scientifiques le soupçonnaient déjà, mais avec ENCODE, nous disposons désormais d’un grand ensemble de données standardisées qui peuvent être utilisées par des laboratoires individuels pour sonder ces domaines potentiellement fonctionnels. De même, comme il s’agissait d’un projet d’une telle envergure avec des contrôles de qualité stricts, nous pouvons être sûrs que les données sont reproductibles et fiables.
Utilité et controverse
Bien que les principaux avantages découlant de ce projet ne soient peut-être pas réalisés avant quelques années (à l’instar du Projet sur le génome humain), il existe déjà certains domaines où cet énorme ensemble de données sera utile. Il existe une foule de maladies qui semblent être associées à des mutations génétiques; cependant, bon nombre des mutations découvertes ne se trouvent pas dans les gènes réels, ce qui rend difficile la compréhension des changements fonctionnels que les mutations provoquent. En utilisant les données du projet ENCODE, les chercheurs pourront approfondir plus rapidement les mutations responsables de la maladie, car ils peuvent désormais associer les mutations à des séquences fonctionnelles trouvées dans la base de données ENCODE. En associant ces deux éléments, les chercheurs et les médecins devraient pouvoir commencer à comprendre pourquoi une mutation particulière provoque une maladie, ce qui aidera au développement de thérapies appropriées.
Bien que le projet ENCODE ait été un exploit remarquable de collaboration scientifique, il existe toujours une controverse autour du projet. Certains scientifiques se sont dits préoccupés par le fait que l’argent dépensé pour ce projet (plus de 200 à 300 millions de dollars) aurait pu être plus utile pour fournir des subventions à des chercheurs individuels. Certains biologistes ont également exprimé leurs préoccupations quant à la façon dont les résultats du projet ont été présentés au public, à la fois en termes de battage médiatique entourant le projet et les résultats eux-mêmes. En raison du coût et de la complexité de ces types d’études, il est important que les scientifiques présentent une perspective impartiale. La nécessité d’une présentation attentive au public a été démontrée par le battage médiatique entourant un article récent publié par des scientifiques de la NASA sur des bactéries qui pourraient utiliser l’arsenic d’une manière qui n’avait jamais été observée auparavant. Après avoir annoncé qu’ils avaient découvert quelque chose de nouveau et d’excitant, au point même de convoquer une conférence de presse, le battage médiatique auto-généré a finalement implosé après que les résultats aient finalement été réfutés. Comme pour tout nouveau projet à grande échelle, les scientifiques et le public doivent être patients pour attribuer de la valeur jusqu’à ce que les véritables avantages du projet puissent être réalisés.
Une autre critique majeure des articles publiés par le groupe ENCODE a porté sur la signification de l’expression « fonction biologique. »Dans l’article principal de la revue ENCODE, les auteurs ont déclaré qu’ils avaient attribué une fonction biologique à environ 80% du génome humain. Comme d’autres l’ont noté, ce n’est pas parce qu’une séquence d’ADN donnée lie une protéine ou est associée à une modification chimique qu’elle est fonctionnelle ou qu’elle joue un rôle utile. De nombreux événements de liaison aux protéines sont aléatoires et sans conséquence. Il est également connu depuis un certain temps qu’une grande partie de l’ADN « indésirable » non codant n’est pas réellement indésirable, de sorte que certains chercheurs ont remis en question la nouveauté des résultats d’ENCODE. Toutes ces préoccupations sont certainement justifiées et, en fait, la conversation entourant le projet démontre précisément comment la science est censée fonctionner.
Il faudra probablement des années pour bien comprendre comment ENCODE a aidé la communauté scientifique, mais néanmoins, ce projet a mis en évidence l’importance d’étudier le génome dans son ensemble, non seulement pour comprendre pourquoi nous avons autant d’ADN non codant dans chaque cellule, mais aussi pour nous informer sur des sujets pertinents pour la majorité des gens, notamment comment des mutations génétiques rares ou multiples conduisent au développement de maladies.
Jonathan Henninger est un étudiant diplômé du Programme de Sciences Biologiques et biomédicales de l’Université Harvard.
Informations complémentaires
Le coordinateur principal de Video–ENCODE, Ewan Birney, discute des principaux objectifs du projet.
Page d’accueil du Projet Génome humain <http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml>
ENCODER la Page d’accueil <http://www.genome.gov/10005107>
ENCODER des articles publiés dans Nature <http://www.nature.com/encode/>
» Des Morceaux d’ADN Mystérieux, Loin de La « Camelote « , Jouent Un Rôle Crucial « , Gina Kolata, Le New York Times <http://www.nytimes.com/2012/09/06/science/far-from-junk-dna-dark-matter-proves-crucial-to-health.html?pagewanted=all>
reddit.com « Demandez-moi n’importe quoi » avec les contributeurs du projet ENCODE <http://www.reddit.com/r/askscience/comments/znlk6/askscience_special_ama_we_are_the_encyclopedia_of/>
» Aveuglé par la Grande Science: La leçon que j’ai tirée d’ENCODE est que des projets comme ENCODE ne sont pas une bonne idée « , par Michael Eisen <http://www.michaeleisen.org/blog/?p=1179>
» ENCODER dit quoi ? » par Sean Eddy <http://selab.janelia.org/people/eddys/blog/?p=683>
» De Nouveaux Articles Scientifiques Prouvent Que La NASA A Échoué à Promouvoir Une Découverte Supposée Tremblante De La Terre Qui Ne L’Était pas « , par Matthew Herper <http://www.forbes.com/sites/matthewherper/2012/07/08/new-science-papers-prove-nasa-failed-big-time-in-promoting-supposedly-earth-shaking-discovery-that-wasnt/>
» Evolution de la taille du génome chez certaines espèces d’Allium cultivées. » Ricroch et coll., Génome 2005. <http://www.ncbi.nlm.nih.gov/pubmed/16121247>
» Une encyclopédie intégrée des éléments de l’ADN dans le génome humain. »Le Consortium du projet ENCODE, Nature 2012. <http://www.nature.com/nature/journal/v489/n7414/full/nature11247.html>