우리 몸을 구성하는 수조 개의 세포 중 뇌 전체에 신호를 전달하는 뉴런에서 지속적인 외부 공격으로부터 우리 몸을 보호하는 면역 세포에 이르기까지 거의 모든 세포가 인간 게놈을 구성하는 30 억 개의 유전자 염기쌍을 포함하고 있습니다. 우리들을 살아 있는 지키게 필요한 기능을 실행하기 위하여 몸안에 200 의 세포 모형의 각자가 이 동일한 정보를 아주 다르게 해석한다 고 현저하다. 이것은 우리가 유기체와 그 세포가 어떻게 기능 하는지를 이해하기 위해 유전자 자체의 순서를 넘어서 볼 필요가 있음을 보여줍니다.
전체 게놈 연구
그렇다면 어떻게 게놈 전체를 이해하기 시작할 수 있을까? 2000 년에 인간 게놈 프로젝트는 인간 게놈의 첫 번째 전체 시퀀스를 제공했습니다. 모든 게놈을 구성하는 유전자는 핵산이라는 네 가지 관련 화학 물질로 구성됩니다–아데닌(에이),구아닌(지),시토신(기음),및 티민(티). 예를 들어 아갓카그와 같이 서로 화학적으로 부착되는 핵산(“염기”또는”염기쌍”이라고도 함)은 선형으로”판독”됩니다. 일부 강력한 컴퓨터의 도움과 함께 유전자 시퀀스를 결정하는 실험 방법은 궁극적으로 과학자들에게 30 억 글자 길이의 유전자,유전자,씨,티의 전체 시퀀스를 제공했습니다. 당시 연구자들은 유전자가 유전자로 알려진 게놈의 기능 단위를 찾기 위해 어떻게 작용했는지에 대해 충분히 알고 있다고 생각했다. 유전자는 단백질을 만드는 데 필요한 정보를 암호화하는 일련의 유전자이며,이 정보는 세포 내에서 어떤 기능을 수행합니다.
인간 게놈 프로젝트 이후 과학자들은 게놈 내에 약 20,000 개의 유전자가 있다는 것을 발견했으며,일부 연구자들은 이미 예측 한 숫자입니다. 놀랍게도,이들 유전자는 30 억 개의 염기쌍의 약 1-2%만을 포함한다. 이것은 우리의 전체 게놈의 98-99%가 단백질을 코딩하는 것 이외의 다른 일을해야한다는 것을 의미합니다. 100 페이지마다 영어로 일관된 문장이 담긴 여러 권의 백과 사전이 주어 졌다고 상상해보십시오.이 공간의 나머지 부분에는 해석 할 수없는 임의의 문자와 문자가 들어 있습니다. 당신은 아마 왜 그 모든 임의의 문자와 문자가 처음에 거기에 있었는지 궁금해하기 시작할 것입니다.
왜 우리 게놈의 많은 부분이 단백질을 코딩하는 데 사용되지 않습니까? 이 여분의 유전자가 어떤 기능적 목적을 제공합니까? 이 모든 유전자가 필요한지에 대한 아이디어를 얻기 위해,우리는 매우 다양한 게놈 크기를 가진 밀접한 관련 종을 볼 수 있습니다. 예를 들어,양파,샬롯,마늘을 포함하는 부추 속은 게놈 크기가 100 억~200 억 개의 염기쌍에 이릅니다. 이렇게 많은 양의 여분의 유전자가 유전적 사촌이 아닌 한 종에서 유용할 가능성은 매우 희박하며,아마도 게놈의 대부분은 유용하지 않다고 주장할 것이다. 또한,이 게놈은 인간 게놈보다 훨씬 더 큰,이는 양파가 매우 복잡한 것을 나타냅니다,또는 게놈의 크기는 유기체가 얼마나 복잡한 또는 어떻게 기능에 대해 아무것도 말하지 않는다 가능성이 더 높습니다.
게놈의 어느 부분이 기능적인가?
인간 게놈 프로젝트와 유사한 대규모 프로젝트는 인간 게놈의 복잡성과 크기를 해명하기 시작했다. 하나의 특정 프로젝트,인코딩,또는 백과사전,인간 게놈의 전체의 기능을 찾기 위해 밖으로 설정 합니다. 다른 말로,인간 게놈 프로젝트는 인간의 삶의 청사진을 읽기 위해 밖으로 설정하는 동안,인코딩의 목표는 그 청사진의 어떤 부분이 실제로 기능적인 일을 찾을 수 있었다. 2003 년에 시작 하 고 국립 인간 게놈 연구소에 의해 투자 인코딩 프로젝트에 세계 작업 각국에서 실험실의 그룹. 이번 달 컨소시엄은 30 개가 넘는 과학 저널 기사에 주요 결과를 발표했으며 미디어에서 상당한 관심을 받았습니다.
그림 1. 전체 인간 게놈을 구성하는 46 개의 염색체(상단). 각 염색체(중간)는 단백질을 만드는 데 필요한 정보를 암호화하는 유전자가 뿌려진 길고 연속적인 유전자입니다. 유전자는 게놈의 작은 비율 만 구성하고 나머지는 단백질을 코딩하지 않는 유전자 간 영역(하단)으로 구성됩니다. 이 인코딩 영역이 공부에 가장 관심이 있습니다. (이미지 제공:위키미디어 공용;사용자 플로시암)
인코딩의 목표를 더 잘 이해하기 위해서는 먼저”기능적”이 무엇을 의미하는지 이해하는 것이 도움이 된다.”유전자는 세포 내에서 기능을 수행하는 분자 인 단백질을 만드는 데 필요한 정보를 암호화하는 것을 기억하십시오. 주어진 유전자가 궁극적으로 얼마나 많은 단백질을 생산하는지,또는 전혀 만들 수 있는지 여부는 유전자 발현에 의해 결정됩니다. 게놈의 경우,기능적 인 비 단백질 코딩 서열은 아마도 유전자가 어떻게 발현되는지에 영향을 미칠 것입니다. 세포에게 그것의 신원을 주는 것을 돕는 단백질의 구성에 있는 다름입니다. 모든 세포는 동일한 유전자와 게놈을 포함하고 있기 때문에 세포가 뉴런,피부 또는 면역 세포인지 여부를 결정하는 것은 유전자 발현 수준입니다.
인간 게놈 프로젝트는 주로 인간 게놈을 판독하기 위해 유전자 시퀀싱 기술을 사용했지만,실제로 이러한 유전자 염기의 역할을 할당하고 기능을 특성화하려면 훨씬 더 광범위한 실험 기술이 필요합니다. 인코딩 프로젝트는 게놈 내에서 특정 시퀀스에 기능을 할당하는 데 도움이 여섯 가지 방법을 사용했다. 이러한 접근법에는 단백질 제조와 화학적으로 변형되거나 단백질에 의해 결합될 수 있는 유전자 영역을 식별하는 것과 유사한 분자와 유사한 분자가 포함되었다. 연구자들은 주어진 서열이 기능적인지(즉,유전자 발현에 영향을 미치는지 여부)에 대한 단서를 제공하기 때문에 이러한 방법을 선택했습니다. 만약 세포가 에너지를 소비하고 있다면,그것은 아마도 어떤 것을 위해 사용되고 있을 것이다. 또한 유전자에 결합하는 단백질은 유전자가 발현되는지 여부에 영향을 미치며 유전자의 화학적 변형은 유전자 발현을 예방하거나 향상시킬 수 있습니다.
이러한 각 접근 방식은 일종의 생화학 적 활성을 가진 게놈 내의 서열을 식별 할 수 있으며,이 프로젝트의 유용성을 더하기 위해 실험실은 자연적 가변성을 설명하기 위해 여러 세포 유형으로 이러한 기술을 수행했습니다. 그래서 그들은 궁극적으로 무엇을 발견 했습니까? 이 프로젝트는 6 가지 접근법을 사용하여 게놈의 염기의 80%에 대한 생화학 적 활동을 식별 할 수있었습니다. 이것은 반드시 그 예측 기능 영역의 모든 실제로 목적을 수행 할 것을 의미하지 않는다,그것은 강력하게 유전자를 형성하는 우리의 유전자의 1%보다 훨씬 더 생물학적 역할이 있음을 시사한다. 많은 과학자들은 이미이 의심하지만,인코딩,우리는 지금 이러한 잠재적으로 기능 영역을 조사하기 위해 개별 실험실에서 사용할 수있는 큰 표준화 된 데이터 세트를 가지고있다. 마찬가지로 엄격한 품질 관리를 갖춘 대규모 프로젝트 였기 때문에 데이터가 재현 가능하고 신뢰할 수 있음을 확신 할 수 있습니다.
유용성과 논란
이 프로젝트에서 비롯된 주요 이점은 몇 년 동안 실현되지 않을 수도 있지만(인간 게놈 프로젝트와 유사),현재이 거대한 데이터 세트가 유용 할 일부 영역이 이미 있습니다. 유전 돌연변이와 연관되는 것을 보이는 다수 질병이 있습니다;그러나,발견된 돌연변이의 많은 것은 무슨 기능적인 변화가 돌연변이를 일으키는 원인이 되는 이해하게 어려운 하는 실제적인 유전자 안에 이지 않습니다. 그들은 지금 인코딩 데이터베이스에서 발견 된 기능 시퀀스와 돌연변이를 연결할 수 있기 때문에 인코딩 프로젝트의 데이터를 사용하여,연구자들은 더 빨리 질병을 일으키는 돌연변이에 연마 할 수있을 것입니다. 이 두 가지를 일치시킴으로써 연구자와 의사는 특정 돌연변이가 질병을 일으키는 이유를 이해하기 시작할 수 있어야하며,이는 적절한 치료법 개발에 도움이 될 것입니다.
인코딩 프로젝트는 과학적 협력의 놀라운 위업 이었지만 프로젝트를 둘러싼 논쟁은 여전히 존재한다. 일부 과학자들은이 프로젝트에 소비 된 돈(2 억~3 억 달러 이상)이 개별 연구자에게 보조금을 공급하는 데 더 유용 할 수 있다는 우려를 표명했습니다. 일부 생물 학자들은 또한 프로젝트를 둘러싼 과대 광고와 결과 자체 모두에서 프로젝트 결과가 대중에게 어떻게 발표되었는지에 대한 우려를 표명했습니다. 이러한 유형의 연구의 비용과 복잡성 때문에 과학자들은 공정한 관점을 제시하는 것이 중요합니다. 공중에게 주의깊은 발표를 위한 필요는 결코 전에 관찰되지 않았었던 방법에 있는 비소를 이용할 수 있던 박테리아에 미항공 우주국 과학자에 의해 간행된 최근 논문을 포위하는 마약중독에 의해 설명되었다. 그들은 새롭고 흥미로운 것을 발견했다고 발표 한 후,심지어 기자 회견을 호출하는 지점까지,연구 결과가 궁극적으로 반박 된 후 자체 생성 과대 광고는 결국 폭파했다. 새로운 대규모 프로젝트와 마찬가지로 과학자와 대중 모두 프로젝트의 진정한 이점이 실현 될 때까지 가치를 할당하는 데 인내심을 가져야합니다.
인코딩 그룹에 의해 출판 된 논문의 또 다른 주요 비판은 문구”생물학적 기능의 의미에 초점을 맞추었다.”메인 인코딩 저널 논문에서 저자는 인간 게놈의 약 80%에 생물학적 기능을 할당했다고 말했습니다. 다른 사람들이 지적했듯이,주어진 유전자 서열이 단백질을 결합하거나 어떤 화학적 변형과 연관되어 있다고 해서 그것이 기능적이거나 유용한 역할을 한다는 것을 반드시 의미하는 것은 아니다. 많은 단백질 결합 이벤트는 무작위적이고 중요하지 않습니다. 일부 연구자들은 인코딩 결과의 참신함에 의문을 제기했다. 이러한 모든 우려는 확실히 정당화되며,실제로 프로젝트를 둘러싼 대화는 과학이 어떻게 작동해야하는지 정확하게 보여줍니다.
암호화가 어떻게 과학계에 도움이 되었는지를 완전히 이해하는 데 수년이 걸릴 것 같지만,그럼에도 불구하고,이 프로젝트는 게놈 전체를 연구하는 것이 얼마나 중요한지 강조했습니다.
조나단 헤닝거는 하버드 대학의 생물 및 생물 의학 과학 프로그램의 대학원생이다.
추가 정보
비디오 인코딩의 수석 코디네이터 이완 버니는 프로젝트의 주요 목표에 대해 설명합니다.
인간 게놈 프로젝트 홈페이지<http://www.ornl.gov/sci/techresources/Human_Genome/home.shtml>
홈페이지 인코딩<http://www.genome.gov/10005107>
자연에 게시 된 기사를 인코딩<http://www.nature.com/encode/>
“‘정크’에서 멀리 떨어진 미스터리의 유전자가 중요한 역할을합니다.”지나 콜라타,뉴욕 타임즈<http://www.nytimes.com/2012/09/06/science/far-from-junk-dna-dark-matter-proves-crucial-to-health.html?pagewanted=all>
reddit.com 인코딩 프로젝트 참여자와 함께”무엇이든 물어보세요”<http://www.reddit.com/r/askscience/comments/znlk6/askscience_special_ama_we_are_the_encyclopedia_of/>
“큰 과학에 의해 눈을 멀게: 내가 인코딩에서 배운 교훈은 인코딩 같은 프로젝트는 좋은 생각이 아니라는 것입니다,”마이클 아이젠에 의해<http://www.michaeleisen.org/blog/?p=1179>
“인코딩 무엇을 말한다?”숀 에디<http://selab.janelia.org/people/eddys/blog/?p=683>
“새로운 과학 논문은 미 항공 우주국이 아니었다 가정 지구 흔들어 발견을 홍보에 큰 시간을 실패 증명,”매튜 헤르 퍼에 의해<http://www.forbes.com/sites/matthewherper/2012/07/08/new-science-papers-prove-nasa-failed-big-time-in-promoting-supposedly-earth-shaking-discovery-that-wasnt/>
“일부 재배 부추 종에 걸쳐 게놈 크기의 진화.”리크로치 외.,게놈 2005. <http://www.ncbi.nlm.nih.gov/pubmed/16121247>
“인간 게놈의 유전자 요소의 통합 백과 사전.”인코딩 프로젝트 컨소시엄,자연 2012. <http://www.nature.com/nature/journal/v489/n7414/full/nature11247.html>