Гены – это атомы наследственности.
С. Бензер
Орлы летают одиноко, бараны пасутся стадами.
Ф. Сидни
Необходимо отметить, что термин «ген» многие, даже неспециалисты, воспринимают легко без всякого специального пояснения. Слишком много и давно об этом говорят и довольно часто используют этот термин в разных ситуациях. И всем вроде бы все ясно: ген – это участок ДНК, который кодирует определенный белок. Согласно центральной догме молекулярной биологии, информация, записанная в ДНК с помощью четырехбуквенного нуклеотидного алфавита, переводится простым механическим способом на другой, аминокислотный, алфавит из 20 букв, которым записывается строение белковых молекул. «Один ген – один белок» – вот каким был многие годы основополагающий тезис молекулярных генетиков. Для того, чтобы ген правильно работал, необходимы специальные знаки, обозначающие начало и конец инструкции для синтеза сначала мРНК, а потом белка. Для того, чтобы началась считывание (транскрипция) гена, в первую очередь необходим структурный элемент, получивший название промотора (старт–сигнал транскрипции). Для окончания транскрипции существует другой специальный сигнал. Обязательными элементами гена являются также сигналы, определяющие начало и конец трансляции мРНК на рибосомах. Все эти старт–и стоп–сигналы записаны в ДНК с помощью того же самого четырехбуквенного алфавита, что и информация для построения молекулы белка. Между двумя такими знаками препинания записаны инструкции для синтеза белка. В таком упрощенном виде ген определяют как последовательность нуклеотидов, расположенных между старт–сигналом и стоп–сигналом и кодирующих одну белковую цепь (полипептид). Однако на самом деле все обстоит намного сложнее. Кроме генов, кодирующих белки, существуют гены, кодирующие РНК, которые выполняют в клетке только структурную роль и не транслируются. Более того, в последние годы было обнаружено большое число ранее неизвестных РНК, которые выполняют в клетке специальные регуляторные функции. Обо всем этом мы поговорим далее. Современное понимание того, что же из себя представляет ген, складывалось на протяжении всех этих долгих лет, наполняясь постепенно конкретным и обобщенным содержанием, преодолевая сомнения, заблуждения и неожиданные повороты. В результате на сегодняшний день трудно дать однозначное определение термину «ген», хотя вроде бы этот вопрос в общем виде был решен Менделем почти 140 лет назад.
Конечно же, в секвенированном ДНКовом тексте генома человека в первую очередь внимание ученых было обращено на участки, кодирующие белки, то есть на белок–кодирующие гены. Отметим, что первый ген человека – ген, кодирующий белок со сложным названием хорионный соматомаммотропин,– был секвенирован еще в 1977 году. А что же выяснилось в результате секвенирования всего генома человека? Оказалось, что в геноме человека нуклеотидные последовательности, кодирующие белки (экзоны), занимают лишь 1,1—1,4% от длины всех молекул ДНК. Но именно эти мизерные проценты ДНКового текста человека и стали объектом пристального внимания. Для сравнения отметим, что у червя C. elegans доля таких последовательностей в геноме составляет 27%, у мухи дрозофилы – 20%, у дрожжей – 70%, а у бактерий – 86%. То есть, просматривается закономерность: по мере усложнения организмов доля кодирующих белки участков ДНК в их геномах резко падает.
Генам при их открытии, как людям при рождении, сразу же присваивают различные имена. Без этого невозможно было бы разобраться, о чем идет речь и что изучают разные ученые в каждом конкретном случае. Правда, путаница в этом вопросе пока еще существует, особенно если ген одновременно открывают в разных лабораториях и при этом называют по–разному. Известно, что в лингвистике существует целая наука об именах людей – ономастика. Эта наука давно уже отметила влияние разных факторов и причин на формирование имен, связь с историей, географией и многими другими науками, а также процессами, протекающими в обществе. Так, в постреволюционные годы появились имена Вилен (В. И. Ленин), Даздраперма (Да здравствует первое мая), при Б. Ельцине появились Борели, а при В. Путине уже официально зарегистрированы такие имена, как Путилла, Владпут и даже Затерсор (замочим террористов в сортире).
Конечно, и на имена, присваиваемые генам, также влияют разные обстоятельства. Но вообще–то этот процесс довольно стихийный. Нередко наименование гена связывают с выполняемой им функцией (например, дистрофин – ген, мутации в котором ответственны за дистрофию мышц). В других случаях используют особенности структуры гена (например, присутствие специфической последовательности в гене, называемой homeo box, автоматически приводит к имени Hox). Иногда авторы напрягают свою фантазию, и тогда появляются такие экзотические имена, как харакири (ген–самоубийца), икарус, vang (по имени художника ван Гога) или indy ( первые буквы от слов I'm not dead yet – я еще не умер – название для гена, который влияет на продолжительность жизни). Ген SHH назван в честь популярной видеоигры Соника Хеджхога, (англ. hedgehog —ежик). Некоторые гены называются именами богов (например, гефестин – от греческого бога огня и кузнечного дела Гефеста). На практике генетики используют сокращенные обозначения генов, состоящие обычно из 3—5 латинских букв. Поскольку функции многих генов еще не известны, а удается только определить, что какая–то конкретная область генома человека способна теоретически кодировать белок, то часто пока еще перед названиями генов появляется слово «гипотетический».
Анализ генома человека позволил на конец 2002 года обнаружить порядка 30 000—40 000 генов, кодирующих белки. Эти гены сильно отличаются друг от друга по размерам. Подсчитано, что средняя длина гена у человека составляет около 27 тыс. п. н. Такой усредненный ген содержит 9 экзонов (средний размер каждого около 150 п. н.) и 8 интронов (средний размер каждого чуть меньше 3400 п.н.). Но это лишь средние значения. Самые короткие гены содержат всего два десятка букв–нуклеотидов, например, гены эндорфинов – полипептидов, вызывающих ощущение удовольствия. В то же время самый длинный ген, кодирующий один из белков мышц,– миодистрофин содержит 2,4 млн. п. н.
Кроме того, гены не равномерно распределены между разными хромосомами. При средней плотности один ген на 100 т. п. н. генома их содержание в хромосоме 19 составляет около 2 на 100 т. п.н., а в хромосомах 2, 13 и Y – хромосоме – от 0,15 до 0,7. Если сравнить плотность генов с плотностью расселения людей, то Y – хромосома напоминает нашу Сибирь, а хромосома 19 – Европейскую часть России. Для сравнения: в геноме бактерий содержится свыше 1000 генов на 1,0 млн. п. н., у дрожжей около 450 генов на 1,0 млн. п. н., а у червя C. elegans – около 200. Следовательно, плотность расположения генов на единицу длины генома заметно падает по мере эволюционного усложнения организмов.
С. Бензер
Орлы летают одиноко, бараны пасутся стадами.
Ф. Сидни
Необходимо отметить, что термин «ген» многие, даже неспециалисты, воспринимают легко без всякого специального пояснения. Слишком много и давно об этом говорят и довольно часто используют этот термин в разных ситуациях. И всем вроде бы все ясно: ген – это участок ДНК, который кодирует определенный белок. Согласно центральной догме молекулярной биологии, информация, записанная в ДНК с помощью четырехбуквенного нуклеотидного алфавита, переводится простым механическим способом на другой, аминокислотный, алфавит из 20 букв, которым записывается строение белковых молекул. «Один ген – один белок» – вот каким был многие годы основополагающий тезис молекулярных генетиков. Для того, чтобы ген правильно работал, необходимы специальные знаки, обозначающие начало и конец инструкции для синтеза сначала мРНК, а потом белка. Для того, чтобы началась считывание (транскрипция) гена, в первую очередь необходим структурный элемент, получивший название промотора (старт–сигнал транскрипции). Для окончания транскрипции существует другой специальный сигнал. Обязательными элементами гена являются также сигналы, определяющие начало и конец трансляции мРНК на рибосомах. Все эти старт–и стоп–сигналы записаны в ДНК с помощью того же самого четырехбуквенного алфавита, что и информация для построения молекулы белка. Между двумя такими знаками препинания записаны инструкции для синтеза белка. В таком упрощенном виде ген определяют как последовательность нуклеотидов, расположенных между старт–сигналом и стоп–сигналом и кодирующих одну белковую цепь (полипептид). Однако на самом деле все обстоит намного сложнее. Кроме генов, кодирующих белки, существуют гены, кодирующие РНК, которые выполняют в клетке только структурную роль и не транслируются. Более того, в последние годы было обнаружено большое число ранее неизвестных РНК, которые выполняют в клетке специальные регуляторные функции. Обо всем этом мы поговорим далее. Современное понимание того, что же из себя представляет ген, складывалось на протяжении всех этих долгих лет, наполняясь постепенно конкретным и обобщенным содержанием, преодолевая сомнения, заблуждения и неожиданные повороты. В результате на сегодняшний день трудно дать однозначное определение термину «ген», хотя вроде бы этот вопрос в общем виде был решен Менделем почти 140 лет назад.
Конечно же, в секвенированном ДНКовом тексте генома человека в первую очередь внимание ученых было обращено на участки, кодирующие белки, то есть на белок–кодирующие гены. Отметим, что первый ген человека – ген, кодирующий белок со сложным названием хорионный соматомаммотропин,– был секвенирован еще в 1977 году. А что же выяснилось в результате секвенирования всего генома человека? Оказалось, что в геноме человека нуклеотидные последовательности, кодирующие белки (экзоны), занимают лишь 1,1—1,4% от длины всех молекул ДНК. Но именно эти мизерные проценты ДНКового текста человека и стали объектом пристального внимания. Для сравнения отметим, что у червя C. elegans доля таких последовательностей в геноме составляет 27%, у мухи дрозофилы – 20%, у дрожжей – 70%, а у бактерий – 86%. То есть, просматривается закономерность: по мере усложнения организмов доля кодирующих белки участков ДНК в их геномах резко падает.
Генам при их открытии, как людям при рождении, сразу же присваивают различные имена. Без этого невозможно было бы разобраться, о чем идет речь и что изучают разные ученые в каждом конкретном случае. Правда, путаница в этом вопросе пока еще существует, особенно если ген одновременно открывают в разных лабораториях и при этом называют по–разному. Известно, что в лингвистике существует целая наука об именах людей – ономастика. Эта наука давно уже отметила влияние разных факторов и причин на формирование имен, связь с историей, географией и многими другими науками, а также процессами, протекающими в обществе. Так, в постреволюционные годы появились имена Вилен (В. И. Ленин), Даздраперма (Да здравствует первое мая), при Б. Ельцине появились Борели, а при В. Путине уже официально зарегистрированы такие имена, как Путилла, Владпут и даже Затерсор (замочим террористов в сортире).
Конечно, и на имена, присваиваемые генам, также влияют разные обстоятельства. Но вообще–то этот процесс довольно стихийный. Нередко наименование гена связывают с выполняемой им функцией (например, дистрофин – ген, мутации в котором ответственны за дистрофию мышц). В других случаях используют особенности структуры гена (например, присутствие специфической последовательности в гене, называемой homeo box, автоматически приводит к имени Hox). Иногда авторы напрягают свою фантазию, и тогда появляются такие экзотические имена, как харакири (ген–самоубийца), икарус, vang (по имени художника ван Гога) или indy ( первые буквы от слов I'm not dead yet – я еще не умер – название для гена, который влияет на продолжительность жизни). Ген SHH назван в честь популярной видеоигры Соника Хеджхога, (англ. hedgehog —ежик). Некоторые гены называются именами богов (например, гефестин – от греческого бога огня и кузнечного дела Гефеста). На практике генетики используют сокращенные обозначения генов, состоящие обычно из 3—5 латинских букв. Поскольку функции многих генов еще не известны, а удается только определить, что какая–то конкретная область генома человека способна теоретически кодировать белок, то часто пока еще перед названиями генов появляется слово «гипотетический».
Анализ генома человека позволил на конец 2002 года обнаружить порядка 30 000—40 000 генов, кодирующих белки. Эти гены сильно отличаются друг от друга по размерам. Подсчитано, что средняя длина гена у человека составляет около 27 тыс. п. н. Такой усредненный ген содержит 9 экзонов (средний размер каждого около 150 п. н.) и 8 интронов (средний размер каждого чуть меньше 3400 п.н.). Но это лишь средние значения. Самые короткие гены содержат всего два десятка букв–нуклеотидов, например, гены эндорфинов – полипептидов, вызывающих ощущение удовольствия. В то же время самый длинный ген, кодирующий один из белков мышц,– миодистрофин содержит 2,4 млн. п. н.
Кроме того, гены не равномерно распределены между разными хромосомами. При средней плотности один ген на 100 т. п. н. генома их содержание в хромосоме 19 составляет около 2 на 100 т. п.н., а в хромосомах 2, 13 и Y – хромосоме – от 0,15 до 0,7. Если сравнить плотность генов с плотностью расселения людей, то Y – хромосома напоминает нашу Сибирь, а хромосома 19 – Европейскую часть России. Для сравнения: в геноме бактерий содержится свыше 1000 генов на 1,0 млн. п. н., у дрожжей около 450 генов на 1,0 млн. п. н., а у червя C. elegans – около 200. Следовательно, плотность расположения генов на единицу длины генома заметно падает по мере эволюционного усложнения организмов.