Самый полный геном человека, в котором обнаружена ранее не поддающаяся расшифровке ДНК | ГК ТРИММ
Самый полный геном человека, в котором обнаружена ранее не поддающаяся расшифровке ДНК
11 Мая 2022 плечи хромосом.jpg

Рис.1.Короткие плечи хромосом(зеленые) и центромеры (розовые) Расшифрованный геном хромосом человека. Т. ПОТАПОВА И ДЖ. ГЕРТОН/СТОУЕРС ИНСТИТУТ МЕДИЦИНСКИХ ИССЛЕДОВАНИЙ

51-летний биолог из Гарвардского университета по имени Леонид Пешкин и анонимный мужчина явились донорами для наиболее полного на сегодняшний день, расшифрованного генома человека. Y-хромосома генома была получена от Пешкина, а остальная часть ДНК, секвенированная Консорциумом теломер-в-теломеры (T2T), происходит от так называемой молярной беременности ( пузырного заноса), роста матки, который в редких случаях возникает, когда сперматозоид попадает в яйцеклетку, которая не имеет хромосом.  В этом случае оплодотворенная клетка может скопировать 23 хромосомы сперматозоида, создав два идентичных набора, и начать размножаться. Исследователи признали уникальный хромосомный состав этих клеточных линий (СНМ13) — у них есть ДНК только одного родителя — что делало их полезными для геномных исследований. В течение десятилетия некоторые геномные данные были в общедоступных базах данных и Тамара Потапова и Дженнифер Гертон ( хромосомные биологи из Института медицинских исследований Стоуэрса), подтвердили, что у CHM13 правильное количество хромосом, и это число не изменилось с течением времени, поэтому консорциум решил секвенировать его геном.

Когда дело доходит до секвенирования генома человека, термин «полный» всегда относительный. Первый, расшифрованный 20 лет назад, включал в себя большинство областей, кодирующих белки, но оставил нетронутыми около 200 миллионов оснований ДНК — 8% человеческого генома. Даже когда дополнительные геномы были «закончены», некоторые участки оставались недоступными, потому что повторяющиеся сегменты ДНК мешали технологиям секвенирования того времени. Теперь международные массовые усилия разобрали эти трудночитаемые базы, создав самый полный геном человека. Ранее не поддающиеся расшифровке последовательности генома, которые теперь стали известны, включают защитные теломеры и плотные выступы, называемые центромерами, которые обычно находятся в середине каждой хромосомы и помогают организовать ее репликацию. Также почти полностью выявлены короткие плечи пяти хромосом, у которых центромеры скошены к одному концу. Было известно, что эти короткие плечи содержат множество генов, кодирующих основу рибосом, клеточных белковых фабрик. Группа T2T объединила технологии секвенирования, в том числе так называемое устройство с нанопорами, которое могло считывать 100 000 оснований за раз, и еще один секвенатор, который был более точным, но делал только около 10 000 оснований за раз. Примерно 200 миллионов оснований в правильном порядке и в нужном месте включают более 1900 генов, большинство из которых являются копиями известных генов. Исследователи каталогизировали дублированные регионы и мобильные элементы — генетический материал вирусов, которые были включены в геном. При секвенировании каждой центромеры они узнали, что дуплицированные области сильно различаются по размеру, что неожиданно, поскольку эти выступы служат одной и той же цели в каждой хромосоме.

В работе участвовали отечественные ученые генетики Иван Александров ( в соавторах публикации консорциума), Лев Уральский, Федор Гусев и Евгений Рогаев (доктор биологических наук, член-корреспондент РАН, заведующий лабораторией эволюционной геномики Института общей генетики РАН). Роль сотрудников нашей группы — участие в анализе центромерных альфоидных повторов ДНК. Большая часть непрочитанного генома как раз относилась к центромерным участкам, это особые участки хромосом, которые необходимы для деления клеток, и они, как правило, состоят из тандемно повторяющихся единиц последовательности ДНК. Большая часть — это центромерные и околоцентромерные хромосомные участки, которые содержат семейства повторов ДНК. Но среди повторов в прицентромерных участках могут содержаться и гены. В прошлой версии генома не хватало нормальной структуры правильно ориентированных рибосомальных генов. Это очень важные гены, активно экспрессирующиеся и, по числу копий, весьма полиморфные среди разных людей. И теперь четко определено, как они устроены, в новой версии генома в данной клеточной линии имеется около 200 рибосомальных генов. Кроме того, среди новых генов были выделены так называемые паралогичные гены (имеющие копии похожих генов), которые раньше пропускали. Эта последовательность теперь может быть использована как последняя версия референсного генома. На самом деле и в нем есть участки, где, скажем так, предполагается возможность ошибки, но таких участков очень мало. 

Краткое изложение полной сборки генома человека.jpg

РИС.2. Краткое изложение полной сборки генома человека T2T-CHM13

(A) Идеограмма особенностей сборки T2T-CHM13v1.1. Для каждой хромосомы (chr) снизу вверх представлена ​​следующая информация: пробелы и проблемы в GRCh38, зафиксированные CHM13, с наложением плотности генов, исключительных для CHM13, выделенных красным; сегментарные дупликации (SD) (42) и центромерные сателлиты (CenSat) (30); и прогнозы происхождения CHM13 (EUR, европейцы; SAS, южноазиатские; EAS, восточноазиатские; AMR, смешанные американцы). Нижняя шкала измеряется в Мбит/с. ( B и C ) Дополнительные (несинтеновые) основания в сборке CHM13 относительно GRCh38 на хромосому, с акроцентриками, выделенными черным (B) и типом последовательности (C). (Обратите внимание, что аннотации CenSat и SD перекрываются.) RepMask, RepeatMasker. ( Д) Общее количество оснований без пробелов в выпусках эталонного генома UCSC, начиная с сентября 2000 г. (hg4) и заканчивая T2T-CHM13 в 2021 г. Mt/Y/Ns, митохондрии, chrY и пробелы.

Строковый граф сборки генома CHM13 с высоким разрешением.jpg

РИС.3. Строковый граф сборки генома CHM13 с высоким разрешением.

(A) Визуализация бандажа (60), где узлы представляют однозначно собранные последовательности, масштабированные по длине, а ребра соответствуют перекрытиям между последовательностями узлов. Каждая хромосома окрашена и пронумерована на коротком (p) плече. Длинные (q) плечи помечены там, где неясно. Пять акроцентрических хромосом (внизу справа) связаны из-за сходства между их короткими плечами, а массивы рДНК образуют пять плотных клубков из-за их большого числа копий. График частично фрагментирован из-за выпадения покрытия HiFi вокруг последовательности, богатой GA (черные треугольники). Центромерные сателлиты (30) являются источником наибольшей неопределенности на графике (выделено серым цветом). МТ, митохондрии. (Б) Обход графа с помощью ONT для локуса 2p11 задается в порядке номеров. Из-за низкой глубины охвата немеченый светло-серый узел представляет собой артефакт или гетерозиготный вариант и не использовался. (C) Многомегабазная дупликация HSat3 тандема (9qh+) в 9q12 требует двух обходов структуры большой петли. (Размер цикла преувеличен, поскольку ребра графа имеют постоянный размер.) Узлы, использованные при первом обходе, выделены темно-фиолетовым цветом, а узлы, использованные при втором обходе, — светло-фиолетовым. Узлы, используемые обоими обходами, обычно имеют вдвое большее покрытие секвенирования. (D) Увеличение дистальных коротких плеч акроцентриков, показывающее цветные маршруты и края графа между очень похожими последовательностями в дистальных соединениях (DJ), прилегающих к массивам рДНК.

Покрытие секвенирования и проверка сборки.jpg
РИС.4. Покрытие секвенирования и проверка сборки.

(A) Равномерное покрытие всего генома сопоставленными считываниями HiFi и ONT показано с первичными выравниваниями в светлых тонах и выравниваниями с помощью маркеров, наложенными на темные оттенки. Большие массивы HSat (30) отмечены треугольниками, с вложенными областями, отмеченными стрелками, а расположение массивов рДНК отмечено звездочками. Области с низкой частотой уникальных маркеров (светло-зеленые) соответствуют падениям плотности уникальных маркеров, но восстанавливаются с помощью первичных выравниваний с более низкой степенью достоверности. Аннотированные вопросы сборки сравниваются для Т2Т-ЧМ13 и ГРЧ38. Hets, гетерозиготные варианты; k , размер маркера. (B - D) Увеличение, соответствующее участкам генома, представленным на рис. 3, B-D, соответственно. Однородные изменения покрытия в пределах определенных спутников воспроизводимы и, вероятно, вызваны смещением последовательности. Выявленные гетерозиготные варианты и проблемы сборки отмечены ниже и обычно соответствуют низкому охвату первичного аллеля (черный) и повышенному охвату вторичного аллеля (красный). Процент микросателлитных повторов для каждого окна размером 128 п.н. показан внизу. dHOR, расходящийся HOR; пн, мономер.
T2T-CHM13 включает сборки теломер-теломер без зазоров для всех 22 человеческих аутосом и хромосомы X, включая 3 054 815 472 п.н. ядерной ДНК, а также митохондриальный геном из 16 569 п.н. Эта полная сборка добавляет или исправляет 238 Мб последовательности, которая не коллинеарно выровнена с GRCh38 в интервале 1 Мб (т. е. не является синтетической), в основном состоящей из центромерных сателлитов (76%), несателлитных сегментных дупликаций (19%) и рДНК ( 4%). Из них 182 Мб последовательности не имеют первичного выравнивания с GRCh38 и являются эксклюзивными для T2T-CHM13. В результате T2T-CHM13 увеличивает количество известных генов и повторов в геноме человека . По сравнению с GRCh38, T2T-CHM13 является более полным, точным и репрезентативным эталоном как для коротких, так и для длинных вариантов вызова в образцах человека всех предков (25). Хотя CHM13 представляет собой полный человеческий гаплотип, он не отражает всего разнообразия генетической изменчивости человека.

Источник