Универсальный возраст по метилированию ДНК в тканях млекопитающих (препринт)
Новые результаты
Оригинальная статья: Universal DNA methylation age across mammalian tissues
Введение
Старение связано с множественными клеточными изменениями, которые часто зависят от ткани. Однако метилирование цитозина в этом отношении необычно, поскольку оно сильно коррелирует с возрастом практически во всех тканях. Эта функция может быть использована для разработки многомерных оценок возраста (пан-тканевых эпигенетических часов), которые применимы к большинству или ко всем тканям вида. Этот подход позволил создать первые пан-тканевые часы человека, основанные на 353 связанных с возрастом CpG-1. Последующие успехи в разработке подобных пан-тканевых часов для других видов намекают на универсальность процесса старения. Чтобы исследовать это, мы стремились 1) -идентифицировать и охарактеризовать цитозины, уровни метилирования которых изменяются с возрастом у всех млекопитающих, и 2)-разработать универсальные средства оценки возраста, которые применимы ко всем видам и тканям млекопитающих (универсальные эпигенетические часы для млекопитающих). С этой целью мы использовали новый массив Infinium (HorvathMammalMethylChip40), который профилирует уровни метилирования до 37000 CpGs с фланкирующими последовательностями ДНК, которые являются высококонсервативными у класса млекопитающих 2.
Прим. Фланкирующие области, фланкирующие последовательности (flanking regions, flanking sequences) [англ. flank — бок, сторона, фланг] — области (нуклеотидные последовательности) ДНК, располагающиеся по обе стороны («по соседству», «на фланге») от специфического локуса, гена или какой-нибудь иной нуклеотидной последовательности.
Мы получили такие профили почти из 10 000 образцов 59 типов тканей, полученных от 128 видов млекопитающих, представляющих 15 филогенетических порядков (дополнительные таблицы 1.1–1.5) с возрастом от пренатального до 139-летнего (гренландский кит). Испытанные виды имели максимальную продолжительность жизни от 3,8 до 211 лет и вес взрослой особи от 0,004 до 100 000 кг.
Чтобы определить возраст-связанные CpG, мы провели двухэтапный мета-анализ по видам и тканям. Было обнаружено, что цитозины, которые становятся все более метилированными с возрастом (т.е. положительно коррелируют), более консервативны (рис. 1а). Из них мы идентифицировали 665 возраст-связанных CpG в пределах пороговой значимости a = 10в-200 для всех видов животных и тканей (рис. 1а, дополнительная таблица 2.1). Цитозины cg12841266 (P = 6,2 × 10в-908) и cg11084334 (P = 2,0 × 10в-823), расположенные в экзоне 2 гена LHFPL4, были наиболее предсказуемыми для всех видов, имея корреляцию> 0,8 у 24 видов (дополнительная таблица 3), три из которых показаны на рис. 1b-d. Другой высококоррелированный цитозин, cg09710440, находится в LHFPL3 (P = 5.1 × 10в-724), паралоге LHFPL4 (Fig. 1a, Extended Data Fig. 1, Supplementary Table 2.1).
Поскольку LHFPL4 и LHFPL3 находятся в человеческих хромосомах 2 и 7 соответственно, их возрастное усиление метилирования вряд ли случайно. Напротив, это подразумевает их участие в процессе старения, даже если механизм участия их активности в качестве нуклеаторов рецепторов ГАМК в этой связи не сразу очевиден. В самом деле, метилирование LHFPL4 cg12841266 сильно коррелировало с возрастом нескольких тканей мыши как на стадии развития (r = 0,58 и P = 8,9 × 10в-11), так и на стадии пост-развития (r = 0,45 и P = 2,3 × 10в-76). особенно в головном мозге (r = 0,92 и P = 6,95 × 10в-8), мышцах (r = 0,89 и P = 7,6 × 10в-7), печени (r = 0,79 и P = 1,9 × 10в-117) и крови (r = 0,89 и P = 1,0 × 10в-53, расширенные данные рис. 2). В соответствии с повышенным метилированием, экспрессия как LHFPL4, так и LHFPL3 снижается с возрастом во многих, хотя и не во всех тканях человека и мыши (дополнительные таблицы 4.1-4.4). В частности, их пониженная экспрессия постоянно наблюдается в головном мозге 3,4. Важно отметить, что связанные с возрастом изменения метилирования у молодых животных согласованы с изменениями, наблюдаемыми у животных среднего или старого возраста, исключая вероятность того, что изменения связаны исключительно с процессом развития организма (расширенные данные, рис. 3 и 4).
Мета-анализ возраст-связанных CpG в определенных тканях
Чтобы получить более широкое и глубокое понимание возраст-связанных CpG в определенных тканях у разных видов, мы сосредоточились на 5 органах: головном мозге (целом и коре), крови, печени, мышцах и коже. Мы выполнили метаанализ EWAS на 851 головном мозге (17 видов), 391 коре головного мозга (6 видов), 3552 крови (28 видов), 1221 печени (9 видов), 345 мышцах (5 видов) и 1452 коже (31 вид). . Постоянно во всех тканях было больше CpG с положительной корреляцией с возрастом, чем с отрицательной (расширенные данные, рис.1), и большинство из них располагалось внутри островков CpG, которые, как известно, становятся все более метилированными с возрастом (рис. 1f, дополнительные таблицы). 2.2-2.7). Хотя многие из этих цитозинов были либо специфичными для отдельных органов, либо общими для нескольких органов, 54 потенциальных универсальных возрастных CpG были общими для всех пяти органов (Fig. 1e, Extended Data Table 1). Поразительно, что подавляющее большинство из 36 генов, которые расположены проксимальнее этих 54 CpG, кодируют факторы транскрипции гомеобокса и участвуют в процессах развития (Extended Data Table 1).
Анализ функционального обогащения возраст-связанных CpG
Мы использовали инструмент обогащения путей (гипергеометрический тест GREAT, основанный на геномных регионах5), чтобы проанализировать первые 1000 положительно и 1000 отрицательно коррелированных возрастных CpG и их проксимальных генов во всех тканях, индивидуально или в совокупности, чтобы установить, связаны ли они с конкретными биологическими процессами или клеточными путями (рис. 1g, дополнительные таблицы 5.1-5.15). Мы продемонстрировали, что наши результаты обогащения не противоречат особой конструкции массива метилирования млекопитающих (дополнительная информация, примечание 2). Из положительно коррелированных CpG во всех тканях наиболее обогащенным (P = 3,7 × 10в-207) термином генной онтологии был термин «развитие нервной системы», который также заметно проявлялся в крови (P = 4,7 × 10в-230), печени (P = 7,6 × 10в-136), мышцы (P = 1,4 × 10в-12), кожа (P = 5,4 × 10в-141), мозг (P = 1,0 × 10в-42) и кора (P = 7,5 × 10в-80 ). Другие термины, получившие наибольшее количество баллов, включают «определение паттерна» и «развитие анатомической структуры» (таблица 2 с расширенными данными и дополнительная таблица 5s). Очевидно, многие гиперметилированные возраст-связанные CpGs во всех пяти органах могут быть проксимальнее генов развития. На молекулярном уровне многие из этих CpG находятся в позициях, таргетированных SUZ12, который является одной из основных субъединиц ингибиторного комплекса 2 группы поликомб (вся ткань P = 7,1 × 10в-225, кровь P = 3,9 × 10в-259, P печени = 1,7 × 10–149, мышцы P = 8,2 × 10–16, кожа P = 2,6 × 10–150, мозг P = 8,7 × 10–54 и кора головного мозга P = 6,1 × 10–87); перекликаясь с предыдущими исследованиями EWAS на людях6,7. EED, другая основная субъединица PRC2, демонстрирует столь же высокие значимые P-значения, например P = 1,7 × 10в-262 во всех тканях (таблица расширенных данных 2). Сильное обогащение можно также обнаружить в промоторах с модификацией H3K27me3. Они наблюдались во всех тканях (P = 2,8 · 10в-266), крови (P = 3,9 · 10в-283), печени (P = 3,3 · 10в-189), мышцах (P = 8,7 · 10в-18), коже. (P = 3,3 × 10–189), головного мозга (P = 3,3 × 10–68) и коры головного мозга (P = 5,1 × 10–116) (таблица расширенных данных 2). Эти результаты подтверждают связь между развитием и старением. Это может показаться нелогичным, но находит подтверждение в том факте, что мыши с развитием, нарушенным вследствие удаления рецепторов гормона роста (GHRKO) , демонстрируют значительное замедление процесса старения 8. Мы продемонстрировали, что универсальные эпигенетические часы замедляются в коре головного мозга, печени и почки мышей GHRKO (расширенные данные рис. 4).
Интересно, что хотя было обнаружено 3617 обогащений гиперметилированных возраст-связанных CpG во всех тканях, но найдено только 12 гипометилированных. На кажущуюся нехватку последних влияет асимметрия обогащения, которая особенно сильна в коже, крови и печени (дополнительная таблица 5.1). Однако это не относится к мозгу, мозжечку, коре и мышцам, где вместо этого было большее обогащение гипометилированными возрастными цитозинами; тенденция, которая, по-видимому, соответствует скорости обновления тканей. Цитозины, которые были отрицательно связаны с возрастом в головном мозге и коре, но не в коже, крови и печени, обогащены путем циркадного ритма (P ≥ 9,0 × 10в-18, дополнительные таблицы 5.5, 5.7, таблица с расширенными данными 2), Это указывает на то, что помимо общих процессов развития, которые повсеместно участвуют в старении всех тканей, явно действуют и органоспецифические.
Другим важным наблюдением является обогащение отрицательных возраст-связанных цитозинов в активном наборе генов при болезни Альцгеймера. Это наблюдалось во всем головном мозге (P = 2,1 × 10в-30, таблица расширенных данных 2), коре (P = 5,9 × 10в-22) и в мышечной ткани (P = 2,5 × 10в-5). Хотя этот набор генов также был обогащен в крови (P = 1,5 × 10в-6) и всех тканях вместе (P = 1,4 × 10в-4), он был связан с положительными возраст-связанными CpG, вместо этого указывая на то, что на некоторые наборы возрас-связанных генов могут влиять отрицательные и положительные возраст-связанные CpG, потенциально влияя на разные составляющие набора или, возможно, имея противоположные результаты транскрипции в результате метилирования. Другой очень важный пример этого - наблюдение, касающееся функции митохондрий. В то время как гипометилированные возрастные цитозины в мозге, коре и мышцах обогащены многочисленными генами, связанными с митохондриями; однако в крови и коже они обогащены положительными возрастными цитозинами (Таблица расширенных данных 3).
Частичное пересечение возраст-связанных цитозинов с человеческими особенностями и заболеваниями
Чтобы выявить потенциальную корреляцию между возраст-связанными цитозинами и известными человеческими особенностями, проксимальные области генома тех же верхней тысячи положительно ассоциированных и верхней тысячи отрицательно ассоциированных CpG были сопоставлены с верхними 5% генов, идентифицированными GWAS как связанных с многочисленными человеческими особенностями. При пороге P <5,0 × 10в-4 были обнаружены совпадения с генами, связанными с долголетием, болезнью Альцгеймера, Паркинсона и Хантингтона, деменцией, ускорением эпигенетического возраста, возрастом менархе, длиной теломер лейкоцитов, воспалением, долголетием матери, метаболическими заболеваниями, ожирением. (распределение жира, индекс массы тела) и т. д. (Расширенные данные рис. 5, дополнительные таблицы 6.1-6.7); многие из них связаны с пожилым возрастом.
Разработка универсальных пан-тканевых эпигенетических часов возраста для млекопитающих
Выявив связанные с возрастом цитозины, общие для разных видов и тканей млекопитающих, мы приступили к их использованию для разработки универсальных эпигенетических часов для определения возраста млекопитающих. Мы разработали три универсальных измерителя возраста млекопитающих, которые различаются по выходным данным. Первые универсальные наивные часы (Часы 1) напрямую коррелируют профиль метилирования ДНК с хронологическим возрастом. Чтобы дать возможность биологически значимого сравнения между видами с очень разной продолжительностью жизни, мы разработали вторые универсальные часы, которые определяют индивидуальный возраст относительно максимальной продолжительности жизни его вида; генерирование оценок относительного возраста между 0 и 1. Поскольку точность этих универсальных часов относительного возраста (Часы 2) может быть скомпрометирована у видов, для которых данные о максимальной продолжительности жизни недоступны, были разработаны третьи универсальные часы, которые не учитывают максимальную продолжительность жизни и вместо этого используют средний возраст половой зрелости. Возраст половой зрелости был выбран в качестве характеристики вида, поскольку он сильно коррелирует с максимальной продолжительностью жизни по логарифмической шкале (корреляция Пирсона r = 0,82, p = 6 × 10в-183 для всех видов млекопитающих в AnAge). Эти третьи часы называются универсальными лог-линейно преобразованными часами возраста (Часы 3).
Характеристики универсальных эпигенетических часов для разных видов
Мы использовали две разные стратегии для оценки точности часов. Во-первых, перекрестный проверочный анализ с исключением одной фракции (LOFO) случайным образом разделил набор данных на 10 фракций, каждая из которых содержала одинаковые пропорции видов и типов тканей, а для проверки на каждой итерации анализа одна из фракций не учитывалась. Во-вторых, анализ исключения одного вида (LOSO) аналогичным образом подвергался перекрестной проверке с исключением вида на каждой итерации.
Согласно перекрестной проверке LOFO, эпигенетические часы были чрезвычайно точными (r> 0,96), со средней ошибкой менее 1 года и средней относительной ошибкой менее 3,5% (рис. 2a, 3a-b, таблица расширенных данных 4). ). Согласно оценке LOSO, часы достигли возрастных корреляций до r = 0,94 (Таблица расширенных данных 4). Медианная корреляция (и MAE) между видами была столь же сильной при оценках LOFO или LOSO. Однако для некоторых видов, таких как гренландские киты, эпигенетический возраст, предсказанный наивными часами, плохо согласуется с хронологическим возрастом (рис. 2b). Мы исследовали и установили, что средняя разница между LOSO DNAmAge и хронологическим возрастом отрицательно коррелирует с максимальной продолжительностью жизни (r = -0,57, p = 3 × 10в-6) и возрастом половой зрелости (r = -0,5, p = 6,4 × 10). -5) вида (рис. 2в-г). Здесь сила часов 2 выходит на первый план, поскольку на них не влияет максимальная продолжительность жизни, заложенная при их изготовлении. Часы 2 и часы 3 достигают корреляции r = 0,96 и r = 0,95 между DNAm и наблюдаемым относительным возрастом, соответственно (рис. 3d, e). И те и другие часы представляют сравнительно точные оценки LOFO для многочисленных типов тканей у 58 видов (дополнительная таблица 8.2), с представлением на рис. 3g-i корреляций LOFO Clock 2 для людей (r = 0,961, 19 тканей), мышей (r = 0,954, 25 тканей) и афалины (r = 0,95, 2 ткани). В то время как часы точно предсказывали возраст одного вида усатого кита, горбатого кита и всех других видов млекопитающих, возраст образцов гренландского кита иногда недооценивался (видовой индекс 3.11 на рис. 3a, b). Это может просто отражать неточность оценок возраста, используемых для гренландских китов, которые были выдержаны с использованием скорости рацемизации аспарагиновой кислоты. Эти часы также точны с оценками возраста по LOSO для эволюционно далеких видов (дополнительная таблица 9.2), включая собак (r = 0,917, MAE = 1,3), слонов саванны (r = 0,962, MAE <3 лет) и летучих лисиц (r = 0,982, MAE = 1,2) (рис. 3j-l). Такая высокая прогностическая точность анализа LOSO демонстрирует, что эти универсальные часы применимы к видам млекопитающих, которые не являются частью обучающих данных (дополнительные таблицы 9.1, 9.2). Трое универсальных часов показали такие же хорошие результаты у 63 видов, для которых было меньше 15 образцов (r ~ 0,9, MAE ~ 1 год, расширенные данные, рис. 6a-c), что показывает очень сильную корреляцию между расчетным и фактическим относительным возрастом ( r = 0,92, расширенные данные рис. 6г).
Что касается сумчатых, мы столкнулись с двумя ограничениями. Во-первых, менее половины CpG эвтерианов применимы к сумчатым 2. Во-вторых, в нашем наборе данных было всего семь видов сумчатых с общим размером выборки N = 162. Несмотря на эти ограничения, мы все же смогли построить четвертые универсальные часы для оценки относительного возраста сумчатых (возрастная корреляция, r = 0,88, med.Cor = 0,87 на рис. 3c, f).
Оценка эффективности универсальных эпигенетических часов в тканях
Поскольку ландшафт эпигенома заметно меняется в зависимости от типов тканей 9,10, мы оценили тканеспецифическую точность часов 2 для относительного возраста (r = 0,96, рис. 3d). Из 33 различных типов тканей медиана корреляции составляет 0,94, а медиана MAE для относительного возраста - 0,026 (дополнительная таблица 8.3). Была высокая корреляция с возрастом для всего мозга (r = 0,987), коры (r = 0,972), гиппокампа (r = 0,964), полосатого тела (r = 0,956), мозжечка (r = 0,975), селезенки (r = 0,981), и почка (r = 0,979) (рис. 4). Кровь и кожа также показали одинаково высокие оценки относительных возрастных корреляций у разных видов: кровь (r = 0,958, MAE = 0,018, 74 вида) и кожа (r = 0,948, MAE = 0,026, 56 видов) (рис. 4i, n).
Обсуждение
Универсальность старения у всех видов млекопитающих породила предположения о его причине, с преобладающим представлением о том, что в основе этого процесса лежит случайное повреждение клеточных компонентов. Однако способность точно оценивать возраст млекопитающих на основании их профилей метилирования повышает вероятность детерминированного процесса. Мы исследовали этот вопрос, сгенерировав беспрецедентно большой набор профилей метилирования ДНК из более чем 121 вида эвтерианов и 7 видов сумчатых, из которых возникла однозначная характеристика. Гены, которые являются ближайшими к возрастным CpG, в подавляющем большинстве представляют гены, участвующие в процессе развития, такие как HOX и PAX. Это согласуется с обогащением этих цитозинов в сайтах-мишенях PRC2 и доменов двухвалентного хроматина, которые контролируют экспрессию HOX и др. генов развития у всех позвоночных и не только. Таким образом, похоже, что старение встроено в жизнь через процессы, связанные с развитием.
Большое количество литературы связывает рост / развитие со старением, начиная с основополагающей работы Williams 195711. Эта связь также очевидна, когда опосредованная факторами Яманака реверсия взрослых клеток в эмбриональные стволовые клетки сопровождается изменением их возраста до пренатального эпигенетического возраста, в соответствие с их стадией развития 1. Следовательно, регуляция метилирования генов, участвующих в развитии (во время и после периода развития), может составлять ключевой механизм, связывающий рост и старение. Универсальные эпигенетические часы демонстрируют, что старение и развитие взаимосвязаны и разделяют важные механистические процессы, которые действуют на протяжении всей жизни организма.
Другие примечательные возраст-связанные гены и процессы, которые были обнаружены, включают LHFPL4 и LHFPL3, чья заявленная функция в синаптической кластеризации рецепторов ГАМК не сразу представляет очевидную связь со старением во всех тканях. Однако чрезвычайно сильная корреляция CpG вблизи этих паралогов (расположенных на разных хромосомах) с возрастом убедительно свидетельствует об их роли в процессе старения. Ген LARP1 занимает первое место в печени и второе во всех тканях по гипометилированию с возрастом и кодирует белок, который регулирует трансляцию нижестоящих мишеней mTOR, который имеет очень хорошо задокументированные связи со старением и долголетием. Участие генов циркадных ритмов исключительно в стареющих тканях мозга выявляет тканеспецифические изменения, которые происходят параллельно с универсальными изменениями в развитии. Более того, участие генов циркадных ритмов в старении перекликается с недавними наблюдениями на мышах 4.
Участие множества генов, связанных с функцией митохондрий, подтверждает давно обсуждаемую важность этой органеллы в процессе старения. Также важно отметить, что многие из идентифицированных генов вовлечены в множество возрастных патологий и состояний, повышая вероятность их активного участия в процессе старения, а не пассивной ассоциации с ним.
В будущем выяснению того, как развитие механистически связано со старением, помогут универсальные часы млекопитающих. Анализ перекрестной проверки с исключением одного вида показывает, что эти часы очень хорошо обобщаются на виды млекопитающих, которые не были частью обучающего набора. Способность конструировать универсальные эпигенетические часы млекопитающих, которые могут точно предсказать возраст животных и тканей, не входивших в обучающий набор, соответствует критерию Поппера о фальсифицируемости, требующего, чтобы теория делала проверяемые прогнозы, на основе которых ее можно было бы опровергнуть. Представленные здесь эпигенетические часы, основанные на универсальности старения млекопитающих, проходят этот тест с удивительной легкостью и точностью.
МЕТОДЫ
Образцы тканей
Образцы тканей описаны в Приложении и связанных ссылках, как указано в Дополнительной информации, Примечание 1).
Контроль качества универсальных часов
Мы создали две переменные, управляюшие контролем качества (КК) исследуемых образцов; первая - это переменная, указывающая на достоверность (от 0 до 100%) оценки хронологического возраста выборки. Например, низкая достоверность была присвоена образцам от диких животных, возраст которых был оценен на основе измерений длины тела. Эпигенетические часы были обучены и оценены на образцах тканей, достоверность которых превышала 90% (> = 90%). Вторая переменная контроля качества представляла собой индикаторную переменную (да / нет), которая помечала технические отклонения или злокачественные (раковые) ткани. Поскольку нас интересовали «нормальные» паттерны старения, мы исключили ткани из доклинических исследований антиэйджинговых и проэйджинговых вмешательств.
Характеристики видов
Характеристики видов, такие как максимальная продолжительность жизни (максимальный наблюдаемый возраст), возраст половой зрелости и продолжительность беременности, были получены из обновленной версии базы данных 12 по старению и долголетию животных (AnAge, http://genomics.senescence.info/help.html#anage). Чтобы облегчить воспроизводимость, мы разместили эту измененную / обновленную версию AnAge в дополнительных данных.
Мета-анализ изучения эпигенетической зависимости (EWAS) возраста
Каждый CpG подвергался регрессии по хронологическому возрасту в каждом слое, образованном видами / тканями. Мы ограничили анализ слоями, содержащими не менее 15 наблюдений. В результате этого корреляционного теста была получена статистика t-критерия Стьюдента (обозначенная как статистика Z). Мы вычислили две разные статистики мета-анализа. Первый подход (метод Стоуффера) объединил значения P (и соответствующую статистику Z) для разных видов / слоев ткани с использованием программного обеспечения Metal 13 (методы). Мета-анализ Стоуффера привлекателен, поскольку он позволил нам вычислить значения p мета-анализа для каждого CpG. Второй подход метаанализа просто рассчитывал медианную статистику Z по стратам. Мы обнаружили, что этот подход привлекателен для предварительной фильтрации CpG в обучающих наборах универсальных часов. Мы подчеркиваем, что этот подход предварительной фильтрации не включал никаких тестовых данных. В каждом обучающем наборе мы предварительно отфильтровали верхние 4000 CpG перед моделированием часов. Для часов 1 и 2 мы использовали медианную статистику Z; для часов 3 мы использовали функцию R «rankPvalue» из пакета R WGCNA, примененную к возрастным корреляциям; для часов 4 мы использовали примерно 14 500 CpG, сопоставленных с геномами опоссума и тасманского дьявола.
Мета-анализ для EWAS возраста
Мы применили два метода для объединения результатов EWAS по видам и тканям, как описано ниже.
Двухэтапный мета-анализ в сочетании с методом Стоуфера
Наш мета-анализ комбинированной статистики корреляционного теста по возрасту рассчитан для 133 различных слоев тканей вида (от 58 видов) с минимальным размером выборки 15 (N≥15, дополнительная таблица 1.4). На первом этапе мы объединили результаты EWAS по тканям одного и того же вида, чтобы сформировать видоспецифичные результаты мета-EWAS. На втором этапе мы объединили все результаты EWAS для 58 видов, чтобы сформировать окончательный мета-EWAS возраста. Все метаанализы на обоих этапах были выполнены невзвешенным методом Стоуфера, как это было сделано в METAL13.
Стратификация возрастных групп
Чтобы оценить, связаны ли возраст-зависимые CpG у молодых животных с таковыми у старых животных, мы разделили данные на 3 возрастные группы: молодой возраст (возраст <1,5 * возраст половой зрелости, ASM), средний возраст (возраст от 1,5 до 3,5 ASM. ) и пожилой возрастной группы (возраст ≥ 3,5 ASM). Порог размера выборки для видов-тканей был снижен до N≥10. Возрастные корреляции в каждой возрастной группе были проанализированы с использованием вышеупомянутого двухэтапного метаанализа.
EWAS Мозга
Аналогичным образом мы применили два подхода к результатам исследования EWAS мозга; более 900 тканей головного мозга человека, верветок, мышей, оливкового бамбука, коричневых крыс и свиней в мозжечке, коре, гиппокампе, гипоталамусе, полосатом теле, субвентрикулярной зоне (SVZ) и в целом головном мозге.
EWAS одиночной ткани
Одноэтапный невзвешенный метод Стоуфера и средний балл Z также применялись к результатам EWAS для мозжечка и коры головного мозга соответственно. Аналогичным образом мы провели мета-анализ EWAS крови, печени, мышц и кожи. Результаты EWAS крови были объединены по 7 семьям, включая 367 тканей от людей, 565 от собак, 170 от мышей, 36 от косаток, 137 от дельфинов-афалин, 83 от азиатских слонов и т.д. гренландских китов, 638 тканей от 19 видов летучих мышей, 180 от косаток, 105 от голых землекопов, 72 от людей и т. д. Результаты EWAS по печени были объединены по четырем семьям, включая 583 мышей, 97 от людей, 48 от лошадей и т. д. Результаты EWAS были объединены по четырем семьям, включая 24 от вечерних летучих мышей, 57 от людей и 19 от голых землекопов и т. Д. Результаты EWAS для мозжечка были объединены по приматам и родентиям, в том числе 46 от людей. Еще 46 тканей коры головного мозга, профилированные у тех же людей, были включены в EWAS коры головного мозга, в котором метаанализ также был объединен по приматам, грызунам и третьему отряду: 16 свиней из парнокопытных. Подробная информация о стратах различных видов и тканей представлена в дополнительной таблице 2.
Мы использовали функцию R gmirror, чтобы изобразить Манхэттенские графики в зеркальном отображении.
GREAT анализ
Мы применили программный инструмент GREAT analysis6 к 1000 наиболее гиперметилированным и 1000 наиболее гипометилированным CpG из EWAS возраста. GREAT реализовал гипергеометрические тесты переднего плана / фона для областей генома, где мы вводим все 37k CpG-областей нашего массива млекопитающих в качестве фона и геномные области 1000 CpG в качестве переднего плана. Это дало гипергеометрические значения p, не зависящие от количества CpG в гене. Мы выполнили обогащение на основе настроек (сборка: Hg19, Proximal: 5,0 kb вверх по течению, 1,0 kb вниз по течению, плюс дистальный: до 50 kb) примерно для 76290 наборов генов, связанных с терминами GO, MSigDB (включая наборы генов для вышестоящих регуляторов) , PANTHER, путь KEGG, онтология болезней, генная онтология, фенотипы человека и мыши. Мы сообщаем наборы генов с FDR <0,05 и перечисляем номинальные гипергеометрические P-значения, P-значения с поправкой на FDR и Бонферрони.
Анализ перекрытия на основе EWAS-GWAS (Эпигенетические-генетические ассоциации)
Наш анализ перекрытия EWAS-GWAS связал наборы генов, найденные нашим EWAS возраста, с наборами генов, найденными опубликованными крупномасштабными GWAS различных фенотипов, по распределению жира в организме, результатам липидной панели, метаболическим результатам, неврологическим заболеваниям, на основе шести DNAm биомаркеров и другие возрастные признаки (дополнительная информация, примечание 3). Всего было изучено 69 результатов GWAS. Шесть биомаркеров DNAm включали четыре показателя эпигенетического ускорения возраста, полученные из 1) пан-тканевого эпигенетического возраста Хорвата, скорректированного с учетом возрастного количества клеток крови, называемого внутренним эпигенетическим ускорением возраста (IEAA) 1,14, 2) возраста ДНК Ханнума на основе крови 15 ; 3) DNAmPhenoAge 16; и 4) средство оценки риска смертности DNAmGrimAge 17, наряду с основанными на DNAm оценками количества клеток крови и уровней ингибитора активатора плазминогена 1 (PAI1) 17. Для каждого результата GWAS мы использовали программное обеспечение MAGENTA для расчета общего P-значения GWAS для каждого гена, которое основано на наиболее значимом P-значении ассоциации SNP в пределах границы гена (+/- 50 kb) с поправкой на размер гена, количество SNP на тысячу килограммов и другие потенциальные факторы, влияющие на результат 18. Мы удалили геномные области генов GWAS, присутствующих в массиве млекопитающих. Для каждого результата EWAS мы исследовали геномные области из 1000 лучших CpG, гиперметилированных и гипометилированных с возрастом, соответственно. Чтобы оценить совпадение с тестовым признаком, мы выбрали верхние 5% генов для каждого признака GWAS и рассчитали односторонние гипергеометрические значения P на основе геномных регионов (как подробно описано в 19,20). Количество фоновых геномных областей в гипергеометрическом тесте было основано на перекрытии между целыми генами в GWAS и целыми геномными областями в нашем массиве млекопитающих. Мы выделили признак GWAS, когда его гипергеометрическое значение P достигало 5 × 10в-4 с EWAS возраста в любом типе ткани.
Связь экспрессии гена LHFPL с хронологическим возрастом у человека и мыши
Чтобы изучить, играют ли LHFPL4 или LHFPL3 роль в возрастных транскрипционных изменениях, окружающих близлежащие гены, мы проанализировали несколько транскриптомных данных для разных тканей и видов. У людей в нашем анализе использовались исследования экспрессии генов из 1) проекта GTEx, 2) данных по экспрессии двух генов, изученных в 19 (наборы данных GEO из исследований 21,22) и 3) сводных данных трех исследований, проведенных Isildak et al3. для изучения возрастной экспрессии мозга в периоды развития (возраст ≥20) и старения (возраст> 20). На мышах мы проанализировали сводные данные консорциума Tabula Muris Consortium 4, которые сгенерировали данные секвенирования одноклеточной РНК из 23 тканей мыши на протяжении всей жизни.
Три вида универсальных часов млекопитающих для плацентарных
Мы применили модели эластичной чистой регрессии для создания трех универсальных часов млекопитающих для оценки хронологического возраста по всем тканям у здоровых людей. Три модели эластичной чистой регрессии соответствовали различным показателям результатов, описанным ниже: 1) преобразованный в журнал хронологический возраст: журнал (Возраст + 2), где было добавлено смещение в 2 года, чтобы избежать отрицательных чисел в случае пренатальных образцов, 2) - log (−log (RelativeAge)) и 3) возраст с лог-линейным преобразованием. Оценки возраста ДНК для каждых часов были вычислены с помощью соответствующего обратного преобразования. Преобразования возраста, использованные для построения универсальных часов 2–4, включали три характеристики вида: время беременности (GT), возраст половой зрелости (ASM) и максимальную продолжительность жизни (maxAge). Все эти видовые переменные измеряются в годах. Подробная информация по каждому виду представлена в дополнительных данных.
Преобразование Loglog относительного возраста для часов 2
Наша мера относительного возраста использует время беременности (GestationT) и максимальную продолжительность жизни. Мы определяем относительный возраст (RelativeAge) и применяем следующее Loglog преобразование:
По определению, RelativeAge находится в диапазоне от 0 до 1, а LoglogAge положительно коррелирует с возрастом. Универсальные часы 2 предсказывают LoglogAge, а затем применяют обратное преобразование для оценки DNAmAge:
Все характеристики видов (например, MaxAge, срок беременности) взяты из нашей обновленной версии AnAge. Мы были обеспокоены тем, что неодинаковые данные о максимальном возрасте различных видов могут исказить наш анализ. В то время как миллиарды людей были исследованы на предмет оценки максимального возраста людей (122,5 года), этого нельзя сказать ни о каком другом виде. Чтобы решить эту проблему, мы предположили следующее: истинный максимальный возраст остальных видов на 30% выше, чем указано в AnAge. Поэтому мы умножили заявленную максимальную продолжительность жизни не относящихся к человеку видов на 1,3. Наши прогностические модели оказались очень надежными в отношении этого предположения (данные не показаны).
Преобразование на основе лог-линейного возраста для часов 3
Наш показатель логарифмически-линейного возраста основан на возрасте половой зрелости (ASM). Преобразование имеет следующие свойства: принимает логарифмическую форму, если возраст меньше ASM; принимает линейную форму, когда возраст больше ASM; непрерывно дифференцируемо в точке ASM.
Во-первых, мы определяем отношение возраста к ASM следующим образом:
где смещение на 1,5 года гарантирует, что RelativeAdultAge будет положительным. Чтобы учесть более быстрый рост в молодом возрасте, мы применяем лог-линейное преобразование к RelativeAdultAge, используя функцию f (x), которая была первоначально предложена для пантканевых часов человека 1:
Это преобразование обеспечивает непрерывность и плавность в точке изменения x = 1. В нашем исследовании аргумент x - это отношение RelativeAdultAge. Следовательно, мы считаем образец в молодом возрасте, если его отношение RelativeAdultAge меньше 1. Наш логлинейный возраст (LoglinearAge) в часах 3 выражен ниже:
Аналогично, часы 3 предсказывают LoglinarAge и применяют обратное преобразование для оценки DNAmAge, как показано ниже.
Часы для сумчатых
Для сумчатых мы использовали 162 образца 7 видов. Мы применили эластичную чистую регрессию к показателю результата LoglogAge = - log (- log (RelativeAge)), как описано в формулах (1) и (2). Для оценки точности часов мы использовали только перекрестную проверку LOFO (с 5 фракциями), так как большинство выборок было получено от опоссумов (N = 100) и тасманских дьяволов (N = 41, дополнительная таблица 1.1).
Мы использовали другой конвейер для нормализации данных метилирования для сумчатых, потому что многие CpG других млекопитающих не имели аналогов в геноме сумчатых. Часы для сумчатых были обучены на основе примерно 14500 цитозинов, которые были сопоставлены как с тасманским дьяволом, так и с опоссумами.
Эластичная чистая регрессия
Мы применили модели эластичной чистой регрессии для всех наборов, в которые отбирались от 1000 до 2000 CpG для часов 1-3 и 30 CpG для сумчатых часов. Чтобы оценить точность моделей эластичной чистой регрессии, мы использовали перекрестную проверку с исключением одной фракции (LOFO) и исключения одного вида (LOSO). В LOFO мы случайным образом разбили весь набор данных на 10 фракций, каждая из которых имела одинаковое распределение по видам и типам тканей. Каждая модель регрессии со штрафами была обучена в 9 фракциях, но оценивалась в 10в-й исключенной фракции. Обойдя 10 фракций, мы пришли к прогнозам LOFO, которые впоследствии были связаны с фактическими значениями.
Подход перекрестной проверки LOSO обучил каждую модель на всех, кроме одного вида. Оставленные виды использовались в качестве тестового набора. Подход LOSO использовался для оценки того, насколько хорошо модели регрессии со штрафами распространяются на виды, которые не были частью обучающих данных. Чтобы обеспечить объективные оценки точности, все аспекты подгонки модели (включая предварительную фильтрацию CpG) проводились только в обучающих данных как в анализе LOFO, так и в анализе LOSO. Упругая регрессия сети в данных обучения была реализована путем установки параметра модели glmnet alpha на 0,5. Десятикратная перекрестная проверка данных обучения использовалась для оценки лямбда параметра настройки. По вычислительным причинам мы подобрали модель glmnet для 4000 лучших CpG с наиболее значимым медианным Z-баллом (тест корреляции возраста) в обучающих данных. Чтобы учесть различные размеры выборок видов, мы использовали взвешенную регрессию по мере необходимости, где вес был обратным квадратному корню из частоты видов или 1/20 (в зависимости от того, что было больше). В окончательных версиях различных универсальных часов использовались все доступные данные.
Статистика оценки прогностических возможностей модели
Для проверки нашей модели мы использовали оценки возраста ДНК из анализа LOFO и LOSO, соответственно. Для каждого типа оценок мы выполнили коэффициенты корреляции Пирсона и вычислили медианную абсолютную разницу (MAE) между переменными, основанными на DNAm, и наблюдаемыми для всех образцов. Корреляция и MAE также вычислялись на уровне видов, ограничиваясь подгруппой с выборками N> = 15 (внутри вида или внутри категории вид-ткань). Мы указали медианы для оценок корреляции (med.Cor) и медианы для оценок MAE (med.MAE) по видам соответственно. Аналогичным образом мы повторили тот же анализ на уровне вид-ткань, ограничившись подгруппой с образцом N> = 15 (в категории вид-ткань).
URLs
AnAge, http://genomics.senescence.info/help.html#anage
UCSC genome browser: http://genome.ucsc.edu/index.html
Доступность данных
Данные будут опубликованы на сайте Gene Expression Omnibus.
Вклад авторов
Аке Т. Лу, Чжэ Фэй, Цезарь Ли, Джозеф Золлер, Ш. разработали универсальные часы. ATL, Amin Haghani, Charles Breeze, Michael Thompson, Matteo Pellegrini, Wanding Zhou, SH провели дополнительный биоинформатический анализ. Адриана Арнесон, Джейсон Эрнст, SH разработали массив метилирования млекопитающих. ATL, Ken Raj, SH подготовили первую версию статьи. Остальные авторы предоставили ценные ткани или образцы ДНК или помогли в процессе создания данных. Все авторы помогли с редактированием статьи и интерпретацией данных. SH задумал исследование.
КОНКУРИРУЮЩИЕ ИНТЕРЕСЫ
SH является основателем некоммерческого фонда развития эпигенетических часов, который планирует лицензировать несколько патентов у своего работодателя UC Regents. В этих патентах в качестве изобретателей указаны SH, JE, AA. Остальные авторы заявляют об отсутствии конфликта интересов.
CORRESPONDING AUTHOR
Correspondence to Steve Horvath (shorvath{at}mednet.ucla.edu)
БЛАГОДАРНОСТИ и ФИНАНСИРОВАНИЕ
Эта работа была поддержана в основном группой Paul G. Allen Frontiers Group (SH).
Опубликовано: 19 января 2021 г.
Оригинальная статья (PDF): Universal DNA methylation age across mammalian tissues
Перевод Ник Сестрин