КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 20-74-10075-П
НазваниеАллель-специфичная доступность хроматина и генетические детерминанты патологий
Руководитель Кулаковский Иван Владимирович, Доктор биологических наук
Организация финансирования, регион федеральное государственное бюджетное учреждение науки Институт белка Российской академии наук , Московская обл
Конкурс №5050 - Конкурс 2023 года на продление сроков выполнения проектов, поддержанных грантами Российского научного фонда по мероприятию «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными (50)
Область знания, основной код классификатора 04 - Биология и науки о жизни; 04-207 - Системная биология; биоинформатика
Ключевые слова аллель-специфичность, однонуклеотидные варианты, однонуклеотидные полиморфизмы, доступность хроматина, регуляция экспрессии гена, генетические детерминанты, DNase-Seq, ChIP-Seq
Код ГРНТИ34.03.23
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Ткань- и время-специфичная экспрессия генов на уровне транскрипции у высших эукариот обеспечивается регуляторными белками - транскрипционными факторами, специфически связывающими характерные участки ДНК - сайты связывания - в регуляторных районах генов (промоторах и энхансерах). Знание положения регуляторных областей и их "грамматики", т.е. структуры с точки зрения положения сайтов связывания ТФ позволяет решать множество задач, в частности, проводить функциональную аннотацию индивидуальных вариантов генома и оценку риска патологий для индивидов-носителей таких вариантов. Это обуславливает актуальность развития биоинформатики генной регуляции для решения задач медицинской генетики.
Одним из характерных свойств активных регуляторных районов является доступность хроматина для фрагментации с помощью эндонуклеаз либо для транспозиций. Это свойство используют такие методы, как DNase-Seq и ATAC-Seq, позволяющие оценить активность регуляторных областей с точки зрения доступности хроматина. Однако, этими методами можно получить лишь примерную карту регуляторных областей и участков связывания белков-регуляторов. Для определения точного положения сайтов и конкретных белков-регуляторов привлекают анализ in silico либо другие экспериментальные методы для анализа связывания конкретных белков (ChIP-Seq и аналоги). Это позволяет не только определить локализацию регуляторных участков, но и выявить однонуклеотидные варианты и события аллель-специфичной регуляции, когда дисбаланс в числе прочтений, поддерживающих альтернативные аллели гомологичных хромосом, выявляет альтернативные сценарии генной регуляции в зависимости от конкретной нуклеотидной замены.
Ранее мы успешно составили крупнейший атлас аллель-специфичного связывания различных факторов транскрипции человека in vivo и аллель-специфичной доступности хроматина в сотнях клеточных типов. Совмещение такой аннотации с анализом последовательностей с точки зрения присутствия характерных ДНК-паттернов, распознаваемых различными факторами транскрипции, расширяет инструментарий для аннотации вариантов при решении задач медицинской генетики и компьютерной геномики. Кроме того, наличие методической базы и коллекции аллель-специфичных сайтов позволяет на новом уровне применять продвинутые модели на основе современных методов машинного обучения. В частности, при помощи машинного обучения обеспечивается синергия между экспериментальными данными по ДНК-специфичности факторов транскрипции и результатами массовых репортерных экспериментов.
В ходе предлагаемого проекта будет расширен каталог мотивов связывания факторов транскрипции человека путем анализа доступных в рамках партнерства с международными коллективами экспериментальных данных для нескольких сотен малоизученных факторов транскрипции; будут разработаны модели на основе искусственных нейронных сетей для моделирования коротких регуляторных последовательностей эукариот по данным высокопроизводительных экспериментов с верификацией на основе созданных нами атласов аллель-специфичной регуляции и других данных о регуляторных эффектах однонуклеотидных вариантов; будет проведен аллель-специфичный анализ омиксных данных для малоизученных факторов транскрипции; будут интегрированы соответствующие программные инструменты для возможности использования их за пределами проекта и при анализе аналогичных омиксных данных.
Новизна проекта: впервые на основе большого массива экспериментальных данных мы получим информацию о специфичности и аллель-специфичности связывания множества малоизученных факторов транскрипции человека; во-вторых, впервые проведем сравнительный анализ аллель-специфичности для методов in vitro (HT-SELEX с выделенной геномной ДНК) и ChIP-Seq, и оценим соответствие регуляторных вариантов, связываемые малоизученными факторами транскрипции, а аллель-специфичной доступности хроматина в родственных типах клеток.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2025 году
Ткань- и время-специфичная экспрессия генов на уровне транскрипции у высших эукариот обеспечивается регуляторными белками - факторами транскрипции (транскрипционными факторами, ТФ), специфически связывающими характерные участки ДНК - сайты связывания ТФ - в регуляторных районах генов (промоторах и энхансерах), расположенных в сегментах доступного хроматина. Знание точного положения регуляторных областей и их структуры с точки зрения положения сайтов связывания ТФ позволяет решать множество задач, в частности, проводить функциональную аннотацию индивидуальных вариантов генома и последующую оценку риска патологий для носителей таких вариантов. Проект посвящен изучению и использованию феномена аллель-специфичной регуляторной активности, включая связывание факторов транскрипции и доступность хроматина, для идентификации однонуклеотидных вариантов, демонстрирующих зависимое от аллеля покрытие прочтениями в экспериментах на основе высокопроизводительного секвенирования (ChIP-Seq, ATAC-Seq, DNase-Seq, CAGE-Seq и др.).
В фокусе данного проекта: малоизученные факторы транскрипции человека, их аллель-специфичное связывание и его связь с аллель-специфичной доступностью хроматина.
В ходе второго года работы над проектом были получены следующие результаты:
- 1: Проведен сравнительный анализ коллекции мотивов проекта Codebook для малоизученных факторов транскрипции, отобраны наилучшие мотивы, согласующиеся со спектром доступных экспериментальных данных. Была расширена коллекция мотивов HOCOMOCO, которая в новом 13м релизе содержит мотивы для 1120 факторов транскрипции человека. База данных свободно доступна онлайн по адресу: https://hocomoco.autosome.org
- 2: Проведен совместный анализ участков аллель-специфично доступного хроматина из базы данных UDACHA и мотивов связывания Codebook, что позволило идентифицировать малоизученные факторы транскрипции человека, для которых характерна согласованность связывания с аллель-специфичной доступностью хроматина, такие как ZNF70, GRHL3, MYPOP, SP140(L) и DMTF1.
- 3: Нейросеть LegNet, обученная по данным массовых параллельных репортерных экспериментов с геномной интеграцией, проведенных в иммортализованных линиях клеток человека, показала высокое качество предсказания эффекта аллель-специфичной доступности хроматина в клетках HepG2 и K562, с соотношением согласованных предсказаний к несогласованным более 2:1.
- 4: Удалось успешно верифицировать в репортерных экспериментах эффекты, оказываемые на экспрессию генов избранными промотерными аллель-специфичными вариантами: rs1800668 (GPX1), rs11602109 (ZDHHC5), rs2290311 (RPL32), rs4970765 (SYPL2), rs2295079 (mTOR).
Публикации
1.
Рафи А.М., Ногина Д., Пензар Д., Ли Д., Ли Д., Ким Н., Ким С., Ким В., Шин У., Квак И., Мещеряков Г., Ландо А., Зинкевич А., Ким Б., Ли Ж., Канг Т., Ваишнав Е.Д., Йадолахпур П., ДРИМ Консорциум, Ким С., Альбрехт Ж., Регев А., Гонг В., Кулаковский И.В., Мейер П., деБойр К.
A community effort to optimize sequence-based deep learning models of gene regulation
Nature Biotechnology (год публикации - 2024)
10.1038/s41587-024-02414-w
2.
Буян А., Мещеряков Г., Сафронов В., Абрамов С., Бойцов А., Ноздрин В., Баулин Е.Ф., Колмыков С., Вьерстра Дж., Колпаков Ф., Макеев В.Ю., Кулаковский И.В.
Statistical framework for calling allelic imbalance in high-throughput sequencing data
Nature Communications, 16, 1739 (год публикации - 2025)
10.1038/s41467-024-55513-2
3.
Агарвал В., Инуе Ф., Шульбах М., Пензар Д., Мартин Б.К., Даш П.М., Кекелейре П., Жанг З., Сохота А., Жао Дж., Георгакопоулос-Соарес И., Нобель В.С., Ярдимчи Г.Г., Кулаковский И.В., Кирхер М., Шендур Дж., Ахитув Н.
Massively parallel characterization of transcriptional regulatory elements
Nature, 639, 411–420 (год публикации - 2025)
10.1038/s41586-024-08430-9
Возможность практического использования результатов
Проект является фундаментальным по своей природе и его результаты имеют основную ценность для проведения дальнейших научных исследований в области регуляторной геномики и генетики человека и других эукариотических организмов. Однако, с точки зрения будушего практического использования результатов, мы ожидаем, что разработанные в работе методы и созданные базы данных будут востребованы для решения задач медицинской генетики, а именно, аннотации индивидуальных регуляторных вариантов генома, связанных с различными патологиями.