КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 20-74-10075

НазваниеАллель-специфичная доступность хроматина и генетические детерминанты патологий

РуководительКулаковский Иван Владимирович, Доктор биологических наук

Организация финансирования, регион федеральное государственное бюджетное учреждение науки Институт белка Российской академии наук, Московская обл

Период выполнения при поддержке РНФ 07.2020 - 06.2023  , продлен на 07.2023 - 06.2025. Карточка проекта продления (ссылка)

Конкурс№50 - Конкурс 2020 года «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 04 - Биология и науки о жизни, 04-207 - Системная биология; биоинформатика

Ключевые словааллель-специфичность, однонуклеотидные варианты, однонуклеотидные полиморфизмы, доступность хроматина, регуляция экспрессии гена, генетические детерминанты, DNase-Seq, ChIP-Seq

Код ГРНТИ34.03.23


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Ткань- и время-специфичная экспрессия генов на уровне транскрипции у высших эукариот обеспечивается регуляторными белками - факторами транскрипции (транскрипционными факторами, ТФ), специфически связывающими характерные участки ДНК - сайты связывания ТФ - в регуляторных районах генов (промоторах и энхансерах). Знание точного положения регуляторных областей и их структуры с точки зрения положения сайтов связывания ТФ позволяет решать множество задач, в частности, проводить функциональную аннотацию индивидуальных вариантов генома и последующую оценку риска патологий для носителей таких вариантов. Одним из характерных свойств активных регуляторных районов является доступность хроматина для фрагментации с помощью эндонуклеаз либо для транспозиций. Это свойство используют такие методы, как DNase-Seq и ATAC-Seq, позволяющие оценить активность регуляторных областей с точки зрения доступности хроматина. Однако, этими методами можно получить лишь примерную карту регуляторных областей и участков связывания белков-регуляторов. Для определения точного положения сайтов и конкретных белков-регуляторов привлекают косвенные методы анализа in silico либо другие экспериментальные методы, в частности, на основе иммунопреципитации хроматина с последующим секвенированием (ChIP-Seq). В партнерской базе данных GTRD (http://gtrd.biouml.org) из публичных источников систематически собраны результаты нескольких тысяч экспериментов ChIP-Seq и DNase-Seq для различных типов клеток человека, как иммортализованных клеточных линий, так и образцов тканей. В ходе предыдущего проекта, поддержанного грантом РФФИ 18-34-20024, мы успешно провели систематическую идентификацию участков зависимого от аллельного варианта (т.е. аллель-специфичного) связывания различных факторов транскрипции человека in vivo на основе результатов нескольких тысяч экспериментов, проанализированных в рамках единого биоинформатического подхода. Мы обнаружили множество случаев координированного аллель-специфичного связывания факторов транскрипции, что предположительно объясняется аллель-специфичной доступностью хроматина. Однако, существующие базы данных по аллель-специфичной доступности хроматина покрывают не более 5-10% из более чем 100 тысяч позиций генома, в которых мы достоверно выявили аллель-специфичное связывание ТФ. Отсутствие прямых данных о доступности хроматина в общем осложняет интерпретацию наблюдаемых эффектов и, в частности, ограничивает применение методов машинного обучения для предсказания аллель-специфичности связывания ТФ по доступности хроматина и обратно. В ходе предлагаемого проекта на основе данных БД GTRD будет построена наиболее полная база данных по аллель-специфичной доступности хроматина. Для различных клеточных типов и ТФ будет оценена согласованность между аллель-специфичным связыванием и аллель-специфичной доступностью. Будут выявлены каузальные варианты – потенциальные драйверы изменений доступности хроматина, действующие через связывание ТФ-"пионеров" (способных связывать закрытый хроматин и привлекать комплексы ремоделирования). Наиболее значимые регуляторные варианты, существенно ассоциированные со сложными патологиями и потенциально оказывающие аллель-специфичный эффект на экспрессию гена, будут верифицированы экспериментально. Наконец, на основе машинного обучения будет предложен метод предсказания аллель-специфичного связывания ТФ по аллель-специфичной доступности хроматина, что позволит в ряде случаев предсказывать ключевые варианты при отсутствии прямых экспериментальных данных для изучаемого клеточного типа или ТФ.

Ожидаемые результаты
В ходе предлагаемого проекта будут получены следующие результаты, соответствующие или превосходящие текущий мировой уровень исследований по теме: Будет получена наиболее крупная и полная база данных по аллель-специфичной доступности хроматина в различных типах клеток, с учетом анеуплоидии и локальных вариаций копийности, обычно игнорируемых при анализе аллель-специфичных эффектов регуляции. Для различных клеточных типов и ТФ будет оценена согласованность между аллель-специфичным связыванием и аллель-специфичной доступностью хроматина. Информация об аллель-специфичной доступности хроматина будет использована для идентификации вероятных каузальных вариантов среди множества полиморфизмов, ассоциированных со сложными патологиями, согласно различным существующим базам по генетическим ассоциациям. Избранные наиболее значимые варианты, для которых согласуются события аллель-специфичного связывания и аллель-специфичной доступности хроматина, будут верифицированы экспериментально. Будет актуализирована база данных HOCOMOCO, содержащая мотивы связывания факторов транскрипции человека, идентифицированные в рамках единого подхода на основе прямых экспериментальных данных. Наконец, на основе машинного обучения будет предложен компьютерный метод предсказания аллель-специфичного связывания ТФ по аллель-специфичной доступности хроматина. Полученная база данных будет уникальным ресурсом для разработки и верификации методов предсказания регуляторных эффектов мутаций, функциональной аннотации индивидуальных вариантов, приоритизации вариантов, найденных в геномных исследованиях ассоциаций. Таким образом, основной результат работы имеет и фундаментальное (с точки зрения расшифровки механизмов регуляции экспрессии) и прикладное (источник прямых данных для приоретизации генетических маркеров) значение.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2020 году
Ткань- и время-специфичная экспрессия генов на уровне транскрипции у высших эукариот обеспечивается регуляторными белками - факторами транскрипции (транскрипционными факторами, ТФ), специфически связывающими характерные участки ДНК - сайты связывания ТФ - в регуляторных районах генов (промоторах и энхансерах). Знание точного положения регуляторных областей и их структуры с точки зрения положения сайтов связывания ТФ позволяет решать множество задач, в частности, проводить функциональную аннотацию индивидуальных вариантов генома и последующую оценку риска патологий для носителей таких вариантов. Одним из характерных свойств активных регуляторных районов является доступность хроматина для фрагментации с помощью эндонуклеаз либо для транспозиций. Это свойство используют такие методы, как DNase-Seq и ATAC-Seq, позволяющие оценить активность регуляторных областей с точки зрения доступности хроматина. Однако, этими методами можно получить лишь примерную карту регуляторных областей и участков связывания белков-регуляторов. Для определения точного положения сайтов и конкретных белков-регуляторов привлекают косвенные методы анализа in silico либо другие экспериментальные методы, в частности, на основе иммунопреципитации хроматина с последующим секвенированием (ChIP-Seq). В базе данных GTRD (http://gtrd.biouml.org), разрабатываемой нашими партнерами, на основе публичных источников систематически собраны результаты нескольких тысяч экспериментов по ДНК-белковым взаимодействиям (ChIP-Seq) и по картированию открытого хроматина (DNase-Seq, ATAC-Seq, FAIRE-Seq) в иммортализованных клеточных линиях и образцах тканей. В ходе нашего проекта строится и сопоставляется с сайтами аллель-специфичного связывания (по данным ChIP-Seq) карта аллель-специфичной доступности хроматина в различных типах клеток человека. В ходе отчетного этапа работы по проекту была доработана и опубликована база данных ADASTRA (https://adastra.autosome.ru) по аллель-специфичным сайтам связывания факторов транскрипции, проведена идентификация однонуклеотидных вариантов в данных по доступности хроматина. Идентифицировано более 20 миллионов однонуклеотидных вариантов с достаточным покрытием альтернативных аллелей прочтениями локализованных в районах доступного хроматина более 400 типов клеток. Сформулирован подход к уточнению геномных карт фоновых аллельных доз, для учета эффектов полиплоидии и локальных вариаций копийности. Подготовлены к анализу мотивов данные ChIP-Seq (на основе переобработанных выравниваний прочтений из GTRD) и HT-SELEX (на основе опубликованных работ). Получены пилотные оценки статистической значимости аллель-специфичности доступного хроматина для идентифицированных вариантов, сформулированы ключевые соображения по доработке подхода для улучшения достоверности оценок. Выбраны пилотные регуляторные однонуклеотидные варианты для экспериментальной верификации, получены репортерные конструкции, несущие альтернативные аллельные варианты соответствующих регуляторных последовательностей.

 

Публикации

1. Абрамов С., Бойцов А., Быкова Д., Пензар Д., Евшин И., Колмыков С.К., Фридман М.В., Фаворов А.В., Воронцов И.Е., Баулин Е., Колпаков Ф., Макеев В.Ю., Кулаковский И.В. Landscape of allele-specific transcription factor binding in the human genome Nature Communications, 2751 (год публикации - 2021) https://doi.org/10.1038/s41467-021-23007-0

2. Колмыков С., Евшин И., Куляшов М., Шарипов Р., Кондрахин Ю., Макеев В.Ю., Кулаковский И.В., Кель А., Колпаков Ф. GTRD: an integrated view of transcription regulation Nucleic Acids Res, 49, D1, D104-D111 (год публикации - 2021) https://doi.org/10.1093/nar/gkaa1057

3. Сети С., Воронцов И.Е., Кулаковский И.В., Гринавей С., Вильямс Дж., Макеев В.Ю., Браун С.Д.М., Симон М.М., Маллон А.-М. A holistic view of mouse enhancer architectures reveals analogous pleiotropic effects and correlation with human disease BMC Genomics, 21, 754 (год публикации - 2020) https://doi.org/10.1186/s12864-020-07109-5

4. - В России представили крупнейший каталог замен, влияющих на активность генов человека в ДНК ТАСС, - (год публикации - )


Аннотация результатов, полученных в 2021 году
В ходе отчетного этапа работы по проекту была доработана база данных ADASTRA (https://adastra.autosome.ru/portal) по аллель-специфичным сайтам связывания факторов транскрипции, запущен веб-сервис по аннотации и анализу обогащения для пользовательских наборов однонуклеотидных вариантов (https://ananastra.autosome.ru/portal), улучшены методы статистической оценки аллельного дисбаланса. Была проведена экспериментальная верификация избранных однонуклеотидных вариантов соответствующих участкам аллель-специфичного связывания с точки зрения их влияния на транскрипцию и трансляцию. Проведено полномасштабное извлечение мотивов из данных HT-SELEX и ChIP-Seq, что позволит завершить обновление коллекции мотивов и улучшить аннотацию аллель-специфичных сайтов на следующем этапе работы по проекту.

 

Публикации

1. Бойцов А., Абрамов С., Аюшеева А.Ж., Касьянова А.М., Баулин Е., Кузнецов И.А., Аульченко Ю.С., Колмыков С., Евшин И., Колпаков Ф., Воронцов И.Е., Макеев В.Ю., Кулаковский И.В. ANANASTRA: annotation and enrichment analysis of allele-specific transcription factor binding at SNPs Nucleic Acids Research, gkac262 (год публикации - 2022) https://doi.org/10.1093/nar/gkac262

2. Койпер М., Бонелло Ж., Фернандез-Брейс Ж.Т., Бухер Ф., Фучик М.Е., Годе П., Кулаковский И.В., Ликата Л., Лоджи К., Ловеринг Р.К., Макеев В.Ю., Орхард С., Панни С., Перфетто Л., Сант Д., Шульц С., Веркрусс С., Зербино Д., Лагрид А. The Gene Regulation Knowledge Commons: The action area of GREEKC Biochimica et Biophysica Acta (BBA)-Gene Regulatory Mechanisms, 1865, 194768 (год публикации - 2021) https://doi.org/10.1016/j.bbagrm.2021.194768

3. Шалыбкова А., Михайлова Д.С., Кулакосвкий И.В., Фарахнурова Л.И., Баулин Е.Ф. Annotation of the local context of the RNA secondary structure improves the classification and prediction of A-minors RNA, rna.078535.120 (год публикации - 2021) https://doi.org/10.1261/rna.078535.120


Аннотация результатов, полученных в 2022 году
В ходе финального этапа работы по проекту (1) была курирована, протестирована и финализирована обновленная версия коллекции HOCOMOCO, содержащая уточненные мотивы связывания для сотен белков-факторов транскрипции человека и мыши, включая подтипы сайтов связывания, узнаваемые белками in vitro и in vivo; (2) была создана коллекция UDACHA, содержащая более двух сотен тысяч сайтов достоверной аллель-специфичной доступности хроматина в нескольких сотнях типов клеток человека; (3) были доработаны и опубликованы в открытом доступе программные средства для построения BAD-карт (BABACHI) и статистического тестирования аллель-специфичности (MIXALIME); (4) была предложена и успешно апробирована новая нейросетевая архитектура LegNet для компьютерного моделирования коротких регуляторных последовательностей эукариот.

 

Публикации

1. Бойцов А., Абрамов С., Макеев В.Ю., Кулаковский И.В. Positional weight matrices have sufficient prediction power for analysis of noncoding variants F1000Research, 11:33 (год публикации - 2022) https://doi.org/10.12688/f1000research.75471.3


Возможность практического использования результатов
Мы ожидаем, что результаты работы будут полезны на практике в области медицинской генетики при проектировании и использовании автоматизированных экспертных систем и банков данных для интерпретации индивидуальных геномных вариантов.