КАРТОЧКА ПРОЕКТА,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-14-00295

НазваниеИнтеграция и анализ омиксных данных по регуляции транскрипции, оценка влияния SNV.

РуководительКолпаков Федор Анатольевич, Кандидат биологических наук

Организация финансирования, регионФедеральное государственное бюджетное научное учреждение "Федеральный исследовательский центр информационных и вычислительных технологий", Новосибирская обл

Года выполнения при поддержке РНФ 2019 - 2021 

КонкурсКонкурс 2019 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»

Область знания, основной код классификатора 04 - Биология и науки о жизни, 04-207 - Системная биология; биоинформатика

Ключевые словаОмиксные данные, ChIP, регуляция транскрипции, сайты связывания транскрипционных факторов, SNP, SNV, база данных, GTRD, FANTOM5, GTEx, BioUML, машинное обучение

Код ГРНТИ34.03.23


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Современные методы высокопроизводительных исследований генерируют огромный массив информации по ключевым факторам регуляции транскрипции, в частности: - сайты связывания транскрипционных факторов (ССТФ) - основные экспериментальные методы: ChIP-seq, ChIP-exo, ChIP-nexus; - доступность хроматина - DNase-seq, ATAC-seq, FAIRE-seq; - гистоновые модификации - ChIP-seq; - сайты метилирования - WGBS, RRBS, methyl array; - сайты инициации транскрипции - CAGE; - уровень экспрессии соответствующих генов - CAGE, RNA-seq; - данные по влиянию SNV на экспрессию генов - eQTL, GWAS. Все эти типы данных будут использованы в предлагаемом проекте. Перечисленные выше типы данных были получены как большими международными консорциумами: - ENCODE (https://www.encodeproject.org/) - создана энциклопедия регуляторных ДНК элементов; - FANTOM 5 (http://fantom.gsc.riken.jp/5/) - создана функциональная аннотация и охарактеризованы уровни экспрессии функциональных участков ДНК; - Roadmap Epigenomics Project (http://www.roadmapepigenomics.org/) - собраны данные по эпигеномике и метилированию ДНК, - GTEx - Genotype-Tissue Expression – создана коллекция вариаций генной экспрессии среди индивидуумов и в 44 различных тканях тела человека, а также паттернов тканеспецифичности для выявления генетических основ болезней человека; так и отдельными лабораториями. Исходные данные таких экспериментов представлены в специализированных хранилищах данных, основными из которых являются Sequence Read Archive (SRA; https://www.ncbi.nlm.nih.gov/sra) и Gene Expression Omnibus (GEO; https://www.ncbi.nlm.nih.gov/geo/). Однако все вышеупомянутые данные недостаточно интегрированы друг с другом, что существенно затрудняет их совместное использование как для понимания механизмов регуляции транскрипции, так и для решения практических задач - например, для предсказания возможных эффектов одиночных нуклеотидных замен (SNV) в регуляторных районах генов. Хотя регуляция транскрипции осуществляется на разных уровнях при помощи разных механизмов, транскрипционные факторы (ТФ) и их сайты связывания (ССТФ) являются основными компонентами регуляции транскрипции. Поэтому поиск функциональных ССТФ и выявление их вклада в регуляцию транскрипции соответствующих генов остается “горячей” точкой современной биологии. Несмотря на большие объемы накопленных экспериментальных данных и достаточно большой набор методов компьютерного анализа, мы можем выделить как минимум четыре проблемы, связанные с этой задачей, не решенные до сих пор: 1) идентификация ССТФ - и экспериментальные методы, и компьютерные методы до сих пор имеют ряд нерешенных проблем. В частности, для экспериментальных методов проблема возникает по нескольким причинам: - большое количество повторов в геноме, которые создают "черные дыры" для методов секвенирования (Next-Generation Sequencing; NGS); - несовершенство методов поиска ССТФ по данным ChIP-seq и DNase-seq, - неспособность отличить связывание через посредников от прямого связывания. В случае компьютерных методов проблема возникает при распознавании ССТФ со слабо выраженным или отсутствующим мотивом. 2) клеточная специфичность ССТФ - набор ССТФ для одного и того же ТФ может существенно отличаться в зависимости от типа клетки (клеточной линии) и условий, в которых она находится. Однако, провести ChIP-seq эксперименты для всех типов клеток (клеточных линий) и условий невозможно. 3) функциональные ССТФ - различные исследования (например, Toropainen et al., 2016; Cusanovich et.al., 2014) показывают, что только малая часть ССТФ (3-10%) непосредственно влияют на уровень транскрипции. Проблема выделения функциональных ССТФ среди всего множества -ССТФ остается открытой. 4) интерпретация SNP и SNV в контексте регуляции транскрипции - большая часть SNP и SNV находится в регуляторных районах генов. Данный проект направлен на существенное продвижение в решении этих проблем. В его основе лежат четыре основные идеи: 1) единообразная аннотация, контроль качества и обработка большого объема экспериментальных NGS данных по регуляции транскрипции (более 80% от имеющихся в открытом доступе экспериментальных данных перечисленных выше типов для человека и мыши); 2) одновременное использование нескольких методов анализа NGS данных и последующий мета-анализ с целью наиболее достоверного выявления регуляторных элементов. Например, для выявления ССТФ по данным ChIP-seq экспериментов будут использоваться методы MACS, GEM, SISSRs, PICS и последующий мета-анализ полученных ими результатов. Для поиска участков открытого хроматина будут применены: Hotspot2, MACS2 и F-Seq. В последующем предсказании ССТФ по данным DNAse-seq экспериментов будут использоваться методы: Wellington и HINT. Также будет проведен мета-анализ полученных результатов. 3) интеграция результатов из различных типов NGS экспериментов в контексте заданного клеточного типа и условий. В рамках проекта это будет использоваться для 3 целей: а) Уточнение результатов за счет совместного (мета-анализа) данных. б) Создание метода для предсказания ССТФ для заданного клеточного типа и условий в случае отсутствия соответствующих ChIP-seq экспериментов (в этих клеточных типах и условиях). Метод будет основываться на других типах экспериментов (доступность хроматина, гистоновые модификации и др.) проведенных в этих условиях и будет использовать методы машинного обучения. в) как входные данные для машинного обучения для предсказания эффекта SNV на регуляцию транскрипции. 4) Автоматический анализ интегрированных NGS данных по регуляции транскрипции, вышеописанными методами, и сохранение результатов в базе данных GTRD. Данный подход повторяет идеологию проекта ENSEMBL, которая объединяет как экспериментальные данные по аннотации генома, так и компьютерные предсказания. Таким образом, GTRD должна стать аналогом EnsEMBL, но в плане регуляции транскрипции. Предсказание влияния SNV на транскрипцию может быть как качественным так и количественным. В первом случае оценивается значимость (вероятность) влияния SNV на экспрессию соответствующего гена. Во втором - как изменится уровень транскрипции соответствующего гена. В этом случае необходимо построение модели регуляции на основе методов машинного обучения. Предсказание экспрессии - как метод валидации насколько мы понимаем механизмы регуляции транскрипции. Участники проекта уже имеют существенный задел. Ими разработана и поддерживается база данных GTRD - Gene Transcription Regulation Database (http://gtrd.biouml.org/) - крупнейшая в мире база данных ССТФ, построенная на основе унифицированно обработанных данных ChIP-seq экспериментов. Для построения сценариев анализа данных используется платформа BioUML (http://www.biouml.org/), которая разработана и развивается авторами данного проекта с 2001 года для поддержки научных исследований в области системной биологии и биоинформатики.

Ожидаемые результаты
Результаты проекта будут представлены в базе данных GTRD и структурированы в ней следующим образом: - экспериментальные данные - единообразная аннотация, контроль качества и обработка экспериментальных NGS данных по регуляции транскрипции (ССТФ, доступность хроматина, гистоновые модификации, сайты метилирования, сайты инициации транскрипции, уровень экспрессии соответствующих генов, данные по влиянию SNV на экспрессию генов) для 10 видов организмов: Homo sapiens, Mus musculus, Rattus norvegicus, Canis lupus familiaris, Danio rerio, Caenorhabditis elegans, Drosophila melanogaster, Saccharomyces cerevisiae, Schizosaccharomyces pombe, Arabidopsis thaliana. - результаты мета-анализа данных - одновременное использование нескольких методов анализа NGS данных с целью наиболее достоверного выявления регуляторных элементов (ССТФ). Будут созданы новые мета-кластеры ССТФ в которые будут включаться только наиболее надежные ССТФ. Надежность ССТФ будет оцениваться с помощью различных метрик качества. Для этого планируется использование как уже существующих метрик качества, так и вновь разработанных. В частности, мы планируем создать более совершенные варианты метрик, созданных и опубликованных нами, основанные на оценивании количества ложно предсказанных (false positives) и ложно не предсказанных (false negatives) ССТФ. - интеграция данных: -- интеграция результатов из различных типов NGS экспериментов в контексте заданного клеточного типа и условий; -- цистром - полученное множество всех ССТФ, объединенное по всем клеточным типам, для всех экспериментальных условий для 10 видов организмов; -- интеграция с внешними данными - в первую очередь, Ensembl, FANTOM5, GTEx и производными от GTRD библиотеками мотивов для распознавания ССТФ: HOCOMOCO и BaMMmotif; - полные наборы ССТФ для большого количества клеточных линий человека и мыши. Они будут включать как экспериментально определенные ССТФ (на основе ChIP-seq данных) так и предсказанные ССТФ (с использованием библиотек мотивов для распознавания ССТФ и объединения этих данных с информацией по открытому хроматину) - аллель-специфичное связывание ССТФ - по результатам анализа данных ChIP-seq экспериментов будут определены все (в этих данных) аллельные варианты в геномах человека и мыши, которые пересекаются с мотивом соответствующего ТФ и степень их влияния на эффективность связывания ТФ с соответствующим сайтом. Данная информация будет представлена отдельным разделом базы данных GTRD. - функциональные ССТФ - всем ССТФ для человека будет присвоены скор и ген, который отражает вероятность того, что данный ССТФ влияет на эффективность транскрипции соответствующего гена. Для этого будут использоваться методы машинного обучения, а в качестве входных данных будут использоваться интегрированные данные результатов из различных типов NGS экспериментов в контексте заданного клеточного типа, данные алель-специфичного связывания ТФ и данные eQTL (GTEx и другие). Данные, полученные по разным клеточным типам, будут также объединены, чтобы соответствующие результаты можно было использовать для интерпретации SNV, выявленных при помощи GWAS. - аннотация регуляторных SNP - все SNP человека будут наложены на полученные функциональные ССТФ. База данных GTRD будет доступна для пользователя в 2 видах: 1) веб-интерфейс для поиска и визуализации информации, созданный на основе платформы BioUML (текущая версия - http://gtrd.biouml.org) 2) данные для скачивания в виде текстовых файлов. Таким образом, в результате выполнения проекта будет создана новая версия базы данных GTRD, которая будет широко использоваться специалистами в области регуляции генной экспрессии и интерпретация SNP и SNV в контексте регуляции транскрипции. Стоит особенно подчеркнуть, что текущая версия базы данных GTRD уже широко используется в мире: - более 2 000 посетителей в месяц - более 38 ссылок на статью по GTRD, опубликованную в NAR в 2017 году (список ссылок приведен на http://gtrd.biouml.org). На основе информации из базы данных GTRD созданы 3 информационных ресурса: 1) HOCOMOCO – база данных мотивов для распознавания ССТФ [Kulakovskiy et al., HOCOMOCO: towards a complete collection of transcription factor binding models for human and mouse via large-scale ChIP-Seq analysis. Nucleic Acids Res., 2018. 46, D252–D259]. Интеграция GTRD с HOCOMOCO обеспечивает уникальный замкнутый цикл: ChIP-seq данные из GTRD используются для построения мотивов HOCOMOCO и мотивы из HOCOMOCO используются для локализации ССТФ внутри ChIP-seq пиков для полных геномов мыши и человека. 2) База данных мотивов BaMM и веб-сервер для распознавания ССТФ [Kiesel et al. The BaMM web server for de-novo motif discovery and regulatory sequence analysis. Nucleic Acids Res., 2018. 46, W215–W220]. 3) цистром человека и мыши - полногеномные карты потенциальных ССТФ для человека и мыши [Vorontsov et al. Genome-wide map of human and mouse transcription factor binding sites aggregated from ChIP-Seq data. BMC Res. Notes, 2018. 11, 756]. По ряду параметров даже текущая версия GTRD превосходит конкурирующие проекты (ENCODE, ChIP-Atlas, Cistrome DB, ReMAP, ChIPBase, FactorBook; TRANSFAC, http://wiki.biouml.org/index.php/GTRD_comparison). Результаты выполнения проекта позволят перевести базу данных GTRD на качественно новый уровень, существенно превзойти конкурирующие проекты и, возможно, стать основной базой данных в мире по регуляции транскрипции и интерпретация SNP и SNV в контексте регуляции транскрипции.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
Был построен единый словарь клеточных типов и тканей по всем используемым в базе данных GTRD экспериментальным данным, этот словарь был связан с существующими онтологиями клеточных типов и тканей из проектов ENCODE, FANTOM5 и GTEx. На данный момент словарь содержит 3954 клеточных типов, которые объединены в 90 кластеров на основе анатомических, морфологических и других особенностей. 3225 записей из этого словаря удалось сопоставить с основными существующими базами данных клеточных типов и тканей: EFO, Brenda ontology, UBERON, Cell ontology, Plant ontology. Таким образом, были найдены соответствия для более чем 80% клеточных типов и тканей представленных в GTRD. Используя сопоставленные клеточные типы мы смогли сопоставить 588 экспериментов из FANTOM 5, 5962 экспериментов из ENCODE и 21720 экспериментов из GTEx с экспериментам из GTRD, проведенные на одних и тех же клеточных линиях. Таким образом, у нас появилась возможность интегрировать эксперименты по регуляции транскрипции между этими базами данных для проведения различных анализов. Для дальнейшего развития базы данных GTRD были составлены сценарии обработки данных NGS экспериментов различного типа: - Chip-seq - картирование сайтов связывания транскрипционных факторов (ССТФ) и различных типов модификаций гистонов на геном; - ChIP-exo - картирование ССТФ; - DNase-seq, ATAC-seq, MNase-seq и FAIRE-seq - картирование на геноме областей открытого хроматина, а также локализации отдельных нуклеосом. Данные сценарии обработки данных были интегрированы в систему управления распределенными вычислениями eGrid и использованы для подготовки актуального релиза базы данных регуляторных элементов GTRD. Также разработанные сценарии были реализованы в виде workflow на платформе BioUML. Так же для платформы BioUML были разработаны сценарии для обработки CAGE данных и RNA-seq данных. За отчетный период было проаннотировано 9833 эксперимента, направленных на картирование ССТФ (ChIP-seq и ChIP-exo), 3831 эксперимент по картированию различных типов модификаций гистонов (ChIP-seq) и 12187 экспериментов по картированию областей открытого хроматина и локализации отдельных нуклеосом (DNase-seq, ATAC-seq, FAIRE-seq и MNase-seq). На данный момент база данных GTRD является самой большой базой в мире по объему однообразно проаннотированных и обработанных данных по ССТФ, определенных при помощи ChIP-seq экспериментов. На стартовой странице в разделе Statistics приведена детальная информация о количестве проанализированных данных для каждого типа NGS экспериментов. Был разработан сценарий для поиска событий аллель-специфического связывания данных ChIP-Seq (см. выше) и при его помощи были проанализированы собранные в базе данных GTRD ChIP-seq данные по ССТФ для человека. Для полученных данных был создан специальный раздел в базе данных GTRD. Данные по по аллель-специфичному связыванию сгруппированы в трэки: - по клеточным линиям (579 трэков) - по транскрипционным факторам и кофакторам (1033 трэка). Для работы с базой данных GTRD используется веб-интерфейс платформы BioUML. Для интеграции и графического представления в геномном браузере результатов из различных типов NGS экспериментов в контексте заданного клеточного типа и условий он был расширен следующим образом: 1) на стартовой странице для работы с базой данных GTRD в анализе "Display tracks" были добавлены новые параметры для выбора трека с учетом клеточного типа и условий; 2) разработана новая вкладка "Track finder" для поиска трэков в базе данных GTRD и их показу в геномном браузере. Для одновременного использования нескольких методов анализа NGS данных и последующего мета-анализа с целью наиболее достоверного выявления регуляторных элементов нами был разработан новый алгоритм. При помощи этого алгоритма были найдены мета-кластера для всех ССТФ человека. Дополнительной особенностью новых мета-кластеров является наличие скора, полученного на основании метода коллективного выбора (метод Борда; Lin et al., 2010). Благодаря данным значениям, новые мета-кластеры могут быть упорядочены в порядке их достоверности. В дальнейшем предполагается разработка метода выявления оптимального порога, на основании которого будут отфильтрованы наименее достоверные мета-кластеры. Также новый алгоритм был использован для идентификации мета-кластеров, предназначенных для описания профилей открытого хроматина, основанных на данных DNase-seq экспериментов. В данном случае исходные наборы данных для построения мета-кластеров группировались на уровне клеточных типов. Таким образом нами было построено 428 наборов мета-кластеров, описывающих профили открытого хроматина для различных клеточных типов человека. В дальнейшей работе нами планируется использовать полученные профили открытого хроматина будут для построения модели полногеномного предсказания ССТФ для заданного клеточного типа. Для платформы BioUML был разработан метод который позволяет из заданного набора SNV отобрать возможные регуляторные мутации. На первом этапе проверяется как мутации влияют на аффинность связывания транскрипционного фактора с соответствующим сайтом связывания на ДНК. Это делается путем применения моделей ССТФ (заданных позиционными весовыми матрицами) к последовательности ДНК до и после мутации и сравнения их скоров и р-value. Значительное снижение скора после мутации указывает на потенциально значительное снижение афинности ССТФ (его исчезновение). Аналогично, увеличение скора указывает на потенциально значительное повышение афинности ССТФ (возникновение нового ССТФ). Чтобы дополнительно усилить достоверность предсказанных регуляторных мутаций, на втором этапе проверяется наличие дополнительных событий, указывающих на связывание транскрипционного фактора в заданном клеточном типе и условиях. Это делается путем сканирования базы данных GTRD на наличие пиков ChIP-seq, перекрывающих мутированный ССТФ. Наконец, рассчитывается скор с учетом изменений аффинности связывания и скоров соответствующих пиков ChIP-seq. Интернет ресурсы - база данных GTRD: gtrd.biouml.org

 

Публикации

1. Колмыков С.К., Евшин И.С., Колпаков Ф.А. Анализ NGS данных по регуляции транскрипции. Сборник тезисов XVII Российской конференции «Распределенные информационно-вычислительные ресурсы», DICR-2019 (3-6 декабря 2019 г., Новосибирск),, - (год публикации - 2019).

2. Колмыков С.К., Кондрахин Ю.В., Евшин И.С., Шарипов Р.Н., Рябова А.С., Колпаков Ф.А. Population size estimation for quality control of ChIP-Seq datasets PLOS ONE, 14(8): e0221760 (год публикации - 2019).

3. Куляшов М.А., Колмыков С.К., Евшин И.С.,Колпаков Ф.А. ОПИСАНИЕ, ХАРАКТЕРИСТИКА И АЛГОРИТМ СОЗДАНИЯ СЛОВАРЯ КЛЕТОЧНЫХ ТИПОВ И ТКАНЕЙ В БАЗЕ ДАННЫХ GTRD Сборник тезисов XVII Российской конференции «Распределенные информационно-вычислительные ресурсы», DICR-2019 (3-6 декабря 2019 г., Новосибирск), - (год публикации - 2019).

4. Семен Колмыков, Юрий Кондрахин, Иван Евшин, Руслан Шарипов, Михаил Куляшов, Федор Колпаков Human cistrome - genome-wide map of human transcription factor binding sites derived from GTRD database. 9th Moscow Conference on Computational Molecular Biology МССМВ'19, Moscow, 27-30 July 2019., - (год публикации - 2019).

5. Федор Колпаков, Илья Акбердин, Тимур Кашапов, Илья Киселев, Семен Колмыков, Юрий Кондрахин, Елена Кутумова, Никита Мандрик, Сергей Пинтус, Анна Рябова, Руслан Шарипов, Иван Евшин, Александр Кель BioUML: An Integrated Environment for Systems Biology and Collaborative Analysis of Biomedical Data Nucleic Acids Research, Vol.47. - Iss. W1. - P.W225-W233 (год публикации - 2019).

6. Юрий Кондрахин, Семён Колмыков, Иван Евшин, Руслан Шарипов, Анна Рябова, Михаил Куляшов, Федор Колпаков Combining GTRD ChIP-Seq datasets with FANTOM5’s transcription start sites for prediction of gene expression levels 9th Moscow Conference on Computational Molecular Biology МССМВ'19, Moscow, 27-30 July 2019., - (год публикации - 2019).


Аннотация результатов, полученных в 2020 году
В 2020 году была продолжена единообразная аннотация, контроль качества и обработка большого объема экспериментальных NGS данных по регуляции транскрипции - ChIP-seq, ChIP-exo, DNase-seq, MNase-seq, ATAC-seq. Были проаннотированы появившиеся новые (конец 2019 - середина 2020 г.) NGS эксперименты по сайтам связывания транскрипционных факторов (ТФ), открытому хроматину и гистоновым меткам. Высокие темпы аннотации с контролем качества данных позволяют GTRD оставаться самой большой базой данных в мире по количеству единообразно проаннотированных и обработанных ChIP-seq экспериментов. В 2020 был расширен набор типов экспериментов - для определения генов-мишеней для ТФ используются данные RNA-seq, в которых соответствующие ТФ были инактивированы (нокаут, нокдаун) или активированы различными внешними воздействиями. Для этого были импортированы данные из базы данных KnockTF. Программа geominer, используемая для аннотации данных для GTRD, была расширена для аннотации таких данных. Мы провели анализ с целью выяснения, какая доля известных ТФ охвачена экспериментами ChIP-seq, ChIP-exo или ChIP-nexus? Для этого мы связали ТФ в базе данных GTRD с ТФ, описанными в базе данных CIS-BP, который содержит наиболее полные списки TФ. Оказалось, что наибольшее количество экспериментов проведено для человека - в базе данных GTRD содержатся данные по ChIP-seq экспериментам для более чем 2/3 от всех факторов человека. Предыдущие версии базы данных GTRD использовали СУБД MySQL для хранения метаданных и полученных результатов анализ NGS данных (за исключением BAM-файлов). По мере увеличения объема данных серверная часть стала узким местом, и сейчас база данных MySQL используется только для хранения метаданных. Результаты анализа сохраняются непосредственно в файловой системе в виде файлов в формате bigBed, что дает ряд преимуществ: - обработка файлов bigBed идет значительно эффективнее в параллельном режиме; - требования к пространству для хранения значительно ниже за счет внутреннего сжатия bigBed; - файлы bigBed можно напрямую загружать из GTRD без дополнительного преобразования и напрямую визуализировать в браузерах генома UCSC или Ensembl. Был расширен единый словарь клеточных линий и типов для новых проаннотированных NGS данных по регуляции транскрипции. Единый словарь клеточных типов и тканей был приведен к иерархической структуре на основе гистологических и цитологических данных. На данный момент словарь включает в себя 4639 уникальных клеточных типа, 2033 из которых относятся к тканям, клеткам и клеточным линиям человека. Была разработана онтология экспериментальных факторов, которая уже применяется для аннотации новых NGS данных и представляет собой словарь экспериментальных факторов. Для просмотра и поиска в базе данных GTRD был разработан новый веб-интерфейс, доступный по адресу http://gtrd.biouml.org (меню сверху). Например, выбрав пункт меню "Cells -> with Experiments" пользователь может увидеть список всех клеточных типов в базе данных GTRD и сводную статистику - сколько и каких экспериментов проаннотировано и проанализировано для соответствующего клеточного типа. Пройдя по ссылке (нажав на название клеточного типа), пользователь получает развернутый отчет, который включает его описание, ссылки на соответствующие онтологии и списки NGS экспериментов - каждый таб соответствует отдельному типу экспериментов NGS экспериментов. Нажав на соответствующую гиперссылку, пользователь может просмотреть подробный отчет по выбранному эксперименту, который включает ссылки на результаты обработки данного эксперимента. Например, для ChIP-seq эксперимента это будет набор пиков, полученных при помощи различных алгоритмов. Полученные результаты можно как скачать в формате bigBed, так и просмотреть в геномном браузере. Усовершенствован метод для наиболее достоверного выявления регуляторных элементов на основе нескольких методов анализа NGS данных и последующего мета-анализа. Он основан на применении подхода коллективного выбора (Rank Aggregation Approach) и анализа качества исходных ChIP-seq множеств из базы данных GTRD. Все мета-кластера сопровождаются специализированными мета-скорами, на основе которых можно отфильтровывать менее надежные мета-кластера. Мы показали, что наиболее надежные мета-кластера по сравнению с менее надежными мета-кластерами содержат намного больше сайт-мотивов, предсказанных с помощью позиционных весовых матриц. Была показана существенная взаимосвязь между районами открытого хроматина, мета-кластерами и предсказанными сайт-мотивами. Эта взаимосвязь с высокой точностью описывается дискриминантной функцией Фишера, построенной в рамках линейного дискриминантного анализа. В работах, выполненных в рамках конкурса ENCODE-DREAM Challenge была показана ключевая роль профилей открытого хроматина в контексте выявления районов связывания ТФ. В связи с этим, для решения задачи предсказания сайтов связывания ТФ для заданного клеточного типа были использованы данные DNase-seq и ATAC-seq экспериментов, направленные на идентификацию районов открытого хроматина, хранящиеся в базе данных GTRD. Был разработан метод для полногеномного предсказания ССТФ человека и мыши для заданного клеточного типа с использованием данных по открытому хроматину. Было проанализировано 2 варианта: 1) пересечение мета-кластеров из базы данных из GTRD с районами открытого хроматина для заданного клеточного типа; 2) пересечение мотивов, выявленных при помощи позиционных весовых матриц из базы данных HOCOMOCO с районами открытого хроматина для заданного клеточного типа. Подход с использование мета-кластеров позволяет идентифицировать большее количество активных ССТФ, чем использование весовых матриц для соответствующих ТФ, однако проигрывает данному подходу в контексте ложно положительных предсказаний. В ходе совместной работы с группой Кулаковского И.В. (ИМБ РАН / ИОГен РАН) на основе данных GTRD была создана база данных ADASTRA, доступная на сайте https://adastra.autosome.ru. В ходе анализа 7669 ChIP-Seq выравниваний из базы данных GTRD для 1025 ТФ человека и 566 клеточных типов, было выявлено более 270 тысяч событий аллель-специфичного связывания ТФ. Выявленные события загружены в базу данных GTRD и доступны для просмотра в виде отдельных треков при помощи геномного браузера платформы BioUML, а также использовались для последующего анализа данных. Был разработан метод для предсказания эффекта SNV на регуляцию транскрипции. Для построения метода использовался метод машинного обучения “random forest”. Для обучения и валидации метода были использованы данные по ассоциации генетических вариантов с экспрессией генов (данные eQTL из проекта GTEX) и другие данные собранные в GTRD. По результатам кросс-валидации строилась ROC-кривая и вычислялась площадь под ROC-кривой что позволило оценить качество построенной модели. Площадь под ROC-кривой составила от 0.58 до 0.89 в зависимости от набора данных. Были выявлены характеристики SNV, влияющие на транскрипцию, среди которых расстояние до старта транскрипции, характеристики сайтов сплайсинга и изменение ДНК мотивов ТФ. Было произведено сравнение разработанного нами метода для предсказания эффекта SNV на транскрипцию с методом FIRE. Разработанный метода оказался лучше FIRE во всех изученных случаях. Были построены модели (используя метод пошаговой регрессии) регуляции транскрипции для отдельных клеточных линияй (HepG2, K562 и HEK293; эти клеточные линии наиболее часто и полно исследованы с помощью ChIP-Seq экспериментов). Данная модель позволяет по ССТФ (мета-кластера из GTRD) предсказать уровень экспрессии сайтов инициации транскрипции (данные из проекта FANTOM5). Точность построенных моделей регуляции транскрипции контролировалась с помощью коэффициента корреляции R между наблюдаемыми и предсказанными (с помощью регрессии) значениями активностей СТС. Для HepG2, K562 и HEK293 корреляция R достигала следующие значения: 0.743, 0.733 и 0.732 соответственно. Был разработан метод, который предсказывает, является ли заданный ССТФ функциональным на основе его различных характеристик, а также характеристик соответствующего района ДНК (открытый хроматин, гистоновые метки). Для построения метода использовался метод машинного обучения “random forest”. Метод был обучен и валидирован на данных по активации ТФ AR и на данных по выключению транскрипционного фактора ERG. По результатам кросс-валидации строилась ROC-кривая и вычислялась площадь под ROC-кривой, что позволило оценить качество построенной модели. Для AR, значения площади под ROC кривой составили от 0.63 (промоторные районы) до 0.87 (межгенные районы). Для ERG значения площади под ROC кривой составили от 0.63 (промоторные районы) до 0.99 (межгенные районы). Были выявлены характеристики сайтов, определяющие его функциональность, среди которых самыми значимыми оказались характеристики гистонов H3K27ac, H2AZac, H3K4me3 и открытость хроматина. Интернет адрес основного ресурса - http://gtrd.biouml.org

 

Публикации

1. Колмыков С., Евшин И., Куляшов М., Шарипов Р., Кондрахин И., Макеев В.Ю., Кулаковский И.В., Кель А., Колпаков Ф. GTRD: an integrated view of transcription regulation. Nucleic Acids Research, gkaa1057 (год публикации - 2021).

2. Колмыков С.К., Евшин И.С., Колпаков Ф.А. Analysis of NGS Data on the Transcriptional Regulation CEUR Workshop Proceedings, CEUR Workshop Proceedings. – 2020. – Т. 2569. – P. 19–22 (год публикации - 2020).

3. Колмыков С.К., Кондрахин Ю.В., Шарипов Р.Н., Евшин И.С., Рябова А.С., Колпаков Ф.А. Meta-analysis of ChIP-seq Datasets Through the Rank Aggregation Approach Proceedings - 2020 Cognitive Sciences, Genomics and Bioinformatics, CSGB 2020 (Institute of Electrical and Electronics Engineers Inc.), Proceedings - 2020 Cognitive Sciences, Genomics and Bioinformatics, CSGB 2020, 9214614, pp. 180-184 (год публикации - 2020).

4. Колпаков Ф.А., Евшин И.С., Колмыков С.К., Кондрахин Ю.В., Куляшов М.А., Шарипов Р.Н. GTRD - an integrated view on transcription regulation BGRS/SB-2020: 12th International Multiconference “Bioinformatics of Genome Regulation and Structure/Systems Biology”, BGRS/SB-2020: 12th International Multiconference “Bioinformatics of Genome Regulation and Structure/Systems Biology” (Novosibirsk, Russia, 06-10 July 2020). – 2020. – P. 45-46 (год публикации - 2020).

5. Куляшов М.А., Колмыков С.К., Евшин И.С., Колпаков Ф.А. Advanced data curation in GTRD database: hierarchical dictionaries of cell types and experimental factors. Proceedings - 2020 Cognitive Sciences, Genomics and Bioinformatics, CSGB 2020 (Institute of Electrical and Electronics Engineers Inc.), Proceedings - 2020 Cognitive Sciences, Genomics and Bioinformatics, CSGB 2020, 9214681, pp. 23-27 (год публикации - 2020).

6. Куляшов М.А., Колмыков С.К., Евшин И.С., Колпаков Ф.А. Description, characteristic and algorithm for creation of a dictionary of cell types and tissues in the GTRD database CEUR Workshop Proceedings, CEUR Workshop Proceedings. – 2020. – Т. 2569. – P. 13-18. (год публикации - 2020).

7. Куляшов М.А., Колмыков С.К., Колпаков Ф.А., Евшин И.С. Advanced data curation in GTRD database: hierarchical dictionaries of cell types and experimental factors BGRS/SB-2020: 12th International Multiconference “Bioinformatics of Genome Regulation and Structure/Systems Biology”, BGRS/SB-2020: 12th International Multiconference “Bioinformatics of Genome Regulation and Structure/Systems Biology” (Novosibirsk, Russia, 06-10 July 2020). – 2020. – P. 52-53. (год публикации - 2020).

8. Шарипов Р.Н., Евшин И.С., Кондрахин Ю.В., Рябова А.С., Колмыков С.К., Колпаков Ф.А. Peak caller comparison through quality control of ChIP-Seq datasets BGRS/SB-2020: 12th International Multiconference “Bioinformatics of Genome Regulation and Structure/Systems Biology”, BGRS/SB-2020: 12th International Multiconference “Bioinformatics of Genome Regulation and Structure/Systems Biology” (Novosibirsk, Russia, 06-10 July 2020). – 2020. – P. 105-106. (год публикации - 2020).

9. Шарипов Р.Н., Кондрахин Ю.В., Рябова А.С., Евшин И.С., Колпаков Ф.А. Assessment of transcriptional importance of cell line-specific features based on GTRD and FANTOM5 data PLOS ONE, - (год публикации - 2020).


Аннотация результатов, полученных в 2021 году
В рамках данного проекта в 2021 году продолжились работы по единообразной аннотации, контролю качества и анализу NGS-экспериментов по регуляции транскрипции. За 2021 год было суммарно проаннотировано более 37 000 экспериментов различных типов. Такие темпы аннотации данных позволили базе данных GTRD остаться крупнейшим хранилищем единообразно описанных и обработанных ChIP-seq экспериментов. За отчётный период в базе данных GTRD была добавлена поддержка новых типов NGS-экспериментов: CAGE-seq, WGBS и RRBS. Для аннотации новых типов экспериментов были расширены функциональные возможности разработанной нами ранее программы для полуавтоматической аннотации данных geominer. Были реализованы специальные сценарии обработки новых типов NGS-экспериментов для системы управления распределенными вычислениями eGrid, а также платформы BioUML. В настоящий момент база данных GTRD поддерживает широкий набор типов NGS-экспериментов: - ChIP-seq - картирование сайтов связывания транскрипционных факторов (ССТФ) и различных типов модификаций гистонов (МГ) на геном; - ChIP-exo и ChIP-nexus - картирование ССТФ; - DNase-seq, ATAC-seq, MNase-seq и FAIRE-seq - картирование на геноме областей открытого хроматина, а также локализации отдельных нуклеосом; - RNA-seq - исследование уровня экспрессии соответствующих генов, идентификация генов-мишеней ТФ; - WGBS (whole genome bisulfite sequencing) и RRBS (reduced representation bisulfite sequencing) - выявления паттернов метилирования ДНК; - CAGE-seq (кэп-анализ экспрессии генов) – определения специфических стартов транскрипции (TSS), уровней их экспрессии и идентификации промоторных и энхансерных районов. В 2021 году был разработан и валидирован алгоритм объединения TSS и энхансеров из аннотированных и единообразно обработанных CAGE-seq экспериментов, как друг с другом так и с FANTOM5. Это позволило создать стабильную систему идентификаторов TSS и энхансеров вида rn6_4589.1, которые неизменны при обработке и добавлении в базу GTRD новых CAGE-seq экспериментов. В результате обработки новых экспериментов добавляются только новые TSS и энхансеры, а также уточняются границы ранее выявленных TSS и энхансеров. В случае изменения координат сайта изменяется только версия идентификатора, а в случае слияния и разбиения сайтам назначается новый идентификатор и создается соответствующая запись в истории сайта. Увеличение количества аннотированных NGS-экспериментов по регуляции транскрипции позволило расширить единый словарь клеточных линий и типов. На конец 2021 года база данных GTRD включает в себя 6 263 уникальных клеточных типа / ткани для девяти видов организмов. Расширенный словарь клеточных линий и тканей основан на сопоставлении унифицированной аннотации со специализированными базами данных, такими как Cell Ontology, Brenda Tissue Ontology, Experimental Factor Ontology, Uber-anatomy Ontology (UBERON), Plant ontology и Сellosaurus. На основе собранных в GTRD данных была построена наиболее полная версия цистрома человека. Построение цистрома основано на дальнейшем развитии методов идентификации мета-кластеров - новом методе IMETARA. Данный метод разработан нами для инкрементальной идентификации мета-кластеров. IMETARA предназначен для расширения уже существующего множества мета-кластеров за счет дополнительного анализа новых NGS-экспериментов, ранее не присутствовавших в GTRD. Главная цель разработки IMETARA – это создание стабильной системы идентификаторов ССТФ, которые будут неизменны при обработке новых данных: в результате обработки новых экспериментов добавляются только новые ССТФ и уточняются границы ССТФ, ранее внесенных в базу GTRD. В построенном цистроме человека каждому ССТФ (мета-кластеру) присваивается уникальный стабильный идентификатор, что позволяет ссылаться на такие ССТФ по аналогии с SNP. При этом, каждому мета-кластеру приписывается вещественно-значный мета-скор, который характеризует степень надежности мета-кластера. На основании данных значений при помощи алгоритма разложения имеющегося распределения на три нормальные компоненты каждый идентифицированный мета-кластер дополнительно был классифицирован как надежный, умеренно надежный или слабо надежный. С целью повышения точности метода идентификации мета-кластеров, нами была исследована взаимосвязь между мета-скорами идентифицированных мета-кластеров и гистоновыми модификациями, доступными в GTRD. Было обнаружено, что такая взаимосвязь действительно существует, однако она оказалась не достаточно сильной, чтобы приводить к существенному увеличению точности идентификации мета-кластеров. К концу 2021 года была завершена разработка метода предсказания эффекта SNV на регуляцию транскрипции. Метод принимает на вход список SNV в виде VCF файла, применяет классификационную модель и для каждой SNV выдает значение, характеризующее регуляторный потенциал. Разработанный метод включен в комплект инструментов для анализа в составе платформы BioUML, доступный пользователям (http://gtrd.biouml.org). За отчётный период была также завершена разработка метода идентификации функциональных ССТФ из всего множества экспериментально определенных ССТФ для отдельных ТФ человека. Была проверена следующая гипотеза - если SNP существенно изменяет вес ССТФ, рассчитанный с помощью весовой матрицы, но SNP не аннотирован в базах данных dbSNP и ClinVar как функциональный, а также не показана его связь с регуляцией экспрессии какого-то гена в базе данных GTEx, то такой ССТФ может рассматриваться как нефункциональный. Исследование показало, что функциональные сайты хорошо отличаются по этим признакам от нефункциональных, расположенных вдали от генов, и не отличаются по этим признакам от нефункциональных сайтов, расположенных в промоторах генов. В 2021 году было завершено развитие нового веб-интерфейса для базы данных GTRD на основе технологии BeanExplorer. Реализованы новые пункты меню для демонстрации информации о генах-мишенях для ТФ, выявленных при помощи RNA-seq экспериментов на клеточных линиях с измененной активностью соответствующих ТФ. Также была реализована возможность демонстрации данных о ТСС и энхансерах, полученных на основе единообразной аннотации и обработки CAGE-seq экспериментов. Разработан стабильный API для ссылок на объекты из базы данных GTRD. Для геномного браузера на платформе BioUML разработан новый веб-интерфейс, который обеспечивает показ развернутого отчета для ССТФ (мета-кластеров) для цистрома человека.

 

Публикации

1. Абрамов С., Бойцов А., Быкова Д., Пензар Д.Д., Евшин И.С., Колмыков С.К., Фридман М.В., Фаворов А.В., Воронцов И.Е., Баулин Е., Колпаков Ф.А., Макеев В.Ю., Кулаковский И.В. Landscape of allele-specific transcription factor binding in the human genome Nature Communications, Т. 12, Вып. 1, номер статьи 2751 (год публикации - 2021).

2. Пинтус С.С, Акбердин И.Р., Евшин И.С., Махновский П., Тяпкина О., Нигметзянов И., Нуруллин Л., Девятьяров Р., Шагимарданова Е., Попов Д., Колпаков Ф.А., Гусев О., Газизова Г.Р. Genome-wide atlas of promoter expression reveals contribution of transcribed regulatory elements to genetic control of disuse-mediated atrophy of skeletal muscle Biology (Basel), V. 10(6), 557 (год публикации - 2021).