КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 21-71-00051

НазваниеМетоды выделения специфических признаков из графов де Брейна для групп метагеномных образцов и применение машинного обучения для классификации библиотек полногеномного секвенирования

РуководительУльянцев Владимир Игоревич, Кандидат технических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО", г Санкт-Петербург

Период выполнения при поддержке РНФ 07.2021 - 06.2023 

Конкурс№60 - Конкурс 2021 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словабиоинформатика, сравнительная метагеномика, полногеномное секвенирование, библиотека геномных прочтений, граф де Брейна, анализ графов, машинное обучение, выделение признаков

Код ГРНТИ27.45.00


СтатусЗакрыт досрочно


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Микробные сообщества населяют различные ниши окружающего мира, в том числе организм человека, где они играют важную роль в усвоении питательных веществ и регуляции иммунного ответа. Анализ метагеномных данных является перспективным методом для изучения роли и функций метагеномных сообществ, однако существующие методы показывают недостаточный уровень точности для детального понимания процессов, происходящих в метагеноме кишечника человека. В то же время ряд последних исследований показывает наличие зависимостей между состоянием микробиоты и развитием различных заболеваний, которые были выявлены в результате анализа данных полногеномного метагеномного секвенирования. В рамках настоящего исследования планируется разработать новые методы выделения признаков из метагеномных данных полногеномного секвенирования (WGS) для проведения сравнительного анализа между группами метагеномных образцов. Данные методы будут построены на основе выделения групп k-меров (последовательностей нуклеотидов длины k), специфичных для различных анализируемых групп метагеномов, которые затем будут объединяться в компоненты с использованием графов де Брейна. Для реализации алгоритмов будет использована кодовая база программ MetaFast и MetaCherchant (https://github.com/ctlab/metafast, https://github.com/ctlab/metacherchant), что позволит создать новое удобное программное средство MetaFast2.0 для сравнительного анализа метагеномов. Также планируется проведение масштабного сравнительного анализа методов машинного обучения (таких как случайный лес деревьев решений, бустинг) применительно к задаче классификации метагеномов с использованием выделенных признаков. Экспериментальные исследования планируется проводить как с использованием сгенерированных метагеномных данных, так и на данных реальных микробных сообществ. Предполагается, что разработанные методы интеллектуального анализа позволят повысить точность выделения значимых признаков из метагеномных данных, а также повысят их интерпретируемость и, следовательно, биологическую значимость результатов анализа. Предполагается разработка рекомендаций по использованию методов машинного обучения и оптимальной настройке параметров их алгоритмов для классификации метагеномных образцов с использованием выделенных на предыдущем шаге признаков. Актуальность настоящего исследования обосновывается тем, что микробные сообщества играют важную роль в жизнедеятельности человека. В последние годы был проведен целый ряд исследований для выявления зависимостей между составом микробиоты и развитием и течением заболеваний, однако понимание принципов, лежащих в основе взаимодействия микробиоты и человека, остается открытой задачей. Стремительный рост количества метагеномных данных приводит к необходимости разработки эффективных алгоритмов для их анализа, которые могли бы быть использованы в параллельных вычислительных средах. Научная новизна настоящего исследования состоит в разработке новых алгоритмов для выделения новых признаков из метагеномных данных. Они будут объединять преимущества детального анализа на уровне k-меров и биологической интерпретируемости на уровне функциональной или таксономической аннотации. Данные признаки могут быть использованы в моделях машинного обучения при разработке рекомендательных систем для диагностирования различных заболеваний. Эффективная реализация разработанных методов и примеры использования будут выложены в открытый доступ, что позволит исследователям переиспользовать программный код для решения аналогичных задач.

Ожидаемые результаты
Ожидается, что в ходе выполнения проекта будут разработаны и программно реализованы методы по выделению признаков из метагеномных данных для классификации образцов из разных групп. Данные методы улучшат текущие подходы использования k-меров, путем их объединения с использованием графов де Брейна, что позволит производить их таксономическую и функциональную аннотацию и повысит интерпретируемость выделяемых признаков. Это позволит выдвинуть новые гипотезы о взаимосвязях между микробиотой и организмом человека и приблизиться к пониманию природы их взаимодействия. Эффективная реализация данных методов в программе MetaFast позволит проводить полный цикл сравнительного анализа метагеномных данных любой природы с удобной настройкой параметров и минимальными усилиями со стороны исследователей. Также будут проведены масштабные вычислительные эксперименты по выбору наилучших методов машинного обучения для классификации метагеномных образцов с использованием выделенных признаков. Выбранные модели машинного обучения могут быть использованы для классификации новых метагеномных образцов по ранее выделенным признакам в качестве рекомендательной системы при диагностировании заболеваний. Методы, которые будут использоваться в основе предполагаемых к разработке подходов, показали наилучшие результаты в международном соревновании по метагеномной диагностике ВЗК (Metagenomics Diagnosis For Inflammatory Bowel Disease Challenge – MEDIC, https://www.intervals.science/resources/sbv-improver/medic), что подтверждает возможность вклада предлагаемого проекта в мировой уровень исследований.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2021 году
Микробные сообщества играют важную роль в различных экосистемах, таких как водоемы, почва, кожные покровы и кишечник человека, поэтому их изучение является важной задачей. Множество исследований направлено на выявление взаимосвязей между микробиотой кишечника и различными заболеваниями человека. Примером такой задачи является диагностирование воспалительных заболеваний кишечника на основании данных микробиоты. В силу сказанного, актуальной задачей является разработка методов для сравнительного анализа групп метагеномных образцов. Настоящий проект направлен на разработку методов для извлечения признаков из данных метагеномного секвенирования. Проект развивает программное средство MetaFast [Ulyantsev et al., 2016], которое позволяет оценивать похожесть метагеномных образцов и строить матрицу расстояний между ними. Метод основан на построении и анализе графов де Брейна. В данном проекте предлагается развивать методы сравнительного анализа метагеномных образцов путем построения признаков, специфичных для определенной группы анализируемых метагеномов. Предполагается находить k-меры, представленность которых отличается между различными группами и на их основе производить построение признаков в виде контигов или подграфов графа де Брейна. В рамках первого этапа выполнения проекта были получены следующие результаты: 1. Разработаны новые методы по выделению групп уникальных и специфичных k-меров из библиотек метагеномных чтений. Для уникальных k-меров гарантируется, что они встречаются только в метагеномах одной группы, в то время как для специфичных вводится ограничение на встречаемость в других группах. Отдельно следует отметить методы извлечения специфичных k-меров с использованием статистических тестов. Такой подход позволяет выделять важные k-меры, представленность которых значимо различается между группами. Кроме того, разработаны алгоритмы, которые выделяют признаки в виде контигов или подграфов графа де Брейна на основе извлеченных k-меров. 2. Разработанные алгоритмы были реализованы в виде классов в программном средстве MetaFast (https://github.com/ctlab/metafast), эффективно работающих в параллельных вычислительных средах. Алгоритмы были апробированы и запущены на реальных метагеномных данных на вычислительном кластере Университета ИТМО. Также был создан репозиторий MetaFX (https://github.com/ctlab/metafx), в котором расположены пайплайны для запуска цикла сравнительного анализа метагеномных данных, а также примеры работы реализованных методов и моделей машинного обучения. 3. Были проведены вычислительные эксперименты по использованию разработанных и реализованных алгоритмов выделения признаков и методов машинного обучения для классификации метагеномных образцов. В качестве тестовых данных использовались метагеномные данные из открытых источников для пациентов с воспалительными заболеваниями кишечника, которые требовалось классифицировать к одной из трех категорий. Полученные результаты показали улучшение точности классификации по сравнению с классическими методами на основе таксономической и функциональной аннотации. Таким образом, была показана перспективность использования разработанных методов на практике. Результаты работ были представлены и апробированы на двух всероссийских конференциях и на двух международных биоинформатических семинарах.

 

Публикации