КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 21-71-00051
НазваниеМетоды выделения специфических признаков из графов де Брейна для групп метагеномных образцов и применение машинного обучения для классификации библиотек полногеномного секвенирования
Руководитель Ульянцев Владимир Игоревич, Кандидат технических наук
Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Национальный исследовательский университет ИТМО" , г Санкт-Петербург
Конкурс №60 - Конкурс 2021 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-202 - Интеллектуальный анализ данных и распознавание образов
Ключевые слова биоинформатика, сравнительная метагеномика, полногеномное секвенирование, библиотека геномных прочтений, граф де Брейна, анализ графов, машинное обучение, выделение признаков
Код ГРНТИ27.45.00
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Микробные сообщества населяют различные ниши окружающего мира, в том числе организм человека, где они играют важную роль в усвоении питательных веществ и регуляции иммунного ответа. Анализ метагеномных данных является перспективным методом для изучения роли и функций метагеномных сообществ, однако существующие методы показывают недостаточный уровень точности для детального понимания процессов, происходящих в метагеноме кишечника человека. В то же время ряд последних исследований показывает наличие зависимостей между состоянием микробиоты и развитием различных заболеваний, которые были выявлены в результате анализа данных полногеномного метагеномного секвенирования.
В рамках настоящего исследования планируется разработать новые методы выделения признаков из метагеномных данных полногеномного секвенирования (WGS) для проведения сравнительного анализа между группами метагеномных образцов. Данные методы будут построены на основе выделения групп k-меров (последовательностей нуклеотидов длины k), специфичных для различных анализируемых групп метагеномов, которые затем будут объединяться в компоненты с использованием графов де Брейна. Для реализации алгоритмов будет использована кодовая база программ MetaFast и MetaCherchant (https://github.com/ctlab/metafast, https://github.com/ctlab/metacherchant), что позволит создать новое удобное программное средство MetaFast2.0 для сравнительного анализа метагеномов. Также планируется проведение масштабного сравнительного анализа методов машинного обучения (таких как случайный лес деревьев решений, бустинг) применительно к задаче классификации метагеномов с использованием выделенных признаков. Экспериментальные исследования планируется проводить как с использованием сгенерированных метагеномных данных, так и на данных реальных микробных сообществ.
Предполагается, что разработанные методы интеллектуального анализа позволят повысить точность выделения значимых признаков из метагеномных данных, а также повысят их интерпретируемость и, следовательно, биологическую значимость результатов анализа. Предполагается разработка рекомендаций по использованию методов машинного обучения и оптимальной настройке параметров их алгоритмов для классификации метагеномных образцов с использованием выделенных на предыдущем шаге признаков.
Актуальность настоящего исследования обосновывается тем, что микробные сообщества играют важную роль в жизнедеятельности человека. В последние годы был проведен целый ряд исследований для выявления зависимостей между составом микробиоты и развитием и течением заболеваний, однако понимание принципов, лежащих в основе взаимодействия микробиоты и человека, остается открытой задачей. Стремительный рост количества метагеномных данных приводит к необходимости разработки эффективных алгоритмов для их анализа, которые могли бы быть использованы в параллельных вычислительных средах.
Научная новизна настоящего исследования состоит в разработке новых алгоритмов для выделения новых признаков из метагеномных данных. Они будут объединять преимущества детального анализа на уровне k-меров и биологической интерпретируемости на уровне функциональной или таксономической аннотации. Данные признаки могут быть использованы в моделях машинного обучения при разработке рекомендательных систем для диагностирования различных заболеваний. Эффективная реализация разработанных методов и примеры использования будут выложены в открытый доступ, что позволит исследователям переиспользовать программный код для решения аналогичных задач.
ОТЧЁТНЫЕ МАТЕРИАЛЫ