КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 22-24-00454

НазваниеВычислительно доступный виртуальный скрининг лигандов для липидных GPCR-рецепторов

РуководительХорн Полина Александровна, Кандидат биологических наук

Прежний руководитель Марьин Егор Вадимович, дата замены: 15.02.2023

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (национальный исследовательский университет)", г Москва

Период выполнения при поддержке РНФ 2022 г. - 2023 г. 

Конкурс№64 - Конкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами».

Область знания, основной код классификатора 04 - Биология и науки о жизни, 04-207 - Системная биология; биоинформатика

Ключевые словавиртуальный скрининг лигандов, рациональный дизайн лекарств, дизайн лекарств на основе структуры, хемоинформатика, машинное обучение, консенсусные методы основанные на машинном обучении, обучение с учителем, высокопроизводительные вычисления

Код ГРНТИ34.15.17


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Данный проект посвящён исследованиям в области рационального дизайна лекарств — современного подхода к разработке лекарственных препаратов, который имеет потенциал значительно уменьшать временные и денежные затраты на поиск лекарственных средств. Одна из современных тематик в области рационального дизайна — виртуальный скрининг ультрабольших (>100 млн соединений) виртуальных библиотек малых молекул. Идея такого подхода состоит в том, чтобы без оптимизации начальных низкомолярных соединений сразу найти лиганды, связывающиеся с целевой биомолекулой с хорошей аффинностью, что существенно облегчает дальнейшую проверку эффективности молекулы, сокращая затраты и время на разработку кандидата в лекарственные препараты. За последние три года такой подход показал свою применимость к известным мишеням для лекарственных препаратов, таких как допаминовый рецептор D4, или мелатониновые рецепторы человека. До сих пор, однако, набор мишеней, к которым реально может быть применён этот метод, сильно ограничен: в частности, на данный момент нет свидетельств о влиянии полученных за последние годы структур GPCR-рецепторов на кампании по разработке лекарственных препаратов. Авторы проекта ставят перед собой амбициозную цель снять некоторые из этих ограничений с использованием методов молекулярного докинга и классических методов машинного обучения на размеченных данных. Валидация полученных методов будет проводиться на неопубликованной структуре липидного GPCR-рецептора, который вовлечён в целый ряд заболеваний человека: аутоимунные и нейродегенеративные заболевания (например, болезни Альцгеймера и Хантингтона), гранулярную лейкемию, рассеянный склероз. Как следствие, выбранный рецептор является перспективной мишенью для фармакологии.

Ожидаемые результаты
Исследования по данному проекту имеют два фокуса. Основной, методологический, своей целью ставит разработку вычислительно доступного метода виртуального скрининга липидных GPCR-рецепторов. Разработку методов предлагается проводить в два шага. Во-первых, разработать надёжный метод т.н. “консенсусного скоринга”, т.е. предсказания того, насколько вероятно связывание конкретной малой молекулы с целевым рецептором, на основе комбинирования ответов хорошо валидированных алгоритмов. Во вторых, построить алгоритм ранжирования молекул в ультрабольшой виртуальной библиотеке, основываясь на результатах уже проделанного докинга: после получения результатов докинга, ранжировать оставшуюся библиотеку таким образом, чтобы следующая порция лигандов для докинга имела большую вероятность иметь хорошую оценку энергии связывания с целевым белком. Второй, прикладной, фокус проекта нацелен на поиск с использованием разработанных методов перспективных лекарственных кандидатов к липидному GPCR-рецептору, который вовлечён в целый ряд заболеваний человека: аутоимунные и нейродегенеративные заболевания (например, болезни Альцгеймера и Хантингтона), гранулярную лейкемию, рассеянный склероз.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2022 году
Данный проект посвящён исследованиям в области рационального дизайна лекарств — современного подхода к разработке лекарственных препаратов, который имеет потенциал значительно уменьшать временные и денежные затраты на поиск лекарственных средств. Одна из современных тематик в области рационального дизайна — виртуальный скрининг ультрабольших (>100 млн соединений) виртуальных библиотек малых молекул. Идея такого подхода состоит в том, чтобы без оптимизации начальных низкомолярных соединений сразу найти лиганды, связывающиеся с целевой биомолекулой с хорошей аффинностью, что существенно облегчает дальнейшую проверку эффективности молекулы, сокращая затраты и время на разработку кандидата в лекарственные препараты. За последние три года такой подход показал свою применимость к известным мишеням для лекарственных препаратов, таких как допаминовый рецептор D4, или мелатониновые рецепторы человека. До сих пор, однако, набор мишеней, к которым реально может быть применён этот метод, сильно ограничен: в частности, на данный момент нет свидетельств о влиянии полученных за последние годы структур GPCR-рецепторов на кампании по разработке лекарственных препаратов. Авторы проекта ставят перед собой амбициозную цель снять некоторые из этих ограничений с использованием методов молекулярного докинга и классических методов машинного обучения на размеченных данных. Валидация полученных методов будет проводиться на недавно опубликованной в сотрудничестве с исполнителями Проекта структуре липидного GPCR-рецептора, который вовлечён в целый ряд заболеваний человека: аутоимунные и нейродегенеративные заболевания (например, болезни Альцгеймера и Хантингтона), гранулярную лейкемию, рассеянный склероз. Как следствие, выбранный рецептор является перспективной мишенью для фармакологии. В первый год исследования проекта, авторы получили продвижение по обоим направлениям проекта: построению алгоритма ускоренного докинга, а также построению консенсусного, т.е. основанного на умном "усреднении" нескольких независимых методов, метода построения скора для машинного обучения. Кроме того, в течение года стал публично доступным принципиально превосходящий по качеству доступные ранее методы способ предсказания трёхмерных структур белков, нейросеть Alphafold, и авторы исследовали применимость получающихся при помощи Alphafold структур для своих задач -- потому как при возможности применять Alphafold, проект изменился бы кардинально. Прежде всего, авторы выяснили что модели, сгенерированные нейросетью Alphafold, недостаточно точны для использования в качестве "шаблонов" для вычислительного скрининга потенциально активных молекул. Это было сделано на примере не известной, на момент публикации Alphafold, структуры рецептора S1P5R -- липидного рецептора, сопряжённого с G-белком. Результаты тестов показали что для поиска селективных к этому рецептору лигандов структуры, сгенерированные нейросетью, бесполезны, и не позволяют отделить "активные" молекулы от "неактивных". В рамках построения системы по ускоренному скринингу, авторы провели масштабный поиск параметров для построения системы активного обучения. Вопреки существующим до этого результатам, оказалось что для этой задачи лучше всего подходят простейшие алгоритмы машинного обучения (линейная регрессия с регуляризацией), обученные на небольших наборах данных. Кроме того, выяснилось что алгоритмы, не обладающие "памятью", т.е. использующие каждый раз новые молекулы, показывают себя наравне с теми, что каждый раз увеличивают размер тренировочного набора данных. Эти результаты позволят в будущем построить простую и эффективную по вычислительным ресурсам систему виртуального скрининга молекул. Наконец, результаты по построению консенсусного алгоритма скоринга молекул, нацеленного на липидные рецепторы, сопряжённые с G-белком, оказались более труднодостижимы, чем предполагалось в начале проекта. Авторам удалось построить консенсусные модели для двух самых больших наборов данных, для рецепторов CLTR1 и TA2R. В рамках отдельных рецепторов, эти модели показали улучшение качества скрининга. Однако при тестировании полученных моделей на наличие обобщающей способности, т.е. выучивают ли они какую-то общую для всех липидных рецепторов информацию, выяснилось что при обучении не происходит обобщения: напротив, использование модели, обученной на датасете CLTR1, сильно ухудшает результаты при предсказании на датасете TA2R, и наоборот. Анализ имеющегося набора данных и алгоритма машинного показали, что скорее всего проблема в недостаточном объёме данных. В связи с этим план на второй год проекта скорректирован, с учётом необходимости составления собственного набора данных. По итогам первого года проекта часть полученных результатов была опубликована в журнале Nature Communications в сотрудничестве с экспериментальными группами и при лидирующем участии исполнителей проекта. Кроме того, результаты были представлены на двух тематических конференциях, а также были подготовлены черновики двух манускриптов по ключевым результатам проекта за первый год.

 

Публикации

1. Ляпина Е., Марьин Е., Гусач А., ..., Горделий В., Борщевский В., Мишин А., Черезов В. Structural basis for receptor selectivity and inverse agonism in S1P5 receptors Nature Communications, Nat Commun 13, 4736 (2022) (год публикации - 2022) https://doi.org/10.1038/s41467-022-32447-1

2. - Ученые МФТИ открыли секрет управления важным рецептором Журнал "За науку", - (год публикации - )

3. - Ученые МФТИ открыли секрет управления важным рецептором Сайт фонда РНФ, - (год публикации - )


Аннотация результатов, полученных в 2023 году
В течение отчетного периода наша работа была сконцентрирована на нескольких ключевых направлениях, каждое из которых имеет фундаментальное научное значение и потенциал в области вычислительной биологии и рациональной разработке лекарств. Наша работа в области ускоренного молекулярного докинга позволила продемонстрировать эффективность этого метода на общепринятых наборах данных. Для более широкого применения данного подхода мы разработали и внедрили инфраструктуру в алгоритм докинга Molsoft ICM. Наш алгоритм демонстрирует сходную работоспособность с методами, использующими глубокое обучение: он позволяет извлекать до 70% топ-0,5% всех лигандов (согласно оценке энергии связывания) после скрининга 2% лигандов, отобранных в результате скрининга, таким образом достигая ускорения в 50 раз, и пропорционально уменьшая вычислительные ресурсы, требуемые для скрининга. Это возможно благодаря простому базовому алгоритму активного обучения — линейной регрессии на 2048 бинарных признаках с набором данных для обучения в 20000 точек. Важно отметить, что обучение и применение данного алгоритма занимают менее 10 минут на наборе данных, включающем 100 миллионов лигандов, и имеют большой потенциал к расширению на ультрабольшие химические библиотеки. Вторым важным аспектом нашей работы стала ручная разметка данных базы CHEMBL. Мы смогли собрать значительные объемы данных для 21 липидного GPCR, включая более 600 вручную размеченных аннотаций экспериментов (по тому, позволяет ли эксперимент определить агонистическую активность лиганда, антагонистическую, или это нельзя заключить из описания), и свыше 20000 лигандов с размеченной модальностью (агонист/антагонист). Однако, учитывая последние достижения в области искусственного интеллекта, было принято решение отложить публикацию существующего набор данных в престижном научном журнале, расширив его за счет включения всех доступных экспериментальных данных для GPCR. Это планируется сделать с использованием методов искусственного интеллекта, таких как ChatGPT, с валидацией на уже размеченных вручную данных. Предварительные результаты показали высокий потенциал данного подхода. Такой подход позволит расширить лейблы модальности на миллионы лигандов, существенно увеличив набор данных по модальности лигандов для GPCR. Валидация отобранных лигандов проводилась при использовании структуры S1P5 рецептора, полученной с нашим участием. Следует отметить, что S1P5 рецептор является важным объектом исследований в области фармакологии — он играет важную роль в регуляции различных биологических процессов. Применение структуры данного рецептора позволило нам более точно и целенаправленно отбирать потенциально активные лиганды, что является крайне важным при рациональной разработке лекарств. Мы разработали и успешно применили пайплайн для виртуального скрининга лигандов, основанный на структуре S1P5 рецептора, включающий передовые методы рационального виртуального скрининга. Благодаря этому, из огромных баз данных, содержащих более 6 миллионов соединений, было отобрано 100 потенциально значимых лигандов, имеющих высокую вероятность стать селективными лекарственными средствами, направленными на S1P5 рецептор. Успешность экспериментальной валидации таких лигандов повышается за счет того, что мы, учитывая особенности трехмерной структуры белка, более эффективно провели их отбор. Выбранные нами в результате виртуального скрининга лиганды, будут проверены экспериментально с помощью клеточных тестов in vitro. Этот этап экспериментов играет ключевую роль в подтверждении потенциальной активности этих соединений и представляет значительный интерес для дальнейших исследований и разработки новых лекарственных препаратов. В целом, наша работа в отчетный период была ориентирована на развитие методов анализа данных и их применение в практических экспериментах, что расширило наши знания в области молекулярной биологии и фармакологии и может быть использовано в фармацевтической промышленности при разработке новых лекарственных препаратов.

 

Публикации

1. Марин, Егор; Ковалева, Маргарита; Кадукова, Мария; Мустафин, Халид; Хорн, Полина; Рогачев, Андрей; Мишин, Алексей; Гусков, Альберт; Борщевский, Валентин. Regression-based active learning for accessible acceleration of ultra-large library docking ACS Publications, - (год публикации - 2023) https://doi.org/10.1021/acs.jcim.3c01661

2. Хорн П.А., Лугинина А.П., Поспелов В.А., Дашевский Д.Е., Хныкин А.Н., Моисеева О.В., Сафронова Н.А., Белоусов А.С. , Борщевский В.И., Мишин А.В. Рациональная разработка лекарств, направленных на рецепторы, сопряженные с G-белкoм: взгляд со стороны структурной биологии Биохимия, - (год публикации - 2024)


Возможность практического использования результатов
Разработанный алгоритм ускоренного докинга представляет собой значительное достижение в области молекулярного моделирования. Этот алгоритм обеспечивает ускорение скрининга биомолекул в 50 раз по сравнению с классическими методами докинга, при этом не требуя использования видеокарт. Важно отметить, что скорость и эффективность алгоритма не уступают результатам традиционных методов. Результаты данного исследования открывают новые перспективы для более быстрого и эффективного поиска потенциальных лекарственных соединений и биологически активных молекул. Разработанный алгоритм ускоренного докинга позволяет существенно сократить затраты времени и ресурсов, что делает его важным инструментом для научных исследований и промышленных приложений в области фармацевтики и биоинформатики.