КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 17-15-01495

НазваниеРазработка биоинформатических методов для сравнительного анализа и функциональной аннотации репертуаров Т-клеточных рецепторов.

РуководительШугай Михаил Александрович, Кандидат биологических наук

Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Российский национальный исследовательский медицинский университет имени Н.И. Пирогова" Министерства здравоохранения Российской Федерации, г Москва

Период выполнения при поддержке РНФ 2017 г. - 2019 г. 

Конкурс№18 - Конкурс 2017 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 05 - Фундаментальные исследования для медицины, 05-402 - Медицинская генетика

Ключевые словаБиоинформатика, высокопроизводительное секвенирование, адаптивный иммунитет, Т-клеточный рецептор, антиген, HLA

Код ГРНТИ34.03.23


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
В последние десятилетия технологии высокопроизводительного секвенирования (HTS-технологии) сами стали одним из ключевых инструментов прикладных и фундаментальных исследований в геномике и медицине. Область применения HTS-технологий стремительно расширяется и сравнительно недавно получило развитие отдельное направление, позволяющее исследовать структуру и динамику адаптивного иммунитета с беспрецедентной точностью и глубиной (RepSeq). Rep-Seq подразумевает профилирование адаптивного иммунитета путем прочтения последовательностей ДНК T- рецепторов (TCR), кодирующих специфичность этих клеток адаптивного иммунитета к антигенам представленным молекулой главного комплекса гистосовместимости (MHC). Таким образом, репертуар последовательностей TCR содержит в себе исчерпывающие описание состояния адаптивного иммунитета донора, позволяющее оценить его способность формировать эффективный ответ против новых патогенов и выявлять возможные нарушения. Наша группа является одним из пионеров данной методологии которая к настоящему времени позволила множеству научных групп по всему миру получить миллионы последовательностей TCR для образцов крови вакцинированных доноров, доноров с известными хроническими вирусными заболеваниями, онкобольных, пациентов с аутоиммунными заболеваниями, а также различных субпопуляций клеток, например лимфоцитов из опухолевых инфильтратов. Несмотря на то, что Т-клеточные репертуары доноров имеют определенную степень гомологии, а также тот факт, что существует ряд так называемых публичных клонотипов, присутствующих у большого числа доноров, их сродство к определенному антигену известно лишь в единичных случаях. Кроме того, из-за стохастики процесса V-D-J перестановки, формирующего гены TCR, в большинстве случаев TCR специфичные к одному и тому же антигену найденные у различных доноров будут отличаться по первичной последовательности. Существующие на данный момент структурные данные также предполагают возможность значительных отличий в аминокислотной последовательности региона CDR3 у TCR специфичных к одному и тому же антигену, что осложняет реализацию поиска по базе данных известных антиген-специфичных вариантов (разрабатывается нами в рамках другого проекта) и сравнительный анализ репертуаров. Таким образом, существующие алгоритмы поиска гомологичных последовательностей непригодны для решения задачи поиска TCR со схожей антигенной специфичностью, требующей разработки новых оптимизированных биоинформатических методов. Отсутствие подобных методов для функциональной аннотации и сравнительного анализа последовательностей TCR значительно тормозят развитие всей отрасли и лимитируют применимость технологии RepSeq. В рамках данного проекта предлагается интегрировать существующие данные по последовательностям TCR с известной специфичностью, кристаллографические данные по комплексам TCR:антиген:MHC и данные высокопроизводительного секвенирования репертуаров TCR для создания биоинформатической платформы, позволяющей предсказывать антигенную специфичность TCR по первичной последовательности и выявлять группы TCR со схожей специфичностью среди негомологичных последовательностей TCR найденных у различных доноров. Кроме того, мы планируем провести сортировку Т-клеток с использованием технологии MHC-пептид-мультимеров с последующем секвенированием репертуаров мультимер-положительных и -отрицательных популяций. Это позволит нам исследовать индивидуальные распределения частот и разнообразие TCR, специфичных к выбранным антигенам. Подобная биоинформатическая платформа позволит впервые с момента создания технологии RepSeq получить исчерпывающую информацию по профилю антигенной специфичности адаптивного иммунитета отдельных доноров из данных высокопроизводительного секвенирования. Кроме того, новые методы сравнительного анализа Т-клеточных репертуаров разработанные в рамках предлагаемого проекта значительно упростят поиск биомаркеров TCR для когорт пациентов в случае когда соответствующие антигены неизвестны, что является особенно актуальным в исследованиях, связанных с аутоиммунными заболеваниями. Таким образом, решение данной задачи крайне актуально для фундаментальных исследований адаптивной иммунной системы, и, в перспективе, позволит транслировать технологию RepSeq в прикладные и клинические задачи, а также использовать RepSeq в стремительно развивающейся области персонализированной медицины.

Ожидаемые результаты
В результате данного научного исследования будет создан абсолютно новый и перспективный инструмент для анализа профилей адаптивного иммунитета, полученных с применением технологии высокопроизводительного секвенирования, позволяющий предсказывать антигенную специфичность Т-клеточных рецепторов и проводить сравнительный анализ образцов Т-клеточных репертуаров. Подобный инструмент, не имеющий на данный момент аналогов и крайне востребованный в своей области, несомненно найдет свое применение в фундаментальных исследованиях, исследованиях проводимых фармакологическими компаниями, и, в перспективе, в клинической практике. В процессе работы над предложенным проектом будет создана база структурных комплексов TCR:антиген:MHC содержащая информацию по контактирующим аминокислотные остаткам различных регионов и цепей TCR, а также база данных мутантных эпитопов связанных с эвазией иммунного ответа путем ухода отсвязывания TCR. Методология разработанная в рамках данного проекта позволит значительно увеличить количество информации извлекаемой из данных высокопроизводительного секвенирования иммунных репертуаров и представить ее в виде доступном биологам и иммунологам. Это будет продемонстрировано результатами применения обозначенных алгоритмов к большим наборам данных производимых в нашей лаборатории (на данный момент в нашем распоряжении имеются репертуары более 100 различных доноров) и сравнением этих результатов с полученными базовыми методами анализа данных RepSeq используемыми в настоящее время. Среди прочего, мы планируем проверить гипотезу, состоящую в том, что последовательности TCR специфичных к распространенным патогенам, таким как вирусы CMV и EBV, чаще встречаются в популяции чем те, что специфичны к сравнительно редким патогенам. Верификация методов предсказания специфичности TCR будет проводиться напрямую с использованием секвенирования репертуаров MHC-тетрамер положительных и отрицательных фракций T-клеток. В перспективе подобная методология сравнительного анализа и функциональной аннотации репертуаров TCR позволит идентифицировать последовательности ТCR характерные для различных инфекционных и аутоиммунных заболеваний, оценивать состояние адаптивного иммунитета при СПИД и оптимизировать разработку методов иммунотерапии рака, таких как аутологичная трансплантация антиген-специфичных Т-клеток. Таким образом, биоинформатическая платформа, разрабатываемая в рамках предложенного проекта, значительно упростит поиск биомаркеров для диагностики и стратификации и подбора терапии у пациентов при инфекционных, аутоиммунных и онкологических заболеваниях.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2017 году
Нами был разработан базовый алгоритм выравнивания аминокислотных последовательностей, оптимизированный для гипервариабельных участков Т-клеточного рецептора (ТКР). Оптимальная система скоринга для поиска гомологичных ТКР с точки зрения похожести их профилей антигенной специфичности была рассчитана по базе данных, содержащих более 5,000 уникальных последовательностей Т-клеточных рецепторов с известной специфичностью. Таким образом, была проведена оценка вероятности различных типов замен (и их отсутствия) для пар последовательностей ТКР, специфичных к одному и тому же и различным антигенам. Как показали наши результаты, использование оптимизированного метода выравнивания позволяет значительно улучшить предсказательную силу алгоритма по сравнению со стандартными матрицами скоринга выравниваний, таких как матрицы BLOSUM. Нами были также получены результаты аннотации большой группы образцов репертуаров бета цепи ТКР полученных путем секвенирования крови 786 здоровых доноров (из исследования Emerson et al. Nat Genet 2017). Анализ частоты более чем 5,000 уникальных последовательностей ТКР с известной специфичностью показал присутствие значительной вариабельности в популяционной частоте вариантов ТКР, специфичных к различным антигенам. Более детальное изучение этого феномена позволило выделить ряд характеристик эпитопов, таких как длина, объем и гидрофобность, коррелирующих с обнаруженными различиями в частоте специфичных ТКР. Эти результаты показывают, что иммуногенность эпитопов, обычно рассчитываемая с учетом биохимических характеристик последних, может быть напрямую ассоциирована с частотой прекурсоров специфичных Т-клеток. Данные и код, использованные для этого анализа доступны по адресу https://github.com/antigenomics/public-epitope. Следует отметить, что похожие результаты были получены и для анализа набора из эпитопов вируса иммунодефицита человека (ВИЧ). Этот анализ также показал что присутствие и разнообразие ВИЧ-специфичных последовательностей ТКР зависит от ряда характеристик донора, таких как возраст, наличие цитомегаловирусной инфекции и ВИЧ-протективных аллелей HLA. Мы разработали протокол для секвенирования репертуаров ТКР антиген-специфичных Т-клеток, который соединяет технологию сортировки на MHC-мультимеры и последующее высокопроизводительное секвенирование последовательностей ТКР согласно нашему оптимизированному протоколу (модифицированная версия протокола ранее опубликованного в Turchaninova et al. Nat Prot 2016). На данном этапе проекта мы получили данные секвенирования альфа и бета цепей ТКР для A02-NLV специфичных Т-клеток из 7 доноров, для 3 из которых также был просеквенирован контрольный образец крови. Наш анализ показывает, что уровень контаминации, измеряемый как частота вариантов ТКР обогащенных в контрольных образцах, находится ниже отметки в 1% для MHC-мультимер положительных образцов. Было обнаружено, что разнообразие репертура (рассчитанное путем подсчета числа уникальных клонотипов и индекса Джини) A02-NLV специфичных Т-клеток значительно изменяется в зависимости от донора. Более того, большинство A02-NLV специфичных ТКР в некоторых донорах оказались новыми вариантами, ранее не зарегистрированными в базе данных последовательностей ТКР с известной специфичностью, что подчеркивает дальнейшую необходимость разработки биоинформатических методов нацеленных на улучшение чувствительности алгоритма аннотации последовательностей ТКР.

 

Публикации

1. Елисеев А. В., Федорова А. Д., Лебедин М. Ю., Чудаков Д. М., Шугай М. А. Оценка числа ВИЧ-специфичных Т-лимфоцитов у здоровых доноров по данным высокопроизводительного секвенирования репертуаров Т-клеточных рецепторов Вестник Российского государственного медицинского университета, 5, 2017, p.81-87 (год публикации - 2017)

2. Алексей Елисеев, Дмитрий М. Чудаков, Михаил Шугай Comparative analysis of V-­D-­J rearrangement junction sequences that encode T-cell receptors recognizing similar and distinct antigens. Moscow Conference on Computational Molecular Biology (MCCMB), July 27-30, 2017. (год публикации - 2017)

3. Рудольф Лайко, Вадим Назаров, Михаил Шугай Convolutional architecture for prediction of peptide-MHC binding affinities Moscow Conference on Computational Molecular Biology (MCCMB), July 27-30, 2017. (год публикации - 2017)


Аннотация результатов, полученных в 2018 году
На данном этапе проекта, нами было проведено широкомасштабное моделирование структур Т-клеточный рецептор(ТКР):пептид:МНС (TCR:pMHC) используя шаблонные структуры из базы данных PDB и гомологичные последовательности ТКР, для которых была показана специфичность к тем же эпитопам методом сортировки на МНС-тетрамеры. Всего нами было рассчитано 498 высококачественных структур, полученных с использованием 172 шаблонов из PDB, для которых была проведена проверка качества и аннотация, а также добавлены отсутствующие остатки. Анализ геометрии полученных комплексов TCR:pMHC позволил нам определить распределения допустимых координат центров масс, главных осей инерции и эйлеровых углов для различных компонент комплексов. Кроме того, полученные данные были использованы для сравнения контактирующих остатков эпитопа между различными вариантами специфичных ТКР, а также профили аминокислотных замен для контактирующих и не контактирующих остатков региона CDR3 ТКР. Нами был также продолжен анализ частот антиген-специфичных ТКР и их мотивов в репертуарах здоровых доноров, и было показано, что вероятностная модель процесса VDJ-перестановки позволяет точно предсказывать наблюдаемые популяционные частоты ТКР. Для проверки гипотезы о корреляции популяционных частот ТКР и иммуногенности соответствующих эпитопов, нами был разработан метод оценки иммуногенности, включающий в себя классификатор и тренировочный набор данных из работы Chowell et al. Данный классификатор позволил перейти от качественных (да/нет) оценок иммуногенности к количественным оценкам. Как опубликовано в работе Pogorelyy et al. Genome Medicine 2018, нами было продемонстрировано, что более иммуногенные эпитопы ассоциированы с более высокой частотой распознающих ТКР. Используя наработки в анализе частот антиген-специфичных ТКР, нами был разработан алгоритм поиска мотивов ТКР для антиген-специфичных клональных экспансий TCRNET. Данный алгоритм основан на расчете и сравнения числа ближайших соседей для рассматриваемого ТКР в исследуемом и контрольном образцах, при этом ближайшие соседи определяются по гомологии последовательности региона CDR3, а ТКР “обогащенные” по числу соседей используются как базовые узлы для построения мотивов. Этот метод был успешно применен для детекции и изучения специфичных и фоновых/полиреактивных клональных экспансий Т-фолликулярных хелперных клеток у мышей вакцинированных собственными и чужеродными антигенами (результаты опубликованы в работе Rivto et al. 2018 PNAS). Нами было также показано, что метод TCRNET может быть использован для поиска HLA-рестрицированных клональных экспансий и CMV-специфичных Т-клеточных рецепторов в репертуарах систематически здоровых доноров. Данные результаты были доложены в приглашенном выступлении “Applying the database of epitope-specific T-cell receptor sequences to immune repertoire data analysis” и практическом семинаре “T-cell repertoire annotation and motif discovery: A RepSeq data analysis tutorial in R”, прошедшими в рамках конференции Stochasticity and Control in Adaptive Immune Repertoires (2nd SCAIR meeting, 28-31 Октябрь 2018, Париж, Франция). Имплементация метода TCRNET в пакете анализа данных секвенирования ТКР VDJtools была также опубликована в препринте Pogorelyy et al. “Detecting T-cell receptors involved in immune responses from single repertoire snapshots” 2018 (arXiv). Используя разработанный статистический подход для анализа мотивов ТКР, мы также смогли продемонстрировать, что для большого числа известных эпитопов существует более одного различного мотива распознающих ТКР. Данные наблюдения еще раз подчеркивает сложность решаемой проблемы и предполагает, что для разработки эффективного метода классификации ТКР необходимо учитывать как вероятность случайных совпадений гомологичных ТКР (как в методе TCRNET), так и предположение о наличие нескольких возможных паттернов для одного и того же эпитопа. Основываясь на этих наблюдениях, нами была имплементирована метрика информативности, позволяющая учитывать вероятность случайных совпадений с базой последовательностей ТКР, а также процедуру выбора лучшего совпадения. Полученный метод (VDJmatch) показал более высокую точность чем ранее опубликованные методы TCRdist и GLIPH в сравнениях, проведенных используя полученные данные по МНС-тетрамер сортированным Т-клеткам, специфичным к эпитопам вируса желтой лихорадки и человеческим неоантигенам MLANA и BST2.

 

Публикации

1. Погорелый МА, Федорова АД, МакЛарен ДЕ, Ладелл К, Багаев ДВ, Елисеев АВ, Микелов АИ, Конева АЕ, Звягин ИВ, Прайс ДА, Чудаков ДМ, Шугай М Exploring the pre-immune landscape of antigen-specific T cells Genome Medicine, - (год публикации - 2018) https://doi.org/10.1186/s13073-018-0577-7

2. Ривто ПГ, Саадави А, Бареньес П, Кинью В, Чара В, Эль-Суфи К, Боннет Б, Сикс А, Шугай М, Мариотти-Фернандиз Э, Клацман Д High-resolution repertoire analysis reveals a major bystander activation of Tfh and Tfr cells Proceedings of the National Academy of Sciences of the United States of America, - (год публикации - 2018) https://doi.org/10.1073/pnas.1808594115


Аннотация результатов, полученных в 2019 году
Нами было проведено моделирование более чем тысячи структур комплексов Т-клеточный рецептор - пептид - главный комплекс гистосовместимости человека (ТКР-пептид-МНС). Полученные результаты стали основой для создания базы данных структур ТКР, распознающих антигены, связанные с распространенными инфекционными заболеваниями. Кроме того, был проведен статистический анализ полученной базы структур, что позволило выявить ряд закономерностей в физикохимических свойствах контактирующих аминокислотных остатков ТКР и антигена. Была проведена оценка подходов молекулярного докинга молекул TКР и MHC:пептид для моделирования тройных комплексов. Для проверки была использована известная структура комплекса. Анализ 2000 полученных конформаций показал, что использование оценочных функций Rosetta позволяет выделить приемлемые структуры только при использовании начальных структур молекул, взятых из исследуемой известной структуры комплекса. При использовании вариабельных начальных конформаций (ансамблей) молекул, полученных при помощи релаксации структур, и стандартных протоколов Rosetta, лучшие по значениям оценочной функции модели комплексов получались с низкими значениями индексов CAPRI, что указывало на плохое качество построенных структур. Анализ среднеквадратичных отклонений показал, что полученные с использованием такого протокола структуры значительно отличались от известного комплекса, который использовался для проверки. Таким образом, было показано, что для успешного применения молекулярного докинга при моделирования структур TКР:MHC:пептид de novo требуется серьезная доработка стандартных подходов. Были получены результаты анализа конформаций гетеродимера альфа и бета цепей ТКР, определены ключевые контактирующие позиции и закономерности в частотах аминокислот в них, связанные со спариванием различных вариантов альфа и бета цепей ТКР. Было показано, что спаривание альфа и бета цепей ТКР в репертуарах неселектированных Т-клеток является случайным, что приводит к максимально возможному разнообразию гетеродимеров, необходимому для эффективной работы адаптивного иммунитета. При этом, случайность спаривания цепей ТКР позволяет выявлять группы клонов Т-клеток, содержащих инвариантные ТКР либо ТКР, специфичные к определенному антигену, на основе статистического анализа частот пар V/J сегментов цепей ТКР. Была составлена база высококачественных мотивов ТКР Т-клеток, распознающих конкретные антигены представленные достаточным числом записей в базе данных VDJdb. Разработанный веб интерфейс базы мотивов доступен по адресу https://vdjdb.cdr3.net/motif. Полученная база данных позволяет с большой точностью идентифицировать Т-клетки, специфичные к определенным антигенам, а также выявить ключевые аминокислотные остатки региона CDR3, необходимые для распознавания антигена. Был разработан и апробирован биоинформатический пайплайн для de novo поиска групп гомологичных последовательностей ТКР, распознающих один и тот же антиген, с последующей аннотации полученных групп используя последовательности ТКР из базы данных VDJdb. Разработанный пайплайн оформлен в виде интерактивного туториала, доступного в GitHub репозитории по адресу https://github.com/antigenomics/tcr-annotation-methodology, данный код может быть с легкостью адаптирован под конкретную задачу по анализу данных высокопроизводительного секвенирования репертуаров ТКР. Был также разработан веб-интерфейс для аннотации больших объемов данных секвенирования репертуаров ТКР, доступный по адресу https://vdjdb.cdr3.net/annotations/. Была значительно расширена база данных VDJDB путем обработки и добавления большого массива данных single-cell секвенирования антиген-специфичных Т-клеток, недавно опубликованного компанией 10X Genomics, а также данных от наших коллабораторов. Это позволило увеличить объем базы данных до 60 тыс. записей, доступных по ссылке https://github.com/antigenomics/vdjdb-db.

 

Публикации

1. Багаев ДВ, Вруманс РМА, Самир Дж, Стервбо У, Риус К, Долтон Г, Гриншилд-Вотсон А, Аттаф М, Егоров ЕС, Звягин ИВ, Бабел Н, Коул ДК, Годкин АДж, Сьювелл АК, Кесмир К, Чудаков ДМ, Лучиани Ф, Шугай М VDJdb in 2019: database extension, new analysis infrastructure and a T-cell receptor motif compendium Nucleic Acids Research, - (год публикации - 2019) https://doi.org/10.1093/nar/gkz874

2. Погорелый М.В., Шугай М.А. A Framework for Annotation of Antigen Specificities in High-Throughput T-Cell Repertoire Sequencing Studies Frontiers in Immunology, - (год публикации - 2019) https://doi.org/10.3389/fimmu.2019.02159

3. Погорелый МВ, Минервина АА, Шугай МА, Чудаков ДМ, Лебедев ЮБ, Мора Т, Вальцзак АМ Detecting T cell receptors involved in immune responses from single repertoire snapshots PLoS Biology, - (год публикации - 2019) https://doi.org/10.1371/journal.pbio.3000314

4. Щербинин ДС, Шугай МА Construction of TCR’s CDR3 loops conformations using in silico step-by-step single amino acid mutation approach. Proceedings of 9th Moscow Conference on Computational Molecular Biology МССМВ'19, - (год публикации - 2019)


Возможность практического использования результатов
Результаты данного проекта могут быть использованы для создания платформы по диагностике и предсказанию течения вирусных, аутоиммунных и онкологических заболеваний на основе индивидуальных профилей репертуаров Т-клеточных рецепторов пациентов. На основе полученных результатов может быть создана технология по предсказанию эффективных терапевтических мишеней в случае вакцинации и/или противоопухолевой иммунотерапии, а также выявление собственных антигенов человека, вовлеченных в аутоиммунные заболевания.