КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 21-47-04405

НазваниеРазработка методов структурной масс-спектрометрии для глубокого сравнения природного органического вещества на уровне индивидуальных молекулярных составов

РуководительКононихин Алексей Сергеевич, Кандидат физико-математических наук

Прежний руководитель Жеребкер Александр Яковлевич, дата замены: 24.08.2023

Организация финансирования, регион Автономная некоммерческая образовательная организация высшего образования «Сколковский институт науки и технологий», г Москва

Период выполнения при поддержке РНФ 2021 г. - 2023 г. 

Конкурс№43 - Конкурс 2020 года «Проведение фундаментальных научных исследований и поисковых научных исследований международными научными коллективами» (DFG).

Область знания, основной код классификатора 07 - Науки о Земле, 07-209 - Биогеохимия и органическая геохимия

Ключевые словаПриродное органическое вещество, масс-спектрометрия сверхвысокого разрешения, масс-спектрометрия с преобразованием Фурье, спектроскопия ядерного магнитного резонанса, структурный анализ, изотопное мечение, фрагментация в ячейке, тандемная масс-спектрометрия, сбор данных

Код ГРНТИ31.19.00, 38.33.25


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Основной целью предлагаемого проекта является разработка нового подхода к исследованию отдельных компонентов природного органического вещества (ПОВ) на структурном уровне. ПОВ играет важную роль в глобальном цикле углерода, но его молекулярная сложность препятствует глубокому исследованию его роли в окружающей среде и связи между молекулярным составом и происхождением. Современные биогеохимические исследования ПОВ с помощью масс-спектрометрии сверхвысокого разрешения, например, МСИЦР ПФ, ограничены представлением о ПOВ, как о совокупности только молекулярных составов, и часто выводы о реакционной способности основаны на косвенной информации о структуре, получаемой из соотношения элементов. Кроме того, были опубликованы противоречивые данные о степени структурного разнообразия в ПОВ и о том, обладают ли ПОВ из разных сред общими структурными мотивами. Это фундаментальное обсуждение лежит в основе биогеохимических исследований, но для того, чтобы глубже изучить особенности образования, реакционной способности и судьбу ПОВ в окружающей среде, необходимо перейти от молекулярного анализа ПОВ на уровне брутто-формул к химическим структурам. В предлагаемом проекте будет использоваться мощная комбинация селективного изотопного мечения функциональных групп и углеродного скелета, фрагментации ионов в ячейке ИЦР и методов хемоинформатики для предложения структурных фрагментов ПОВ на уровне индивидуальных молекулярных составов. С этой целью карбоксильные, карбонильные и фенольные группы в индивидуальных компонентах ПОВ будут определены с помощью комбинации МСИЦР ПФ и реакций дейтерометилирования, восстановления и ацилирования, соответственно. Дополнительные пути для мечения углеродного скелета будут также предложены по результатам применения двумерной спектроскопии ЯМР. В то же время будут определены деревья фрагментации и матрица нейтральных масс при фрагментации в ячейке ИЦР предварительно изолированных ионов с последующей неконтролируемой кластеризацией образцов для оценки степени структурного сходства между ПОВ, выделенных из разных сред. Методы обработки данных будут адаптированы, как к результатам изотопного мечения, так и к экспериментам тандемной масс-спектрометрии. Применение хемоинформатических подходов и in silico поиска результатов МСИЦР ПФ в химических базах данных позволит разработать инструмент для генерации структур, близких к конкретным соединениям в исследуемых образцах ПОВ. Разработанные методы будут использованы для проверки гипотезы о том, что структуры молекулярных компонентов ПОВ в значительной мере зависят от источника происхождения и определяются биогеохимическими условиями. Как следствие, молекулярные структуры ПОВ различаются в зависимости от окружения и могут быть использованы для восстановления биогеохимической истории (палеореконструкции) и прогнозирования реакционной способности ПОВ. Предложенный проект и подходы позволят преодолеть существующее ограничение в исследовании биогеохимии ПОВ, открывая возможность для построения количественных моделей структура-активность для индивидуальных молекулярных компонентов ПОВ. Разработанные методы и подходы могут стать новым стандартом в биогеохимических исследованиях ПОВ и будущих исследованиях цикла углерода.

Ожидаемые результаты
В результате выполнения проекта ожидаются следующие основные результаты: 1) Будут изучены молекулярные составы образцов ПОВ, выделенные из различных источников с градиентом возраста/степени трансформации. Методом МСИЦР ПФ будут выявлены общие и уникальные компоненты, характеристичные для ПОВ с различной степенью трансформации. Будет получена связь молекулярных составов с оптическими свойствами ПОВ. Полученные результаты могут быть использованы, как база для дальнейшего исследования органического вещества арктического региона. 2) Будет получена подробная зависимость вклада структурных фрагментов ПОВ, определяемых методами двумерной спектроскопии ЯМР, от источника происхождения. Будут предложены рекомендации по набору селективных реакций изотопного мечения для исследования ПОВ на уровне индивидуальных молекулярных составов. 3) Будут разработаны методы селективного введения изотопных меток для определения функциональных групп, углеродного скелета и расположения заместителей в ароматических кольцах. С помощью комбинации реакций будет показано соответствие общих брутто-формул ПОВ различным классам органических соединений. Разрабатываемые методы могут быть использованы для изучения различных сложных смесей, метаболитов и биологических-активных субстанций для выяснения их структурных особенностей и предсказания реакционной способности. 4) Будет предложена и оптимзирована методика по фрагментации индивидуальных компонентов ПОВ в ячейке ИЦР. Получение основных фрагментов ионов ПОВ и подсчет нейтральных потерь массы позволит провести кластеризацию образцов по спектрам фрагментации и оценить степень сходства образцов ПОВ из различных источников. Будут подобраны условия для многоступенчатой фрагментации ионов ПОВ для более глубокого изучения их структуры. 5) Будет разработан алгоритм для автоматической обработки результатов изотопного мечения с помощью статистики дефекта масс Кендрика и библиотечного поиска. Будут даны рекомендации по выравниванию масс-спектров исходных и меченых ПОВ и оценке распределения пиков внутри одной серии мечения. 6) Будет дана первичная оценка изомерной сложности образцов ПОВ по результатам жидкостной хроматографии с МСИЦР ПФ. Будет проведено разделение компонентов ПОВ с разным количеством изотопномеченных функциональных групп. 7) Будет разработан метод in silico поиска структурных кандидатов ПОВ в базе данных PubChem, KEGG и ChEMBL, удовлетворяющих результатам изотопного мечения и фрагментации. Будет создан прототип базы структур ПОВ. Будет дана оценка изомерной сложности образцов ПОВ с различной степенью трансформации. 8) Будет разработан метод целевой генерации молекулярных структур, основанный на проекции химических структур на плоскость и подсчете индекса сходства с соединениями из базы данных PubChem. Разрабатываемый подход может быть использован для исследования различных сложных смесей, в том числе для улучшения переработки тяжелых фракций нефтей и в качестве дерепликационной стратегии при исследовании биологически активных природных экстрактов.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2021 году
За первый год работы проведены все запланированные работы и получены следующие результаты: 1) Собрана коллекция образцов кернов в пределах плоско-бугристо-мочажинных комплексов на торфяных олиготрофных почвах, торфяных олиготрофных деструктивных почвах и мочажин. Для исследования в рамках проекта были выделены фракции гуминовых веществ (ГВ), а также водные вытяжки (ПОВ). Все разрезы включали как сезонно-талый слой (СТС), так и многолетнемерзлые породы (ММП). По профилям было замечено уменьшение массового отношения H/C с увеличением глубины и, в случае одного разреза, возраста. Был сделан вывод, что это связано с изменением ботанического состава торфа и увеличением доли травянистой растительности на глубине от 60 см и древесной растительности в нижних торфяных горизонтах. В итоге, данный объект был выбран для применения разрабатываемых в проекте методов исследования ПОВ, так как в силу значительного градиент условий осадконакопления, ожидаются различия в структуре компонентов ПОВ разного возраста. 2) Было проведено сравнение результатов, получаемых с помощью масс-спектрометрии с преобразование Фурье (МСПФ) на приборах, находящихся в распоряжении обеих команд. Сравнение проводили на трех образцах, анализ которых можно проводить без применения дополнительной пробоподготовки: два стандарта IHSS, выделенные из реки Суванни – SRFA, SRHA, и стандартный образец фульвокислот (ФА) дерново-подзолистых почв – SFA-Pd. Полученные растворы анализировали на приборах ионного циклотронного резонанса с преобразованием Фурье (МСИЦР ПФ) FT MS Bruker Apex Ultra, оснащенном сверхпроводящим магнитом 7 Т и масс-спектрометре solariX XR, оснащенном сверхпроводящим магнитом 12T. Оба приборы оснащены ячейкой ИЦР с динамической гармонизацией. Спектры были получены при стандартных условиях, принятых в лабораториях и на приборе немецкой команды, но с измененными настройками для получения спектров близких тех, что получает российская команда. Оказалось, что изменение времени накопления ионов, радиуса возбуждения ионов в ячейке ИЦР, давления в столкновительной ячейке и некоторых других позволяет получить большее количество общих элементных составов, который достигал 85% относительно лаборатории российской команды для стандартного образца SRFA. Однако было выяснено, что изменение условий регистрации спектров приводило к регистрации множества новых уникальных ионов, который уменьшают долю пересечения молекулярных составов с двух приборов. 3) В рамках проекта был предложен новый подход обработки данных МС ПФ. Был написан компьютерный код, который позволяет оперировать разницами формул. Первая реализованная имплементация включала подсчет частоты встречаемости разниц масс и сравнения полученных векторов косинусной метрикой. Результаты сравнения показали, что несмотря на присутствие выбросов, на выбранном датасете одинаковые образцы группировались вместе, согласно происхождению, независимо от прибора. Вторая имплементация состояла в рассмотрении списка формул в образце в виде графа, узлами которого являются молекулярные составы с соответствующими интенсивностями ионов, причем каждый узел имеет соседа, отстоящего на избранную молекулярную разницу. Для сравнения таких графов в проекте была введена мера связанности компонентов графа, включающая подсчет математического ожидания длины компонент связности молекулярного графа, где все узлы связаны определенной разницей. Был разработан алгоритм попарного сравнения в введенной нами метрики математического ожидания длины связанности графов, построенных для общих уникальных разниц, между молекулярными списками, полученными для одного и того же образца. Используя разработанный подход на основе математического ожидания длин компонент связности, оказалось возможно провести однозначное соответствие между списком молекулярных составов (образцом) и происхождением независимо от прибора. Результаты работы были представлены в виде стендового доклада на 69й международной конференции Американского Масс-спектрометрического общества. 4) В рамках проекта были исследованы молекулярные составы 33 образцов ПОВ, выделенных из кернов комплексов торфяных олиготрофных почв. Спектры регистрировались на масс-спектрометре ИЦР ПФ. В результате, было идентифицировано 8581 уникальных брутто-формул, присутствующих хотя бы в одном образце. Для анализа массива данных применялся метод главных компонент (МГК) и подсчет метрик Жаккара и Танимото, как было предложено в предыдущей работе руководителя проекта. Методом главных компонент были выявлены 2 тысячи важных формул, которые определяют различия образцов многолетнемерзлых пород (ММП) от сезонно-талых слоев (СТС). Причем образцы СТС не образовывали отличительных кластеров при подсчете статистических метрик. Распределение образцов по классам (в основном, ароматические и неароматические соединения) показало больший вклад ароматики в образцы ММП, что согласуется с результатами элементного анализа. Для одного разреза торфяной олиготрофной почвы были получены данные по возрасту органического углерода. Анализ интенсивностей ионов в масс-спектрах с приписанными формулами показало наличие 1300 формул со значимой положительной или отрицательной корреляцией с возрастом. Было выяснено, что значительную отрицательную корреляцию имеют формулы, которые в литературе часто относят к лигнинам. В случае исследуемых образцов это противоречило условиям формирования образцов: более старые формировались при участии высших растений, и корреляция должна была быть только положительной. Был сделан вывод, что данные компоненты не относятся к лигнинам, а представляют собой другие классы органических соединений. 5) Был предложен новый способ расчета индекса ароматичности AIcon, который позволяет надежно оценить среднюю ароматичность молекулы, исходя из её элементного состава. Для этого была проведена оценка содержания карбоксильных групп в индивидуальных компонентах 11 образцов ПОВ различного происхождения методом дейтерометилирования: уголь, торф, реки, почвы, поверхностная морская вода, вечная мерзлота и синтетический образец. Для автоматического приписывания количества карбоксильных групп был написан скрипт на языке Python и предложены эвристические правила, позволяющие повысить точность автоматической обработки спектров для подсчета количества карбоксильных групп. Было выяснено, что в индивидуальных компонентах ПОВ разного происхождения 2 СООН-группы были наиболее вероятны. Сравнение такого индекса с индексом, полученным из экспериментального подсчета СООН-групп показала наименьшую среднюю ошибку на всем массиве данных и отдельно на классах ароматических и ненасыщенных соединений. Был сделан вывод о целесообразности замены существующего индекса ароматичности на предложенный в настоящем проекте при любых скрининговых исследованиях ПОВ. Результаты работы представлены в виде стендового доклада на 69й международной конференции Американского Масс-спектрометрического общества. По результатам работы подготовлена научная статья в высокорейтинговый журнал Environmental science and technology (2 раунд рецензирования). 6) Для оценки адекватности отнесения структур ПОВ к ароматическим и неароматическим по индексу ароматичности в рамках проекта был предложен метод мягкого бромирования N-бромсукцинимидом (NBS) в ацетонитриле. Реакция и анализ данных проводились на 4х образцах различного происхождения, которые составили градиент от ароматического ПОВ угля до преимущественно неароматического ПОВ едомы бассейна р. Колыма. В результате количества атомов брома в структурах варьировалось от 0 до 3. Образцы терригенного происхождения оказались чувствительны к бромированию, а в образце ПОВ вечной мерзлоты доля реагирующих компонентов была крайне мала. Анализ распределения эквивалентов двойных связей также позволил отличить вхождение нескольких атомов брома в одно ароматическое кольцо от полиароматических соединений. Было выяснено, что речной образец содержал максимальное количество полибромированных колец, в то время как ПОВ угля был представлен полиароматическими соединениями. Было также показано, что несмотря на некоторые ограничения, индекс позволил правильно присвоить большую часть формул к неароматическим или ароматическим соединениям. Некоторые компоненты по индексу были отнесены к ароматическим и даже конденсированным соединениям, однако они не подвергались бромированию. С помощью построения диаграмм Кендрика по основанию H2 было показано, что эти соединения можно отнести к хинонам, которые лишены ароматических систем. Результаты работы были представлены в виде стендового доклада на Шестой Международной конференции СНГ МГО по гуминовым инновационным технологиям (HIT 2021) «Гуминовые вещества и экоадаптивные технологии». 7) Был разработан новый метод визуализации спектров фрагментации органических соединений в виде проекций исследуемых молекулярных структур на двумерную плоскость. Метод базировался на технологии параметрического t-SNE. В рамках данного метода обучалась параметрическая нейросетевая модель, которая принимала на вход бинаризованный вектор масс-спектров, а на выходе выдавала координаты точек на двумерной плоскости. Основной особенностью метода являлось использование специализированной функцией потерь при обучении нейронной сети. На базе программы предсказания спектров фрагментации CFM-ID было создано прикладное программное обеспечение для параллельного расчета масс-спектров фрагментации с использованием высокопроизводительных вычислительных кластеров. С использованием данного ПО были построены базы фрагментации в режимах положительных и отрицательных ионов для базы биоактивных соединений ChEMBL (более 1 миллиона структур) и природных соединений CoCoNut (более 100 тысяч). Создано прикладное ПО для хранения рассчитанных спектров в реляционной базе данных, а также статистического анализа наиболее типичных пиков в масс-спектрах. С использованием данного ПО и нейронной сети были построены модели параметрического t-SNE для баз ChEMBL и CoCoNut для 3-х энергий ионизаций как в режиме положительных, так и в режиме отрицательных ионов (всего 6 моделей). Используя подвыборки вычисленных при помощи CFM-ID спектров фрагментации было показано, что спроецированные соединения группируются в отличительные кластеры, причем соединения в данных кластерах обладают структурным сходством.

 

Публикации

1. Жеребкер А.Я., Костюкевич Ю.И., Волков Д.С., Чумаков Р.Г., Фридеричи Л., Рюгер К.П., Кононихин А., Харыбин О., Корочанцев А., Зиммерманн Р., Перминова И.В., Николаев Е. Speciation of organosulfur compounds in carbonaceous chondrites Scientific reports, Т. 11, стр. 7410 (год публикации - 2021) https://doi.org/10.1038/s41598-021-86576-6

2. Костюкевич Ю., Осипенко С., Риндин К., Жеребкер А., Ковалева О., Румянцева Л., Борисова Л., Борисова Н., Власкин М.С., Николаев Е. Analysis of the Bio-oil Produced by the Hydrothermal Liquefaction of Biomass Using High-Resolution Mass Spectrometry and Isotope Exchange Energy Fuels, 2021, 35, 15, 12208–12215 (год публикации - 2021) https://doi.org/10.1021/acs.energyfuels.1c01649

3. Михневич Т.А., Вяткина А.В., Григоренко В.Г., Рубцова М.Ю., Рухович Г.Д., Летарова М.А., Кравцова Д.С., Владимиров С.А., Орлов А.А., Николаев Е.Н., Жеребкер А.Я., Перминова И.В. Inhibition of Class A β‑Lactamase (TEM-1) by Narrow Fractions of Humic Substances ACS Omega, 2021, 6, 23873−23883 (год публикации - 2021) https://doi.org/10.1021/acsomega.1c02841

4. Тюрин А.П., Алферова В.А., Парамонов А.С., Шувалов М.В., Кудрякова Г.К., Рогозин Е.А., Жеребкер А.Я., Брылев В.А., Чистов А.А., Баранова А.А., Бирюков М.В., Иванов И.А., Прохоренко И.А., Грамматикова Н.Е. и др. Gausemycins A,B: Cyclic Lipoglycopeptides from Streptomyces sp. Angewandte Chemie, 60, 18694–18703 (год публикации - 2021) https://doi.org/10.1002/anie.202104528

5. Михневич Т.А.,Зайцев К.В., Перминова И.В., Жеребкер А.Я. Assessment of Formula-Based Structural Annotation of Humic Substances by Mild Chemical Derivatization and Mass Spectrometry Book of Abstracts Sixth International Conference of CIS IHSS on Humic Innovative Technologies «Humic Substances and Eco-Adaptive Technologies» (HIT-2021) September 25-29, 2021, Moscow, Russia, стр. 57 (год публикации - 2021) https://doi.org/10.36291/HIT.2021.mikhnevich.002


Аннотация результатов, полученных в 2022 году
За второй год работы проведены все запланированные работы и получены следующие результаты: 1) Разработана методика получения замещенных по карбоксильным группам образцов ПОВ с сохранением ионизируемых функциональных групп. В качестве стратегии синтеза предложено мягкое амидирование образца 15N-меченым глицином. Реакцию проводили для стандартного образца – SRDOM. Полученный образец исследовали с помощью МСИЦР ПФ. Масс-спектры регистрировались с предварительно квадрупольной изоляцией в трех массовых диапазонах, покрывающих значения m/z 300-500, что соответствует максимум распределения исходного образца. Результирующий масс-спектр был обработан, используя разработанный на предыдущем этапе Python алгоритм поиска серий мечения. Количество карбоксильных групп определяли по сериям пиков с разницей m/z 58.018499, что соответствовало реакции. 2) Было проведено сравнение результатов дейтерометилирования и амидирования для стандартного образца ПОВ. Было обнаружено, что по индексу ароматичности введенному в данном проекте, компоненты, для которых с помощью амидирования было обнаружено больше карбоксильных групп, были неароматическими. Был сделан вывод о большей информативности метода амидирования для исследования карбоновых кислот в составе ПОВ без других ионизируемых групп: жирные и алифатические кислоты. Результаты сравнения также указывали на присутствие С-Н кислых компонентов в составе SRDOM. Это сильно ограничивает список возможных изомеров для этих компонентов. 3) Был определен ботанический состав торфа болотного массива экотона северная тундра – южная тундра для одного разреза верхнего течения р. Коротаиха, водораздел рек Падимей-Ты-Вис и Коротаиха, НАО. Проведен анализ данных по торфонакоплению. Были далее получены данные по степени разложения торфа, вкладу травянистых растений и мха в ботанический состав почвы, в том числе для 7 глубин из горизонтов I-VI, для которых исследовано ПОВ. Степень разложения торфа варьировалась от 25% до 40%, и была максимальной в горизонте III (70-90 см). Для этого же керна наблюдалось минимальное содержание мха. Анализ данных показал отсутствие корреляции между глубиной и характеристиками торфа. Была проведена корреляция между данными молекулярного состава образцов ПОВ разреза, степенью разложения торфа и вкладу мха и травянистых растений. Для выбранных трех параметров были найдены тысячи формул со значимой (>0.7 по абсолютному значению) корреляцией. Из них 650 формул обладали значимой положительной или отрицательной корреляцией во всех трех случаях. Было обнаружено, что со степенью разложения торфа отрицательно коррелирует содержание окисленных компонентов с низкими значениями атомных отношений H/C. Это подтверждало анаэробный механизм разложения торфа. Содержание этих же компонентов положительной коррелировало с вкладом мха. Был сделан вывод, что эти компоненты являются продуктами разложения мха и вторичными метаболитами, предположительно таннинами. 4) Для всех образцов разреза Р-2017-1 проведены реакции дейтерометилирования и мягкого бромирования. Так как образец 4789 (горизонт III) обладал максимальной степенью разложения торфа, был сделан фокус на структурных особенностях его индивидуальных компонентов. Анализ результатов бромирования показал, что 75% соединений не включали ароматических колец. Это было справедливо для положительной и отрицательной корреляций. Анализ серий дейтерометилирования показал различия между компонентами, содержание которых зависело от степени разложения во всей выборке. Положительно коррелирующие компоненты были значительно менее кислотными по сравнению с теми, что коррелировали отрицательно. Таким образом был сделан вывод, что в результате разложения торфа накапливаются неароматические низкокислотные компоненты, и подвергаются деструкции неароматические поликарбоновые кислоты. 5) В рамках проекта разработан подход по построению химических карт по спектрам фрагментации. На первой стадии получали эмбеддинги (векторных представлений спектров) с помощью сиамской нейронной сети MS2DeepScore. Далее применяли алгоритм машинного обучения для предсказания класса органических соединений по полученным эмбеддингам. В результате работы параметры исходной сети были изменены, увеличен размер эмбеддингов. Обучение проводили на предсказанных in silico спектрах фрагментации природных соединений из базы Coconut. В качестве признака для построения химической карты были выбраны уровни таксономии соединений, полученной с помощью алгоритма ClassyFire, использующий для предсказания класса цифровой код структуры InChiKey. С помощью ClassyFire удалось получить химические классификации для более чем 170 тысяч веществ из Coconut. Для определения качества эмбеддингов, полученных с помощью нейронной сети, производилась классификация веществ алгоритмом машинного обучения случайный лес. После обучения алгоритма случайного леса подсчитывалась метрика BA (сбалансированная аккуратность) лучшей модели, которая получается с помощью повторяющейся кросс-валидации. Для визуализации химического пространства использовали алгоритм генеративного топографического картирования (GTM). Результаты обучения проверяли на экспериментальных масс-спектрах из базы данных GNPS для 14 тысяч соединений. Для модели, полученной в проекте, BA достиг 0.62 для пренол-липидов и 0.57 для карбоновых кислот. Из этого следует, что удалось улучшить изначальную модель. Карты GTM химического пространства для улучшенной модели позволяли выделить область этих классов, и результат был похож на карту, построенную по полным структурам (фингерпринтам). 6) Для сравнения химического подобия групп соединений был реализован алгоритм SEA (англ. similarity ensemble approach). Полученный алгоритм был применен для оценки химического подобия групп соединений из базы Coconut, которые соответствовали брутто-формулам, соединенным гомологичными сериями H2, CO2, H2O, CH2. Было выяснено, что формулы, соответствующие гомологичной серии СН2 характеризуются максимальными значениями Z-score в диапазоне масс 200-500 Да, причем высокие значения Z-score сохранялись вплоть до 9 члена гомологичной группы. В том время как для СО2, Н2 и Н2О значения падало к третьему члену серии. Был сделан вывод о том, что при поиске структурного кандидата в базе данных нет необходимости совпадения массы соединения, и химический класс или аннотацию проводить, опираясь на данные масс-спектрометрии для гомологов, отличающихся вплоть до 9 СН2 групп. Был сделан вывод о том, что попарное сравнение масс-спектров ИЦР ПФ по присутствию и отсутствию формулы, как это принято в биогеохимических исследованиях, не является характеристичным для нахождения различий в классах соединений, так как формулы, отличающиеся на СН2, могут соответствовать близким наборам химических структур. 7) Продолжена работа по совершенствованию процедуры обработки данных МСИЦР ПФ для ПОВ методом исследования статистики разностей формул. В рамках текущего проекта был реализован новый алгоритм, заключающий в подсчете математического ожидания длины гомологический цепей и учитывающий относительный вес получающейся серии. Вероятностная мера на множестве цепей позволяет определить насколько весома та или иная цепь в серии. В результате была предложена новая метрика –ожидаемая длина цепи разности формул FDCEL (англ. Formulae Difference Chains Expected Length). Сравнивая FDCEL для спектров одного образца, полученные на разных приборах, были получены наборы важных разностей формул, кодирующие образец. На их основе сформирована первая база данных для природного органического вещества. Разработано интернет приложение nommass.com, которая позволяет любому пользователю сравнить свои масс-спектры с образцами из базы данных.

 

Публикации

1. Агулиар-Аларкон П., Жеребкер А., Рубекина А., Ширшин Е.А., Симонсен М., Коларевич Дж., Лазадо К., Николаев Е.Н., Асмикопулус А., Миккельсен Д. Impact of ozone treatment on dissolved organic matter in land-based recirculating aquaculture systems studied by Fourier transform ion cyclotron resonance mass spectrometry Science of The Total Environment, 2022, 843, 157009 (год публикации - 2022) https://doi.org/10.1016/j.scitotenv.2022.157009

2. Антипов Т.В., Желифонова В., Зайцев К.В., Жеребкер А.Я., Баскунов Б., Опруненко Ю.Ф. Formation of Azaphilone Pigments and Monasnicotinic Acid by the Fungus Aspergillus cavernicola Journal of Agricultural and Food Chemistry, 2022, 70, 7122−7129 (год публикации - 2022) https://doi.org/10.1021/acs.jafc.2c01952

3. Жеребкер А.Я., Рухович Г.Д.,Сарычева А.П.,Лехтенфельд О.Дж., Николаев Е.Н. Aromaticity Index with Improved Estimation of Carboxyl Group Contribution for Biogeochemical Studies Environmental science and technology, 2022, 56, 4, 2729–2737 (год публикации - 2022) https://doi.org/10.1021/acs.est.1c04575

4. Якимов Б.П.,Рубекина А.А.,Жеребкер А.Я.,Будылин Г.С.,Компанец В.О.,Чекалин С.В., Вайнер Ю.Г., Хасан А.А.,Николаев Е.Н.,Фадеев В.В., Перминова И.В., Ширшин Е.А. Oxidation of Individual Aromatic Species Gives Rise to Humic-like Optical Properties Environmental Science & Technology Letters, 2022, 9, 5, 452–458 (год публикации - 2022) https://doi.org/10.1021/acs.estlett.2c00161


Аннотация результатов, полученных в 2023 году
За третий год работы проведены все запланированные работы и получены следующие результаты: 1) Был продолжен анализ ботанического состава торфяных почв с северной и южной тундре. Для всех образцов с описанным ботаническим составом был проведен корреляционный анализ молекулярного состава ПОВ и степенью деструкции торфа. Данные были визуализированы с помощью диаграмм ван Кревелена с цветовым обозначением коэффициента корреляции. Визуальная инспекция полученных диаграмм показала соответствие корреляционного анализа с природой образцов торфа и ПОВ. Компоненты, положительно коррелирующие со степенью деструкции, были представлены ароматическими соединениями и восстановленными соединениями с высоким H/C. В то же время отрицательная корреляция была обнаружена для насыщенных окисленных компонентов. Однако для разреза из мочажины была отмечена обратная ситуация с ароматическими компонентами, отрицательно коррелирующими со степенью разложения торфа. Одновременно с этим для образцов южной тундры были обнаружены ненасыщенные компоненты, также отрицательно коррелирующие с деструкцией. Причем таких компонентов было гораздо больше, чем в случае побережья Баренцева моря. Эти компоненты были предварительно отнесены к поликарбоновым алициклическим соединениям. Для разреза северной тундры были также измерены масс-спектры гуминовых кислот. Корреляционный анализ со степенью деструкции показал те же компоненты, что и для ПОВ. Процесс выделения ПОВ приводят к более разнообразному составу с меньшей селективностью в сторону конденсированных соединений. Поэтому для молекулярного анализа именно образцы ПОВ являются наиболее перспективными. Для более детального выявления связи между молекулярным составом ПОВ и ботаническим составом планируется применение в дальнейшем разработанных в рамках проекта алгоритмов по исследованию молекулярных сетей образцов с помощью статистики разности формул. 2) Проведен МС2 эксперимент по изоляции и фрагментации в квадруполе таргетных ионов при анализе ПОВ образцов разреза экотона северна тундра – южная тундра. Спектры высокой интенсивности были получены только при широком аналитическом окне изоляции с умеренной энергией столкновений. Хотя такой диапазон мешает автоматическому анализу спектров, в ручном режиме удалось идентифицировать фрагменты таргетных материнских ионов, благодаря информации о точных молекулярных составах. Для анализа данных проводился поиск пиков, соответствующих нескольким воспроизводимым фрагментам отрыва карбоксильного, гидроксильного, карбонильного и метиленового фрагментов. Наиболее характеристичным являлось отсутствие и присутствия соответствующих пиков. В итоге было найдено, что спектры фрагментации могут показать различия в структуре соединений. Ещё более мощным данный метод оказался в комбинации с результатами химического мечения. Обнаружена согласованность результатов двух независимых экспериментов. Ионы, для которых не наблюдался отрыв СО2 фрагмента, также не имели СООН-групп по результатам дейтерометилирования. Таким образом был сделан вывод, что методы химического мечения и фрагментации согласуются и дополняют друг друга, однако для получения информативных для ПОВ спектров фрагментации необходимо использование более мощного оборудования. 3) Был предложен улучшенный алгоритм обучения нейронной сети для получения эмбеддингов для классификации неизвестных природных соединений по спектрам фрагментации без информации о структуре. Алгоритм включал обучение сети на сгенерированных спектрах соединений из базы Coconut с дообучением (40 эпох) на подвыборке экспериментальных спектров фрагментации из базы GNPS. Полученные в результате такого обучения эмбеддинги позволили получить модель предсказания 5 классов с точностью, не уступающую с моделью, обученную по полным структурам. Для флавоноидов точностью модели достигала 0.94, в то время как по полным структурам, результат составил 0.99. Также для этих классов были получены карты химического пространства с помощью алгоритма GTM. Карты, полученные для эмбеддингов обновленной модели по распределению плотностей не отличались от карт, полученных для полных структур. Таким образом был создан задел для идентификации природных соединений, в том числе в ПОВ. Планируется создание интерфейса для исследования новых спектров МС2 в предложенный в проекте модели. 4) Был предложен алгоритм для приоритизации структур по точной массе (элементному составу), основанный на подсчете Z-величины в алгоритме SEA. В основе алгоритма лежало предположение о том, что молекулярным формулам соответствуют структуры, для которых длины гомологичных серий наибольшие и для которых Z-score убывает медленно. Данный алгоритм был применен к двум образцам, представляющих собой ПОВ с разной степенью трансформации: SRFA (ПОВ р. Суванни) и ISDY (ПОВ стока вечной мерзлоты). В результате для образца ISDY максимальный Z-балл позволил предположить структуры без ароматических фрагментов для 32% формул. Для CHO формул такой результат был получен для 49% формул. Аналогично, для SRFA результат составил 43% для CHO формул. Успешность поиска структурных кандидатов оценивалась с учетом результатом мягкого бромирования. 5) В продолжение работы по определению характеристичных разниц формул, был реализован измененный алгоритм поиска субстратов и продуктов и создания пар между ними, исходя из масс-спектров образцов ПОВ. Для поиска возможных реакций была использована база данных KEGG. Для всех реакций из базы данных были определены наборы субстратов (молекул, вступающих в реакцию) и продуктов с помощью компьютерного кода на языке python. В результате для образцов из базы данных, разработанной на предыдущем этапе проекта (https://nommass.com/), были отобраны важные разницы формул и возможные соответствующие им реакции из KEGG. Для оценки уникальных процессов для каждого ПОВ были отобраны важные и уникальные разницы формул. Например, для SRFA и PLFA были отобраны 252 и 309 разниц, соответствующих 805 и 868 реакциям из KEGG. Для образца PLFA был также проведен таргетный поиск биохимических реакций, исходя из идентифицированных 32 микроорганизмов в озере, из которого был выделен данный образец. Для этих микроорганизмов в KEGG были найдены 2297 реакций. В результате для образца PLFA были отобраны 28 важных разниц формул, которые соответствовали 27 реакциям из KEGG. Таким образом, данный подход является новым и мощным методом анализа масс-спектров ПОВ, который будет применяться в дальнейшем в лаборатории команды проекта. Основные результаты по реализации проекта были опубликованы в высокорейтинговом журнале - Environmental Science & Technology (Q1, IF=11.357).

 

Публикации

1. Сарычева А., Перминова И.В., Николаев Е.Н., Жребкер А. Formulae Differences Commence a Database for Interlaboratory Studies of Natural Organic Matter Environmental Science & Technology, 57(15):6238-6247 (год публикации - 2023) https://doi.org/10.1021/acs.est.2c08002


Возможность практического использования результатов
Результаты проекта несут научную и практическую значимость. Методы исследования структур индивидуальных компонентов ПОВ, разработанных коллективом проекта, применяются другими научными центрами для решения задач, связанных с изучением динамики органического углерода в районах вечной мерзлоты, в атмосфере и в области нефтей. Данные методы позволяют более детализировано проследить изменения, которые происходят в регионах, подверженных загрязнению воздух и изменению климатических условий в результате таяния вечной мерзлоты. Был сформирован научный задел для дальнейшего исследования регионов России, покрытых вечной мерзлотой или включающих вечномерзлотные породы. Решения проекта в области обработки данных масс-спектрометрии могут быть применены для поисковых исследований новых природных биологически активных соединений, что должно ускорить разработку новых лекарств.