КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 22-21-00911

НазваниеРазработка новых вычислительных тензорных методов для задач интеллектуального анализа больших массивов данных на основе последовательностей событий.

РуководительФролов Евгений Петрович, кандидат наук (признаваемый в РФ PhD)

Организация финансирования, регион Автономная некоммерческая образовательная организация высшего образования «Сколковский институт науки и технологий», г Москва

Период выполнения при поддержке РНФ 2022 г. - 2023 г. 

Конкурс№64 - Конкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований малыми отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словаинформационный поиск, интеллектуальный анализ данных, обучение на последовательностях, прогнозирование событий, тензорные разложения

Код ГРНТИ28.23.24


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Задачи интеллектуального анализа данных с учетом очередности анализируемых событий являются актуальными во многих предметных областях: от рекомендательных систем и обработки текстов на естественном языке до анализа динамики климатических изменений на планете. Особенностью таких задач, с одной стороны, является большой масштаб, а с другой - высокая доля пропусков в данных и их зашумленность, что накладывает особые требования на соответствующие методы и алгоритмы анализа. В проекте предлагается разработать масштабируемые методы на основе малоранговых тензорных разложений специального вида, учитывающих информацию об очередности событий и эффективно работающих на неполных данных. Проект нацелен на решение проблем в нескольких направлениях: 1. создание вычислительно эффективной альтернативы современным нейросетевым методам анализа последовательных данных, 2. создание методов, которые позволят повысить вычислительную эффективность алгоритмов на основе глубоких нейронных сетей за счет снижения размерности входных данных. Это позволит расширить арсенал существующих математических моделей и вычислительных инструментов для широкого круга современных задач интеллектуального анализа больших массивов последовательных данных. Особенности постановки задачи ведут к необходимости рассмотрения новых структур тензорных представлений и обобщения подходов на основе анализа сингулярного спектра (метод "гусеницы", SSA) для тензорного случая. Кроме того, для обеспечения масштабируемости возникает необходимость правильного применения быстрых методов обучения и дообучения моделей с использованием алгоритмов скетчинга или потоковых алгоритмов, рандомизированных подходов, а также подходов на основе динамической малоранговой аппроксимации. В результате выполнения проекта планируется создать комплекс программ ЭВМ с открытым исходным кодом с реализациями тензорных алгоритмов интеллектуального анализа больших неполных данных о последовательностях.

Ожидаемые результаты
1. Новые модели учета информации о последовательностях в тензорном формате. Среди существующих подходов анализа подобных данных, модели на основе тензорных представлений недопредставлены. Фактически, выбор обычно осуществляется между классическими (на основе матричных представлений или авторегрессионных решений) и современными нейросетевыми подходами. Нейросетевые подходы могут давать более высокое предсказательное качество за счет более высокой обобщающей способности, но при этом обычно значительно более требовательны к вычислительным ресурсам. Предлагаемые в данном проекте тензорные подходы обеспечивают баланс между вычислительной сложностью и обобщающей способностью, давая гибкий выбор при построении решений. 2. Обобщение матричного метода анализа сингулярного спектра (SSA) на случай тензоров порядка 3 и выше. Развитие этого направления имеет высокую научную значимость, поскольку ранее разработанные подходы на основе SSA не применялись для решения проблем анализа больших данных с неполной информацией. Особенности и границы их применимости остаются неизученными. Одной из главных причин неприменимости существующих на данный момент подходов является тот факт, что они разработаны в предположении отсутствия пропусков в данных, либо малого их количества и особой структуры. Это позволяет напрямую применять такие методы вычислений как быстрое преобразование Фурье (FFT). В случае же высокой доли пропусков в данных такой подход теряет смысл, поскольку размерность данных в этом случае может быть гораздо выше, но при этом количество известных (ненулевых) элементов будет оставаться крайне малым и прямое применение FFT приведет к неоправданно высокой вычислительной нагрузке. Если же не учитывать специальную структуру данных, это может вести к проблемам масштабируемости решений на практике. 3. Эффективные алгоритмы вычисления компактных тензорных представлений на основе данных на последовательностях. На данный момент не существует специализированных инструментов для решения целевых задач данного проекта. Исследователям или инженерам потребуется либо разрабатывать собственные инструменты, либо пользоваться какими-то более общими программными пакетами, что неизбежно ведет к серьезным ограничениям применимости или нежелательным практическим издержкам в решении реальных задач. Помимо технических особенностей реализации тензорного формата на неполных/разреженных данных, здесь возникает целый ряд вопросов масштабируемости вычислений, которые планируется решать с использованием различных методов на основе рандомизированных подходов, скетчинга или потоковых алгоритмов. 4. Эффективные алгоритмы динамического обучения тензорных представлений. Во многих прикладных решениях, в частности, в случае рекомендательных систем, входные данные непрерывно изменяются, постоянно поступает новая информация. Для того чтобы обученная модель оставалась актуальной и точной, требуется регулярное ее переобучение (т.е. обучение заново с учетом вновь поступившей информации). Вследствие больших масштабов, это ведет к высоким вычислительным затратам и необходимости поддерживать большую вычислительную инфраструктуру. Применение динамических подходов, которые не требуют полного переобучения, позволит сократить эту нагрузку за счет пошагового (инкрементального) дообучения, на каждом шаге которого модель оперирует лишь с вновь поступившей информацией и не требует обращения ко всей предыдущей истории. Важно отметить, что предлагаемые к разработке в данном проекте подходы имеют междисциплинарную значимость, поскольку могут быть применены в различных предметных областях, таких как рекомендательные системы, системы обработки текста на естественном языке, и других областях, в которых информация о последовательностях носит сквозной (транзитивный) характер и требует анализа не отдельных последовательностей, а всего массива данных в совокупности. К таким задачам, относится, например, анализ глобальных климатических изменений, где в качестве массива временных рядов выступают измерения определенных климатических параметров (например, влажности) в различных географических точках по всей планете. Такие измерения содержат много шума и большое количество пропусков из-за особенностей работы датчиков и ограничений, связанных с погодным условиями и сезонностью.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2022 году
Ключевой целью работ первого этапа проекта являлась разработка нового подхода представления данных на основе последовательностей событий, который позволил бы свести задачу построения прогнозной модели к задаче нахождения тензорного разложения малого ранга. В частности, к рассмотрению была взята задача предсказания потребительской активности в рекомендательных системах, где очередность в последовательности действий потребителя (например, покупка товаров или просмотр фильмов) может играть определяющую роль в том, какие дальнейшие действия будут совершены. За основу построения такой прогнозной модели был принят хорошо известный метод “гусеницы”, также известный как метод анализа сингулярного спектра (Singular Spectrum Analysis, SSA). Данный метод обычно применяется в задачах обработки сигналов и изображений и строится на основе малорангового матричного разложения. Несмотря на существующие обобщения этого метода в том числе и на многомерные массивы, возникает ряд особенностей, не позволяющих напрямую применить имеющиеся разработки для рассматриваемого в данном проекте типа задач. При этом направление разработки определяется двумя ключевыми факторами. С одной стороны, это большой масштаб данных во многих реальных рекомендательных системах, формирующийся огромным количеством потенциальных потребителей и порой не менее огромным размером каталога доступных им товаров и услуг. С другой стороны, это чрезвычайно высокий процент пропусков в данных, обусловленный естественными ограничениями в том, что действительно может интересовать пользователей из всего каталога. Это в свою очередь накладывает определенные требования на вычислительную составляющую решения, требует применения особых подходов для работы с разреженными данными, что в совокупности ведет к необходимости разработки новых алгоритмов. Принципиально важным аспектом работ в рамках данного проекта является создание решения, способного конкурировать с нейросетевыми аналогами на основе архитектур с механизмом внимания (attention), широко применяющимися на практике. В результате выполнения работ на первом этапе успешно реализован новый тензорный подход, который отвечает всем названным критериям. Получены теоретические оценки вычислительной эффективности разработанного решения, которые также подтверждены на основе массовых испытаний. Новый подход показывает сопоставимое качество точности предсказаний в сравнении с нейросетевой моделью внимания и при этом является более масштабируемым и экономным с точки зрения вычислительных ресурсов. Таким образом, полученные результаты оправдывают целесообразность его применения на практике.

 

Публикации


Аннотация результатов, полученных в 2023 году
Ключевой целью работ данного этапа являлось усовершенствование модели GA-SATF, разработанной на первом этапе, и расширение её области применимости на различные постановки задач в области рекомендательных систем, которые учитывают последовательные данные. В частности, за время второго этапа проекта были рассмотрены задача предсказания следующего приложения, которое будет запущено на устройстве пользователя, задача обновления параметров модели с учётом новых данных и задача масштабирования GA-SATF модели с помощью рандомизированных методов вычислительной линейной алгебры. В задаче предсказания приложения, которое будет запущено на устройстве пользователя, ключевым свойством успешной модели является возможность совместить федеративную природу обучения, механизм дифференциальной приватности, высокую вычислительную эффективность, коллаборативный характер предсказания и его высокое качество. Существующие методы решения рассматриваемой задачи не удовлетворяли хотя бы одному из приведённых требований. Поэтому разработанная модель SeqMF, которая является частным случаем модели GA-SATF, является актуальной для внедрения в индустриальные продукты. Также существующие методы учёта новых данных требовали либо обучения модели с нуля, либо некорректно использовали ранее полученные параметры. Вместо этого на втором этапе проекта было предложено использовать идею интеграторов тензоров в формате Таккера, которые явным образом связывают тензоры в соседние моменты времени, и был разработан метод TIRec. Подход TIRec к задаче обновления параметров модели рекомендательной системы позволил отказаться от эвристических методов обновления и записать все необходимые операции с помощью стандартных операций вычислительной линейной алгебры. Итоговая модель показала одновременно и высокую устойчивость рекомендаций для новых данных, и достаточно высокую вычислительную эффективность по сравнению с моделями, которые были обновлены альтернативными способами. Разработанные методы собраны в отдельный программный пакет с открытам исходным кодом, доступным по ссылке https://github.com/AlbMLpy/DynamicCF. Отдельной задачей было внедрить рандомизированные методы в алгоритм вычисления разложений внутри модели GA-SATF. Для этого были использованы случайные но структурированные матрицы, которые позволили существенно сократить затраты по памяти, необходимые для вычисления эмбеддингов в модели GA-SATF. Вместе с тем стало возможным тестировать существенно большие значения эмбеддингов пользователй и приложений, что делает модель более гибкой и выразительной при внедрении в индустриальные проекты. В результате выполнения работ на втором этапе успешно адаптирована модель GA-SATF для решения задачи предсказания следующего приложения, запущенного на устройстве. Для этого она была оснащена вспомогательным механизмом дифференциальной приватности qHarmony и обучалась в режиме федеративного обучения. Также для модели GA-SATF предложен и реализован вычислительно эффективный метод TIRec обновления модели при появлении новых данных. В то же время разработанный рандомизированный подход к обучению модели GA-SATF позволяет улучшить её масштабируемость и расширить диапазон размерностей эмбеддингов доступных для использования в модели. Основные методы, разработанные в рамках второго этапа проекта, включены в программный пакет Gretta https://github.com/recspert/gretta. Таким образом, полученные результаты показывают, что цели второго этапа были достигнуты.

 

Публикации

1. Фролов Е.П., Оселедец И.В. Tensor-Based Sequential Learning via Hankel Matrix Representation for Next Item Recommendations IEEE Access, Volume 11, pages 6357 - 6371 (год публикации - 2023) https://doi.org/10.1109/ACCESS.2023.3234863


Возможность практического использования результатов
Разработаны подходы, которые имеют высокую практическую полезность. В частности, разработанная модель SeqMF была принята в испытательный контур телекоммуникационной компании Huawei. Модель GA-SATF взята на тестирование в контур компании Одноклассники.ру. Внедрение данных моделей позволяет компаниям покрывать дополнительные сценарии использования рекомендательных систем.