КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 21-11-00373

НазваниеМатематические методы глубокого обучения

РуководительЯроцкий Дмитрий Александрович, Доктор физико-математических наук

Организация финансирования, регион Автономная некоммерческая образовательная организация высшего образования «Сколковский институт науки и технологий», г Москва

Период выполнения при поддержке РНФ 2021 г. - 2023 г. 

Конкурс№55 - Конкурс 2021 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-202 - Интеллектуальный анализ данных и распознавание образов

Ключевые словаГлубокое обучение, нейронные сети, градиентный спуск, распознавание изображений, аппроксимации, выразительные модели, цифровой предысказитель

Код ГРНТИ28.23.37


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Глубокое обучение является одной из самых важных и перспективных современных технологий, в которой, при этом, имеется существенный разрыв между значительными практическим успехами и теоретическим пониманием механизмов, лежащих в их основе. Целью данного проекта является разработка новых математических методов для анализа моделей глубокого обучения, объяснения связанных с ними эффектов, прогнозирования их свойств, и более эффективного управления их характеристиками. Проект будет иметь инновационную теоретическую компоненту, в которой передовые методы современной математики и теоретической физики будут применены к задачам и технологиям глубокого обучения и дадут новые инструменты для количественного описания свойств нейронных сетей. Кроме того, проект будет иметь прикладную часть, в которой новые методы будут отработаны на актуальных индустриальных задачах машинного зрения и беспроводной связи.

Ожидаемые результаты
Основной теоретической целью проекта является разработка новых методов анализа глубоких нейронных сетей. Эти методы будут охватывать механизмы обучения моделей, способы увеличения выразительности моделей, и оценку стохастических свойств сетей. Мы ожидаем, что результаты проекта дадут исследователям и практикам машинного обучения новые полезные инструменты, позволяющие теоретически и на количественном уровне решать различные конкретные задачи, связанные с глубокими нейронными сетями. Одновременно с этим, в рамках проекта будут разработаны новые подходы к получению точных и компактных предсказательных моделей в области распознавания изображений и предыскажения сигналов беспроводной связи. Разработка таких моделей является важной индустриальной задачей, поскольку позволяет существенно увеличить качество и эффективность систем машинного зрения и беспроводной связи, при этом минимизируя необходимые вычислительные ресурсы. Все запланированные исследования находятся на переднем крае современного машинного обучения.


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2021 году
1. Существующие теоретические результаты об оптимизационных траекториях нейронных сетей, обучаемых с помощью градиентного спуска, как правило дают строгие, но потенциально неточные оценки сверху или снизу на значения функции потерь. В нашей работе [VY] мы применяем иной подход и показываем, что траектории обучения нейронной сети в режиме "ленивого обучения" при больших временах можно описать явной асимптотикой. А именно, главный член в асимптотическом разложении функции потерь имеет степенной вид $L(t) \sim C t^{-\xi}$ с показателем степени $\xi$, зависящим только от размерности данных, гладкости функции активации и класса аппроксимируемой функции. Наши результаты основаны на спектральном анализе интегрального оператора, представляющего линеаризованную эволюцию большой сети. Важно отметить, что предлагаемый нами метод не требует специальной формы распределения данных (например, гауссовской), обеспечивая, таким образом, достаточную универсальность найденных нами закономерностей. 2. Назовем конечный набор функций активации сверхвыразительным, если любую непрерывную функцию многих переменных можно аппроксимировать нейронной сетью, использующей эти активации и имеющей фиксированную архитектуру, зависящую только от числа входных переменных (т.е. для достижения произвольной точности аппроксимации нам нужно лишь подобрать веса сети, не меняя числа нейронов). Ранее было известно, что сверхвыразительные активации существуют, но их вид был очень сложным. В работе [Y] мы приводим примеры очень простых сверхвыразительных наборов: например, мы доказываем, что набор {sin, arcsin} сверхвыразителен. Также, мы доказываем, что большинство используемых на практике активаций (помимо периодических функций) не являются сверхвыразительными. 3. Оценка неопределенности для моделей машинного обучения имеет большое значение во многих задачах, таких как построение доверительных интервалов для прогнозов модели и обнаружение аномальных или злонамеренно модифицированных данных. В нашей работе [FTP] мы показываем, что изменение распределения для слоев с дропаутом в нейронных сетях улучшает качество оценки неопределенности. Наша основная идея состоит из двух основных частей: вычисления корреляций между нейронами на основе данных и генерации выборок, которые включают максимально разные нейроны. Вторая часть реализуется с помощью методологии детерминантных точечных процессов. В серии экспериментов на смоделированных и реальных данных мы демонстрируем, что диверсификация с помощью выборки на основе детерминантных точечных процессов позволяет достичь высоких результатов в оценке неопределенности для задач регрессии и классификации. Важной особенностью нашего подхода является то, что он не требует каких-либо изменений в моделях или процедурах обучения, что позволяет легко применять его к любой модели глубокого обучения, содержащей слои с дропаутом. 4. В статье [OIY1] мы предлагаем новую оценку производительности для точности оценки канала линии связи (CE) в системе MIMO (Massive Multiple Input Multiple Output). Предлагаемый подход основан на расчете мощности шума после блока CE в многоантенном приемнике. Мы разбиваем канал вне прямой видимости (NLOS) на отдельные ответвления и вычисляем матрицу кросс-ковариаций между ними. Затем к этим ответвлениям применяется метод линейной минимальной среднеквадратичной ошибки (MMSE) для оценки значения остаточной ошибки CE для каждого уникального сценария, в предположении гауссовского распределения амплитуд ответвлений и шума антенны. Искусственный CE рассчитывается как сумма идеального бесшумного канала (предварительно определенной модели Quadriga) и оставшегося шума после оптимальной оценки. Затем искусственный CE используется в блоках детектора и декодера MIMO для вычисления предела производительности. Наш метод превосходит точность хорошо известной нижней границы Крамера-Рао (CRLB) благодаря учету большего количества статистических данных (количества ответвлений и корреляций между ними), поскольку производительность сильно зависит от нескольких ответвлений каналов и их отношения мощности. Кроме того, мы показываем, что наша оценка может быть получена из обобщенного байесовского CRLB. Результаты моделирования представлены для канала 5G QuaDRiGa 2.0 NLOS. 5. В работе [OIY2] мы разработали алгоритм оценки канала связи на основе обучения для Sub-6G Massive Multiple-Input Multiple-Output (MIMO) [2]. Алгоритм использует итеративный поиск ответвлений канала распространения, пространственную фильтрацию и шумоподавление. Для этого мы разделяем каждый сигнал ответвления канала на части с выравниванием по отводам и ортогональные части и обучаем их весовые коэффициенты в реализациях каналов вне прямой видимости, сгенерированных в программном обеспечении QuaDRiGa 2.0. Обучение пространственных коэффициентов приносит значительный выигрыш в производительности. Результаты моделирования представлены в пространстве лучей, реализованным путем цифрового преобразования антенного сигнала в заранее выбранное подпространство, направленное в сторону прихода сигнала абонентов. 6. Макроэкономические индексы имеют большое значение для банков: многие решения по управлению рисками используют эти индексы. Типичный процесс оценки этих индексов долгий и дорогой. Оценка получается на пару месяцев позже поступления данных. Банки прогнозируют такие индексы, используя модели авторегрессии для принятия решений в быстро меняющихся условиях. Однако авторегрессионные модели работают плохо в сложных сценариях, связанных с резкими изменениями макроэкономической ситуации, такими как кризисы и эпидемии. В статье [BZ] мы предложили использовать данные о финансовых операциях клиентов крупного российского банка для оценки таких индексов. Последовательности финансовых транзакций длинные, а количество клиентов огромно. Поэтому для обработки таких массимов данных большого размера мы разработали архитектуру их обработки, которая позволяет быстро и точно оценить макроэкономические показатели на основе потока транзакций. Наша модель способна обучаться и давать прогнозы на данных, состоящих из миллионов транзакций. Она основна на нейронной сети и правильной стратегии семплирования подвыборки транзакций. Результаты экспериментов показывают, что предложенный нами подход на основе нейронных сетей превосходит базовый метод, использующую сгенерированные вручную признаки на оснвое транзакций. Полученные представления позволяют показывают корреляцию между транзакционной активностью клиента и макроэкономическими показателями банка, что и позволяет построить модель высокого качества. 7. Обучение на основе адаптации моделей (transfer learning, TL) - популярный метод глубокого обучения. Он позволяет получать высокое качество модели даже для выборок данных небольшого размера путем правильного переиспользования предобученных моделей. В этом случае обучение модели для целевых данных начинается не со случайной инициализации параметров, а с параметров предварительно обученной модели. Предварительное обучение происходит на большом наборе данных с похожими свойствами. Оценки параметров, полученные в результате обучения, могут получатся как результат оптимизации функции потерь для размеченных данных или с использование подходов обучения на неразмеченных данных. Для некоторых проблем лучше работает TL, основанный на обучении на неразмеченных данных. Для других задач это не так. Чтобы понять, почему это может произойти, в статье [SBZ] мы исследуем обобщающую способность модели, предварительно обученной обоими способами на одном и том же наборе данных перед адаптацией для другой задачи. Мы пришли к выводу, что инициализация в этих двух случаях приводят к двум различным типам конечных локальных оптимумов. Для инициализаций, полученных для обучения без учителя, минимум значительно уже. Таким образом, в некоторых случаях должно существовать другое объяснение их более высокого качества работы. [BZ] Begicheva M., Zaytsev A. Bank transactions embeddings help to uncover current macroeconomics // 20TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA) (2021) [FTP] Fedyanin K., Tsymbalov E., Panov M. Dropout Strikes Back: Improved Uncertainty Estimation via Diversity Sampling // Proceedings of the 10th International Conference on Analysis of Images, Social Networks and Texts (2021) [OIY1] Osinsky A., Ivanov A., Yarotsky D. Efficient Performance Bound for Channel Estimation in Massive MIMO Receiver // IEEE Transactions on Wireless Communications (2021) [OIY2] Osinsky A., Ivanov A., Yarotsky D. Spatial Denoising for Sparse Channel Estimation in Coherent Massive MIMO // The 2021 IEEE 94th Vehicular Technology Conference: VTC2021-Fall [SBZ] Satayeva M., Balabin N., Zaytsev A. Difference of Local Optima for Supervised and Self-supervised Learning // Proceedings of ITAS conference 2021 [VY] Velikanov M., Yarotsky D. Explicit loss asymptotics in the gradient descent training of neural networks // NeurIPS 2021 [Y] Yarotsky D., Elementary superexpressive activations // ICML 2021

 

Публикации

1. Бегичева М., Зайцев А.А. Bank transactions embeddings help to uncover current macroeconomics 20TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA), - (год публикации - 2021)

2. Великанов М.Д., Яроцкий Д.А. Explicit loss asymptotics in the gradient descent training of neural networks Advances in Neural Information Processing Systems 35, "35th Conference on Neural Information Processing Systems, NeurIPS 2021", - (год публикации - 2021)

3. Осинский А.И., Иванов А.А, Яроцкий Д.А. Efficient Performance Bound for Channel Estimation in Massive MIMO Receiver IEEE Transactions on Wireless Communications, Volume: 20, Issue: 11, Pages: 7001 - 7010 (год публикации - 2021) https://doi.org/10.1109/TWC.2021.3079632

4. Осинский А.И., Иванов А.А. Яроцкий Д.А. Spatial Denoising for Sparse Channel Estimation in Coherent Massive MIMO The 2021 IEEE 94th Vehicular Technology Conference: VTC2021-Fall, This is Rank "B" conference according to http://portal.core.edu.au/conf-ranks/ (год публикации - 2021) https://doi.org/10.1109/VTC2021-Fall52928.2021.9625153

5. Сатаева М., Балабин Н., Зайцев А. Difference of Local Optima for Supervised and Self-supervised Learning Proceedings of ITAS conference 2021, - (год публикации - 2021)

6. Федянин К., Цымбалов Е., Панов М. Dropout Strikes Back: Improved Uncertainty Estimation via Diversity Sampling Proceedings of the 10th International Conference on Analysis of Images, Social Networks and Texts (Communications in Computer and Information Science), - (год публикации - 2021)

7. Яроцкий Д.А. Elementary Superexpressive Activations Proceedings of the 38th International Conference on Machine Learning, PMLR (Proceedings of Machine Learning Research), 139:11932-11940 (год публикации - 2021)


Аннотация результатов, полученных в 2022 году
1. Эффективный с точки зрения объема сохраняемой информации подход к ансамблированию нейронных сетей заключается в том, чтобы, большинство весов моделей являлись общими и содержались в некоторой базовой нейронной сети. Мы называем этот подход Embedded Ensembles; он включает в качестве частных случаев известные BatchEnsembles и Monte-Carlo-dropout-ансамбли. Мы провели систематический теоретический и эмпирический анализ Embedded Ensembles с разным количеством моделей. С теоретической стороны мы исследовали динамику градиентного спуска системы в пределе бесконечно широкой сети в режиме Neural Tangent Kernel. В этом пределе мы выделили два режима работы ансамбля – независимый и коллективный – в зависимости от архитектуры и стратегии инициализации моделей ансамбля. Мы доказали, что в независимом режиме Embedded Ensemble ведет себя как ансамбль независимых моделей. Мы подтвердили наши теоретические предсказания широким кругом экспериментов с конечными сетями и дальнейшим эмпирическим исследованием различных эффектов, таких как переходы между двумя режимами, зависимость производительности ансамбля от ширины сети, числа моделей, архитектуры и гиперпараметров. 2. Мы предложили новый подход для стекинга ансамблей нейронных сетей, которые использует для этой цели ошибку на обучающей выборке. Ансамблирование с помощью "snapshot ensembling" собирает модели вдоль одной траектории обучения. Поскольку траектория проходится лишь однажды, время обучения такого ансамбля сопоставимо со временем обучения одной модели. Однако, качество моделей вдоль траектории различно: как правило, более поздние моделии лучше, если предполагать отсутствие переобучения. Наш метод улучшает snapshot ensembling с помощью отбора и взвешивания членов ансамбля вдоль обучающей траектории. В отличие от стандартных методов стекинга, он использует значения правдоподобия на обучающей выборке, без применения ошибок на валидационной выборке. Экспериментальная проверка на задачах Fashion MNIST, CIFAR-10, и CIFAR-100 показала превосходное качество предложенного взвешенного ансамбля по сравнению со стандартным ансамблем. 3. Предложен новый подход машинного обучения применительно к оценке канала в системах с большим числом антенн (MIMO) для сигналов с ортогональным частотным уплотнением (OFDM). Предлагаемый алгоритм использует разреженное тензорное представление сигнала в угловой области и области задержки. При этом используется информация о координатах антенных элементов базовой станции. Такое тензорное представление позволяет достичь лучшей производительности, чем обычное матричное представление сигнала, за счет одновременного использования свойства разреженности сигнала во времени и пространстве. Реализация алгоритма предполагает применение свёрточных нейронных сетей с шумоподавлением (DnCNN) к тензорным выборкам. 4. Мы исследовали использование показателей неравенства доходов, таких как коэффициенты Джини или Пальма, как средств идентификации аномалий при применении капсульных сетей. Мы показали, что взаимодействие между первичными капсулами и капсулами классов приводит к различному поведению модели при аномальных и нормальных входных данных, что может быть использовано для детектирования аномалий. Мы рассматриваем детектирование аномалий в рамках схемы обучения с учителем, предполагая известными примеры выбросов. Мы получаем несколько критериев для капсульных сетей и применяем их к ряду стандартных тестовых задач машинного зрения (MNIST, Fashion-MNIST, Kuzushiji-MNIST и CIFAR10), а также к набору изображений поражений кожи (HAM10000) и набору данных нецелевых пар CRISPR-Cas9. Предложенные методы превосходят конкурирующие методы в большинстве рассмотренных случаев. 5. Мы исследовали эффективность нелинейных предсказательных моделей для предсказания фенотипа человека по его генотипу. Предсказания такого рода являются центральной проблемой генетики человека. В последние годы, благодаря доступности больших объемов генетических данных и масштабируемых средств машинного обучения, стало возможным построение сложных предсказательных моделей фенотипов. В нашей работе мы делаем тройной вклад в решение данной задачи. Во-первых, мы анализируем, могут ли современные нелинейные модели, такие как градиентный бустинг решающих деревьев, быть эффективнее для предсказания фенотипа, чем стандартные линейные модели. Мы обнаружили, что нелинейные модели могут давать небольшое улучшение точности предсказания, если помимо генетических признаков модель может использовать дополнительные высокоинформативные характеристики типа возраста человека. Во-вторых, мы анализируем, можно ли заменить стандартный отбор генетических признаков (нуклеотидных полиморфизмов) с помощью genome wide association studies (GWAS) более эффективной процедурой, принимающей во внимание уже отобранные признаки. Мы предлагаем такую процедуру, основанную на последовательной оценке важности признаков с помощью решающих деревьев, и показываем, что этот подход действительно производит информативные и значительно более компактные наборы признаков. Наконец, мы показываем, что наибольшая точность предсказаний может быть достигнута с помощью ансамблирования отдельных линейных и нелинейных моделей. Насколько мы можем судить, по крайней мере для некоторых из рассматриваемых нами фенотипов (астма, гипотиреоз), наши результаты являются наилучшими из известных.

 

Публикации

1. Великанов М., Кайль Р., Анохин И., Вашурин Р., Панов М., Зайцев А., Яроцкий Д. Embedded Ensembles: infinite width limit and operating regimes Proceedings of The 25th International Conference on Artificial Intelligence and Statistics (AISTATS), PMLR 151:3138-3163 (год публикации - 2022)

2. Кириллов Б., Панов М.Е. Measuring internal inequality in capsule networks for supervised anomaly detection Scientific Reports, 12, 13575 (год публикации - 2022) https://doi.org/10.1038/s41598-022-17734-7

3. Медведев А., Мишра Шарма С., Цацорин Е., Набиева Е., Яроцкий Д. Human genotype-to-phenotype predictions: Boosting accuracy with nonlinear models PLOS ONE, PLoS ONE 17(8): e0273293 (год публикации - 2022) https://doi.org/10.1371/journal.pone.0273293

4. П. Проскура, А. Зайцев Effective training-time stacking for ensembling of deep neural networks ACM AIPR 2022, - (год публикации - 2022)

5. Благодарный А., Бычков Р., Крикунов С., Иванов А. Tensor-Assisted CNN to Estimate Channel in Massive MIMO Proceedings of The International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), - (год публикации - 2022)


Аннотация результатов, полученных в 2023 году
1. Мы разработали новый метод теоретического анализа оптимизационного алгоритма mini-batch SGD для линеаризованных моделей. Метод основан на предложенном нами “спектрально выразимом” приближении эволюции функции потерь в ходе оптимизации и на использовании производящих функций, построенных по значениям функции потерь. С помощью предложенного метода получен ряд конкретных результатов: точные и приблизительные условия устойчивости алгоритма SGD, фазовая диаграмма различных режимов работы SGD, асимптотики поведения функции потерь в различных режимах, демонстрация динамических переходов между режимами и оценки моментов перехода, демонстрация сценариев, при которых минимум функции потерь достигается при отрицательных значениях параметра момента. 2. Мы разработали новый метод прунинга современных больших нейронных сетей, решающих задачи машинного зрения. Метод позволяет осуществлять сильное сжатие (>75%) таких моделей, как Vision Transformer и современных сверточных сетей лишь с небольшой потерей точности (<1%). Метод совместим со структурным прунингом и квантизацией и на практике позволяет получать ускорение в 1.5-2.4 раза без потери точности. Эксперименты показывают, что предлагаемый метод существенно эффективнее других существующих методов прунинга. 3. Мы исследовали структуру т.н. “универсальных формул”, позволяющих приблизить любую непрерывную функцию без увеличения структурной сложности модели (Yarotsky 2023). Несколько естественных функциональных семейств, в том числе нейросетевых, классифицировано в соответствии с предложенной нами иерархией классов универсальности. В частности, показано, что нейронные сети фиксированного размера с не более чем одним слоем трансцендентных активаций удовлетворяют определенным алгебраическим ограничениям, которых нет в более сложных сетях. С другой стороны, для некоторых классов сетей с трансцендентными активациями показано, что они могут приближать заданные непрерывные функции с любой точностью на любых конечных множествах, но не равномерно на общих ограниченных множествах. 4. В рамках направления по применению машинного обучения к снижению пик-фактора в системе 5G мы разработали новый алгоритм кластеризации, для которого предложили модель предсказания порога на основе данных абонентов. Отличительной особенностью алгоритма является универсальность, т.е. он может быть применен к широкому классу систем на основе OFDM сигнала. При этом эффективность работы приближена к алгоритмам на основе полного перебора параметров абонентов и порогов, т.е. фактически к максимально достижимой. 5. По адаптации пространства лучей для стандартов связи 5G мы разработали 3 новые обучаемые структуры на основе матрицы БПФ и предложили нейросетевые алгоритмы обучения их весов. Данные структуры позволяет минимизировать вычислительную сложность преобразования O(NlogN) пространства антенн в пространство лучей, при этом её точность сопоставима с SVD, сложность которого намного выше. 6. Также коллективом разработан новые алгоритмы регуляризации и предсказания ошибок с обучением на данных для приёмника беспроводной системы связи 5G. Основным результатов является применение обучения на данных для дополнения теоретических результатов, что позволяет достичь максимальной точности при низкой вычислительной сложности. Т.е. предложена аналитическая формула, в которой значения некоторых параметров найдены с помощью машинного обучения на многолучевом канале распространения сигнала в соответствии со стандартом 5G. 7. Наша работа продемонстрировала, что персистентные баркоды успешно применяются в анализе временных рядов, особенно в контексте финансового анализа и кластеризации портфелей. Эти результаты были представлены на конференции ICMV 2023. Мы обнаружили, что персистентные гомологии на финансовых временных рядах превзошли многие классические методы работы с временными рядами, включая стандартные экономические характеристики, оценку многообразий, а также сверточные и LSTM автоэнкодеры, и трансформеры, специально обученные на финансовых временных рядах. Персистентные баркоды первой размерности показали наилучшую эффективность по метрикам риска на всех датасетах, включая периоды финансовых кризисов. Кроме того, мы оценили выразительность статистических характеристик персистентных диаграмм и методов их векторизации на временных рядах, их работоспособность на реальных данных и их потенциал в решении различных задач. Другим приложением топологического анализа данных стал алгоритм ансамблирования, основанный на кросс баркодах, способе оценки расстояния между моделями, который учитывает похожесть моделей друг на друга. 8. Мы рассмотрели задачу непараметрической гетероскедастической регрессии и разработали процедуру отказа от предсказания путем проверки гипотезы о значении условной дисперсии в данной точке. В отличие от существующих методов, предлагаемый позволяет учитывать не только значение самой дисперсии, но и неопределенность соответствующей оценки дисперсии. Мы доказали неасимптотические границы риска полученной оценки и показали существование нескольких различных режимов сходимости. Теоретический анализ был проиллюстрирован серией экспериментов на модельных и реальных данных. 9. Мы предложили подход к deep metric learning, который позволяет напрямую оценивать неопределенность практически без дополнительных вычислительных затрат. Разработанный алгоритм ScaleFace использует обучаемые значения масштаба, которые изменяют сходство в пространстве вложений. Эти зависящие от входных данных значения масштаба представляют собой меру уверенности в результате распознавания, что позволяет оценить неопределенность. Мы провели серию экспериментов на задаче распознавания лиц, которые показывают более высокое качество работы ScaleFace по сравнению с другими подходами к распознаванию лиц с учетом неопределенности. Мы также распространили результаты на задачу преобразования текста в изображение, показав, что предлагаемый подход значительно превосходит конкурентов.

 

Публикации

1. Великанов М.Д., Кузнеделев Д.Д., Яроцкий Д.А. A view of mini-batch SGD via generating functions: conditions of convergence, phase transitions, benefit from negative momenta. The Eleventh International Conference on Learning Representations (ICLR 2023), Онлайн-публикация: https://openreview.net/forum?id=bzaPGEllsjE (год публикации - 2023)

2. Кузнеделев Д.Д., Куртик Д., Франтар Е., Алистар Д. CAP: Correlation-Aware Pruning for Highly-Accurate Sparse Vision Models Advances in Neural Information Processing Systems 37, "37th Conference on Neural Information Processing Systems, NeurIPS 2023", - (год публикации - 2023)

3. Молодцов В., Бычков Р., Осинский А., Иванов А. и Яроцкий Д. V. Molodtsov, R. Bychkov, A. Osinsky, A. Ivanov and D. Yarotsky, "Training FFT to Select Beams in Massive MIMO," in IEEE Wireless Communications Letters, vol. 12, no. 6, pp. 1017-1021, June 2023, doi: 10.1109/LWC.2023.3257408. IEEE Wireless Communications Letters, Volume: 12, Issue: 6, pages: 1017 - 1021 (год публикации - 2023) https://doi.org/10.1109/LWC.2023.3257408

4. Молодцов В., Бычков Р., Осинский А., Яроцкий Д. и Иванов А. V. Molodtsov, R. Bychkov, A. Osinsky, D. Yarotsky and A. Ivanov, "Beamspace Selection in Multi-User Massive MIMO," in IEEE Access, vol. 11, pp. 18761-18771, 2023, doi: 10.1109/ACCESS.2023.3247342. IEEE Access, Volume: 11, pages: 18761 - 18771 (год публикации - 2023) https://doi.org/10.1109/ACCESS.2023.3247342

5. Носков Ф., Фишков А., Панов М. Selective Nonparametric Regression via Testing Proceedings of Asian Conference on Machine Learning, - (год публикации - 2023)

6. Осинский А., Бычков Р. , Трефилов М., Ляшев В. и Иванов А. A. Osinsky, R. Bychkov, M. Trefilov, V. Lyashev and A. Ivanov, "Round-off Error Analysis in mMIMO Detector Based on Cholesky Decomposition," in IEEE Wireless Communications Letters, doi: 10.1109/LWC.2023.3327177. IEEE Wireless Communications Letters, Early access (год публикации - 2023) https://doi.org/10.1109/LWC.2023.3327177

7. Осинский А., Р. Бычков, Трефилов М., Ляшев В. и Иванов А. A. Osinsky, R. Bychkov, M. Trefilov, V. Lyashev and A. Ivanov, "Regularization for Cholesky Decomposition in Massive MIMO Detection," in IEEE Wireless Communications Letters, vol. 12, no. 9, pp. 1603-1607, Sept. 2023, doi: 10.1109/LWC.2023.3284349. IEEE Wireless Communications Letters, Volume: 12, Issue: 9, pages: 1603 - 1607 (год публикации - 2023) https://doi.org/10.1109/LWC.2023.3284349

8. Петр Сокерин, Кристиан Кузнецов, Елизавета Махнева, Алексей Зайцев Portfolio Selection via Topological Data Analysis ICMV, - (год публикации - 2023)

9. Роман Кайль, Кирилл Федянин, Никита Муравьев, Алексей Зайцев, Максим Панов ScaleFace: Uncertainty-aware Deep Metric Learning 2023 IEEE 10th International Conference on Data Science and Advanced Analytics (DSAA), 2023 IEEE 10th International Conference on Data Science and Advanced Analytics (DSAA), pages 1-10 (год публикации - 2023) https://doi.org/10.1109/DSAA60987.2023.10302546

10. Яроцкий Д.А. Structure of universal formulas Advances in Neural Information Processing Systems 37, "37th Conference on Neural Information Processing Systems, NeurIPS 2023", - (год публикации - 2023)

11. Крикунов С., Бычков Р., Благодарный А., Иванов А. S. Krikunov, R. Bychkov, A. Blagodarnyi and A. Ivanov, Clustering and Fitting to Reduce PAPR in Multi-User OFDM Systems, 2023 25th International Conference on Digital Signal Processing and its Applications (DSPA), Moscow, Russian Federation, 2023. 2023 25th International Conference on Digital Signal Processing and its Applications (DSPA), Онлайн-публикация (год публикации - 2023) https://doi.org/10.1109/DSPA57594.2023.10113449


Возможность практического использования результатов
Многие из наших результатов были мотивированы прикладными задачами и потенциально могут найти применение в экономике и социальной сфере, например: 1. Наши исследования машинного обучения для MIMO-систем могут содействовать улучшению качества систем беспроводной связи; 2. Разработанный нами алгоритм прунинга больших нейронных сетей может позволить использовать более сложные нейросетевые модели машинного зрения на мобильных устройствах; 3. Наши исследования баркодов и вычислительных архитектур для анализа финансовых временных рядов могут быть полезны в банковской сфере; 4. На работа по анализу нелинейных зависимостей между генотипом и фенотипом человека может быть полезна для индивидуальных медицинских прогнозов на основе генетической информации.