КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

 

ОБЩИЕ СВЕДЕНИЯ


Номер 19-71-00137

НазваниеКодирование для многопользовательских систем хранения данных

РуководительПолянский Никита Андреевич, Кандидат физико-математических наук

Организация финансирования, регион Автономная некоммерческая образовательная организация высшего образования «Сколковский институт науки и технологий», г Москва

Период выполнения при поддержке РНФ 07.2019 - 06.2021 

Конкурс№40 - Конкурс 2019 года «Проведение инициативных исследований молодыми учеными» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными.

Область знания, основной код классификатора 01 - Математика, информатика и науки о системах, 01-407 - Математическое обеспечение безопасности вычислительных и инфокоммуникационных технологий

Ключевые словараспределенные системы хранения, канал множественного доступа, облачные хранилища, локально восстанавливаемые коды, конфеденциальное восстановление информации, многопользовательские системы, бэтч коды, конечные геометрии, равновесные коды

Код ГРНТИ28.21.19


СтатусУспешно завершен


 

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ


Аннотация
Данный проект ставит перед собой задачи, возникающих в современных системах хранения данных. Мы будем рассматривать несколько вопросов, лежащих на стыке теории кодирования, криптографии и математики. Основное направление связано с безопасностью пользователей и избыточностью в системах распределенного и облачного хранения данных. Протоколы конфеденциального восстановления информации позволяют пользователю получить информацию из базы данных, не выдавая никакой дополнительной информации серверам, на которых хранится данная база. Бэтч коды были придуманы, чтобы уменьшить вычислительную сложность таких протоколов, а также в связи с некоторыми другими криптографическими задачами. Несмотря на то, что бэтч коды изучены в достаточно большом количестве работ, существует большой зазор между теоретическими информационными границами на избыточность таких кодов и практическими конструкциями. Наилучшие конструкции в настоящий момент основаны на конструкциях графов без коротких циклов и кодах с кратностями. Также известны и другие конструкции, полученные с помощью кодов Рида-Маллера, кодов-экспандеров, рекурсивного применения тривиальных конструкций бэтч кодов. Мы предлагаем построить коды, использующие соображения комбинаторной геометрии. Для улучшения теоретических границ для избыточности таких кодов мы будем развивать полиномиальный метод, частный случай которого использовался для доказательства текущей границы. Второе направление в данном проекте будет посвящено исследованию локально восстанавливаемым (ЛВ) кодам. Такие коды уже используются в очень масштабных системах хранения таких как Microsoft Azure и Hadoop. ЛВ коды позволяют восстановить любой стертый бит информации при считывании небольшого числа других бит. Для восстановления сразу нескольких стертых бит вводится дополнительное требование - минимальное расстояние в коде должно быть не меньше некоторого наперед заданного числа. ЛВ коды достаточно хорошо изучены, но все равно остаются неизвестными некоторые фундаментальные вопросы. Например, какой может быть максимальная длина оптимальных кодов, т.е. кодов, лежащих на границе типа Синглтона. Оптимальные конструкции основаны на подкодах Рида-Соломона и кодах на алгебраических кривых. Мы планируем улучшить текущие конструкции (в смысле максимальной длины оптимальных кодов), рассмотрев классы кодов, основанных на конечных геометриях и кодах с фиксированным весом. Обе задачи взаимосвязаны, как и методы исследований, которые будут применяться при их изучении: с помощью методов конечных геометрий, равновесных кодов необходимо строить коды с хорошими восстанавливающими способностями. Основные цели для нас в рамках данного проекта - исследовать задачи с непосредственными приложениями, а также укрепить связи с международным научным сообществом. Задачи имеют значительный интерес в научном и индустриальном кругах, и любое продвижение может ускорить развитие современных надежных многопользовательских систем хранения данных.

Ожидаемые результаты
1) Мы планируем улучшить конструкции бэтч кодов при ряде параметров, воспользовавшись новыми (для данного типа задач) соображениями из конечных геометрий и алгебраической геометрии. Данные конструкции можно будет использовать на практике, поскольку они будут иметь довольно хорошую структуру описания. Ожидается 1-2 журнальные статьи (в IEEE Transactions on Information Theory) и публикация на рецензируемой конференции (IEEE International Symposium on Information Theory). 2) Будет улучшена нижняя граница избыточности бэтч кодов с помощью модификации полиномиального метода. Планируется публикация в журнале по компьютерным наукам (IEEE International Symposium on Information Theory) или математическом журнале (Journal of Combinatorial Theory, Series A). 3) Мы ожидаем улучшение конструкций оптимальных ЛВ кодов при различных параметрах минимального расстояния в коде, используя соображения из конечных геометрий и теории кодов с фиксированным весом. Ожидается 1 журнальных статьи (IEEE Transactions on Information Theory) и публикация на рецензируемой конференции (ACM-SIAM Symposium on Discrete Algorithms). Оптимальные конструкции ЛВ кодов с большой длиной и для малых значениях алфавита имеют непосредственное применение в системах хранения данных на серверах. Другие запланированные результаты являются очень важными в мировой научной среде, поскольку бэтч кодам посвящено множество работ в последние годы, но до сих пор существует большой зазор между верхними и нижними границами на избыточность


 

ОТЧЁТНЫЕ МАТЕРИАЛЫ


Аннотация результатов, полученных в 2019 году
В рамках проекта в течение первого года были исследованы и предложены новые конструкции бэтч кодов и кодов для конфиденциального восстановления информации. Все полученные результаты можно разбить на две смысловые части. 1) Были исследованы новые алгебраические конструкции кодов, которые являются в некотором смысле обобщением кодов Рида-Маллера и кодов Рида-Соломона (РС). Опишем общую конструкцию более подробно. Два полинома от одной переменной над конечным полем будем называть эквивалентными до некоторого порядка, если вычисления этих полиномов и всех производных до этого порядка включительно во всех точках поля совпадают. Полином от нескольких переменных над конечным полем назовем хорошим, если его ограничение на произвольную прямую в пространстве эквивалентно до некоторого порядка полиному ограниченной степени. Тогда расширенный код с кратностями задается как вычисление хороших полиномов вместе со всеми частными производными во всех точках пространства. В рамках проекта был исследован вопрос использования расширенных кодов с кратностями от двух переменных в качестве бэтч кодов. Эта конструкция позволила улучшить ранее известные результаты для некоторых параметров бэтч кодов. В случае, когда производные не вычисляются, указанная выше конструкция также называется расширенным РС-кодом, поскольку ограничение произвольного кодового слова на прямую в пространстве представляет собой слово РС-кода. Отметим, что это свойство автоматически гарантирует хорошие локальные свойства предложенных кодов, но не означает, что его можно использовать как конструкцию бэтч кодов. Другая задача из данного направления связана с анализом скорости расширенного РС-кода от трех переменных, которая вычисляется как доля хороших мономов к общему числу мономов. Показано, что для вычисления числа плохих мономов как функции от степени расширения двоичного поля можно воспользоваться рекуррентной формулой третьего порядка. Вычисляя максимальное по модулю собственное значения матрицы, описывающей рекуррентное соотношение, можно оценить скорость расширенного РС-кода. Этот результат позволил улучшить прежние оценки на избыточность кодов для конфиденциального восстановления информации при определенных параметрах. 2) Предложен новый подход к построению бэтч кодов, который основан на свойствах и конструкциях из конечных геометрий. Опишем сначала конструкцию, существование которой доказано вероятностным методом. Для построения порождающей матрицу вида G=[I E] систематического бэтч кода определим E как матрицу инцидентности случайно выбранных подмножеств точек в афинной плоскости. Для получения подмножества точек возьмем прямую в плоскости с некоторой вероятностью и оставим на ней часть точек со второй вероятностью. При определении порождающей матрицы указанным выше способом мы устанавливаем взаимосвязь между информационными битами и точками плоскости, а также между проверочными битами и случайно выбранными подмножествами прямых. При определенных параметрах в случайной модели можно показать, что существует жадный алгоритм, который успешно находит непересекающиеся восстанавливающие множества для произвольного подмножества информационных бит с высокой вероятностью. Таким образом доказывается существование порождающей матрицы систематического линейного бэтч кода. Для описания второй явной конструкции воспользуемся также соображениями из конечных геометрий, но больших размерностей. Аналогично первой конструкции построим порождающую матрицу вида G=[I E] систематического бэтч кода, где E - это матрица инцидентности l-мерных аффинных подпространств в (2l+1)-мерном пространстве. Ключевым соображением в данной конструкции является следующее впервые предложенное определение. Семейство l-мерных подпространств назовем хорошим, если оно является частичным спрэдом, а также произвольное (l+1)-мерное подпространство, содержащее одно из подпространств семейства, пересекает лишь константное число подпространств. В рамках проекта было представлено хорошее семейство подпространств мощности примерно порядка размера поля. При этом каждое подпространство задается как линейная оболочка столбцов проверочной матрицы некоторого кода Рида-Соломона. Данная конструкция асимптотически имеет избыточность меньшую, чем первая конструкция, но не является такой гибкой с точки зрения выбора параметров.

 

Публикации

1. Полянская Р., Полянский Н., Воробьев И. Binary batch codes with improved redundancy IEEE Transactions on Information Theory, - (год публикации - 2020)

2. Полянская Р., Полянский Н. Batch codes based on lifted multiplicity codes Proceedings of the IEEE XVI International Symposium "Problems of Redundancy in Information and Control Systems", pp. 69-74 (год публикации - 2019) https://doi.org/10.1109/REDUNDANCY48165.2019.9003313

3. Полянский Н., Воробьев И. Trivariate Lifted Codes with Disjoint Repair Groups Proceedings of the IEEE XVI International Symposium "Problems of Redundancy in Information and Control Systems", pp. 64-68 (год публикации - 2019) https://doi.org/10.1109/REDUNDANCY48165.2019.9003339


Аннотация результатов, полученных в 2020 году
В рамках проекта в течение второго года были исследованы и предложены новые конструкции кодов, которые можно использовать в различных системах хранения информации. Первое направление исследований во втором году существенным образом расширяет и дополняет результаты, полученные в течение первого года проекта. Были исследованы различные аспекты кодов, обобщающих коды Рида-Соломона и коды с кратностями. Эти коды можно задать как вычисление хороших многочленов от многих переменных и всех их производных до фиксированной степени во всех точках пространства. Основное свойство хороших многочленов состоит в том, что при ограничении на произвольную прямую в пространстве они ведут себя как многочлены малой степени от одной переменной. Это свойство непосредственно гарантирует хорошие локальные восстанавливающие свойства кода. Для анализа скорости этих кодов мы исследовали подкод, содержащий все хорошие мономы. Таким образом, мы свели задачу к комбинаторному подсчету числа двоичных матриц с определенными ограничениями. Мы показали, что это число можно подсчитать с помощью рекуррентного соотношения порядка, равного числу переменных в многочленах. Полученные результаты позволяют утверждать, что рассматриваемые коды являются наилучшей на текущий момент конструкцией бэтч кодов и кодов для конфиденциального восстановления информации. Были исследованы алгоритмы списочного декодирования кодов, обобщающих коды Рида-Соломона и коды с кратностями. Это направление является новым в контексте рассматриваемых кодов. Предложенные алгоритмы декодирования существенным образом опираются на две нетривиальные идеи. Во-первых, с помощью биективного отображения, заданного стандартным следом расширенного поля, можно показать, что хорошие многочлены от нескольких переменных являются эквивалентыми в некотором смысле многочленам небольшой степени от одной переменной, заданным над расширенным полем. Таким образом, можно воспользоваться существующим алгоритмом списочного декодирования для случая одной переменной и найти список многочленов от одной переменной, находящихся на небольшом расстоянии от полученного зашумленного слова. Затем можно сформировать список многочленов от нескольких переменных, согласованных с первым списком. Однако, число подобных согласованных многочленов от нескольких переменных может оказаться велико. Чтобы уменьшить это число до константы, мы использовали другое соображение. Для этого мы рассмотрели целое семейство различных биективных отображений, которые находятся в так называемом общем положении, и на выходе алгоритма стали рассматривать лишь те многочлены, которые согласованы с каждым отображением из семейства. Использую подобную структуру, мы показали, как эффективно реализовать списочный алгоритм за полиномиальное время. Были рассмотрены коды для Z-канала с двухшаговым алгоритмом кодирования. Этот канал используется для моделирования различных асимметричных систем хранения и передачи информации. Для комбинаторной модели ошибок нам удалось найти максимальную долю исправляемых ошибок, при которой кодер может безошибочно передать экспоненциальное число сообщений. И теорема существования, и теорема несуществования опираются на два понятия, широко известных в теории кодирования: списочные коды с экспоненциальным размером и коды нулевой скорости с большой корректирующей способностью. На первом шаге кодер должен отослать кодовое слова из кода, который можно декодировать списком практически оптимальным образом для всех размеров списка. Между первым и вторым шагом кодер и декодер могут посчитать число произошедших ошибок, поскольку в этот момент используется канал обратной связи. Они формируют список сообщений, которые согласованы с частично принятым словом. Таким образом, на втором шаге остается лишь отличить настоящее сообщение от других сообщений в списке. Кодер посылает кодовое слово из кода, имеющего размер как у списка, но обладающего оптимальной корректирующей способностью. Мы показали, что подобная стратегия является оптимальной.

 

Публикации

1. Полянский Н. О списочном декодировании некоторых F_q-линейных кодов Проблемы передачи информации, - (год публикации - 2021)

2. Холцбаур Л., Полянская Р., Полянский Н., Воробьев И., Яякоби Э. Lifted Reed-Solomon codes and lifted multiplicity codes IEEE Transactions on Information Theory, - (год публикации - 2021)

3. Полянский Н. Two-stage coding over the Z-channel Proceeding 2021 IEEE International Symposium on Information Theory, - (год публикации - 2021)


Возможность практического использования результатов
Некоторые конструкции кодов (а именно lifted multiplicity codes) могут быть использованы в системах распределенного хранения данных на серверах, в которых необходимо снизить пиковую нагрузку на каждый сервер. Однако, практическая реализация должна быть существенным образом доработана с инженерной точки зрения с учетом всевозможных дополнительных ограничений, существующих в подобных системах. Руководителю проекта интересна и практическая составляющая данной задачи, и при взаимном соглашении он может проводить консультации для заинтересованных лиц.