КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 18-71-10001
НазваниеМетодология и инструментальная платформа разработки систем извлечения данных из произвольных электронных таблиц
Руководитель Шигаров Алексей Олегович, Кандидат технических наук
Организация финансирования, регион федеральное государственное бюджетное учреждение науки Институт динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук , Иркутская обл
Конкурс №30 - Конкурс 2018 года по мероприятию «Проведение исследований научными группами под руководством молодых ученых» Президентской программы исследовательских проектов, реализуемых ведущими учеными, в том числе молодыми учеными
Область знания, основной код классификатора 01 - Математика, информатика и науки о системах; 01-509 - Извлечение знаний, базы данных и базы знаний
Ключевые слова Извлечение информации, интеграция данных, понимание таблиц, управление неструктурированными данными, программирование на основе правил, порождающие программирование.
Код ГРНТИ20.00.00
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Актуальность проекта связана с тем, что в мире циркулирует большой объем произвольных таблиц в форматах HTML, PDF, EXCEL, CSV. Современные оценки, сделанные на основе изучения экспериментальных срезов содержания Веба (COMMON CRAWL и CLUEWEB), показывают, что их количество исчисляется сотнями миллионов (WEB TABLE CORPORA, DRESDEN WEB TABLE CORPUS). Предположительно они содержат сотни миллиардов фактов. Кроме того, такая информация характеризуется большим разнообразием и разнородностью компоновок, стилей, содержания, формам и форматов представления, а также высокой скоростью роста её объема. Таким образом, она может быть отнесена к Большим Данным.
Большой объем и свойства структуры таких таблиц делают их ценным источником в приложениях науки о данных и бизнес аналитики. Однако, как правило, они не сопровождаются явной семантикой необходимой для машинной интерпретации своего содержания так, как задумано их автором. Накапливаемая в них информация часто является неструктурированной и не стандартизированной. Анализ этих данных нуждается в их предварительном извлечении и трансформации к структурированному представлению с заданной формальной моделью.
Сегодня, сталкиваясь с перечисленными задачами, исследователи и разработчики прибегают к инструментальным средствам общего назначения, часто предлагая собственные реализации однотипных задач. В сравнении с последними, специализированные инструментальные средства могут позволить сократить время разработки целевого программного обеспечения, скрывая несущественные детали и фокусируясь на обозначенной проблемной области. Это особенно важно в тех случаях, когда необходимо в короткие сроки и при недостатке ресурсов разработать заказное или исследовательское программное обеспечение для массовой обработки слабоструктурированных данных из разнородных произвольных таблиц.
Проект направлен на создание методологии и инструментальной платформы для ускоренной разработки программных систем извлечения данных из произвольных электронных таблиц. Поставленная проблема охватывает задачи автоматического восстановления семантической разметки таблиц, концептуализации их естественно-языкового содержания, очистки и отслеживания происхождения табличных данных, генерации реляционных и связных данных, а также синтеза исходного кода программ трансформации табличных данных.
Научная новизна проекта состоит в том, что впервые будут разработаны теоретические основы порождения и исполнения программ трансформации слабоструктурированных табличных данных от произвольной к реляционной форме. Для этого, в т. ч., предусмотрено развитие принципиально нового формального языка анализа и интерпретации произвольных таблиц, который позволит выражать правила их трансформации. Впервые будут изучены и реализованы возможности автоматического восстановления семантической разметки коротких табличных текстов, согласованной с внешними концептуальными онтологиями, а также генерации целевых связных данных на основе извлечения информации из произвольных электронных таблиц.
В отличие от известных средств материализованной интеграции данных предлагаемая платформа ориентирована на работу с электронными таблицами со сложной структурой. По сравнению с ними, предлагаемое нами решение допускает произвольное расположением функциональных областей и единиц табличных данных, наличие иерархических отношений, выраженных не только компоновочными, но также стилистическими и содержательными свойствами. Современные системы извлечения данных из произвольных электронных таблиц ориентированы на работу с небольшим количеством (1-5) наиболее распространенных типов табличной структуры. В отличие от них ожидаемая платформа будет использовать гибкую объектную модель таблицы, не ограничивающую физическую (синтаксическую) и логическую (семантическую) структуру обрабатываемых таблиц. Ограничения, которые в конкурентных методологиях встраиваются в их алгоритмы и модели, предлагается выносить в высокоуровневое представление на основе правил, обеспечивающее порождение целевых алгоритмов.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Публикации
1. Шигаров А.О., Христюк В.В., Парамонов В.В., Юрин А.Ю., Дородных Н.О. Toward Framework for Development of Spreadsheet Data Extraction Systems Proc. 1st Workshop on Information Technologies: Algorithms, Models, Systems. CEUR Workshop Proceedings, vol. 2221, pp. 90-96 (год публикации - 2018)
2.
Шигаров А.О., Христюк В.В., Михайлов А.А., Парамонов В.В.
Software development for rule-based spreadsheet data extraction and transformation
42nd International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO 2019 - Proceedings, 1132-1137 (год публикации - 2019)
10.23919/MIPRO.2019.8756829
3.
Черкашин Е.А., Шигаров А.О., Парамонов В.В., Михайлов А.А.
Digital archives supporting document content inference
42nd International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO 2019 - Proceedings, 1037-1042 (год публикации - 2019)
10.23919/MIPRO.2019.8757196
4.
Шигаров А.О., Христюк В.В., Михайлов А.А.
TabbyXL: software platform for rule-based spreadsheet data extraction and transformation
SoftwareX, 10 (год публикации - 2019)
10.1016/j.softx.2019.100270
5.
Шигаров А.О., Христюк В.В., Михайлов А.А., Парамонов В.В.
TabbyXL: rule-based spreadsheet data extraction and transformation
Communications in Computer and Information Science, 1078, 59-75 (год публикации - 2019)
10.1007/978-3-030-30275-7_6
6. Шигаров А.О., Черепанов И.А., Черкашин Е.А., Дородных Н.О., Христюк В.В., Михайлов А.А., Парамонов В.В., Рожков Е.В., Юрин А.Ю. Towards end-to-end transformation of arbitrary tables from untagged portable documents (PDF) to linked data CEUR Workshop Proceedings, 2463, 1-12 (год публикации - 2019)
7.
Дородных Н.О., Юрин А.Ю.
Towards ontology engineering based on transformation of conceptual models and spreadsheet data: a case study
Advances in Intelligent Systems and Computing, 1046, 233-247 (год публикации - 2019)
10.1007/978-3-030-30329-7_22
8.
Парамонов В.В., Шигаров А.О., Ветрова В., Михайлов А.А.,
Heuristic algorithm for recovering a physical structure of spreadsheet header
Advances in Intelligent Systems and Computing, 1050, 140-149 (год публикации - 2020)
10.1007/978-3-030-30440-9_14
9. Дородных Н.О., Юрин А.Ю. Software conception for semantic interpretation CEUR Workshop Proceedings, 2463, 76-83 (год публикации - 2019)
10.
Дородных Н.О., Юрин А.Ю., Шигаров А.О.
Conceptual model engineering for industrial safety inspection based on spreadsheet data analysis
Communications in Computer and Information Science, 1126, 51-65 (год публикации - 2020)
10.1007/978-3-030-39237-6_4
11.
Юрин А.Ю., Дородных Н.О.
A reverse engineering process for inferring conceptual models from canonicalized tables
2019 International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), 0485-0490 (год публикации - 2020)
10.1109/SIBIRCON48586.2019.8958458
12.
Дородных Н.О., Юрин А.Ю.
Towards a universal approach for semantic interpretation of spreadsheets data
Proceedings of the 24th Symposium on International Database Engineering & Applications, Article No. 22, 1-9 (год публикации - 2020)
10.1145/3410566.3410609
13.
Юрин А.Ю., Дородных Н.О.
Experimental evaluation of a spreadsheets transformation in the context of domain model engineering
2020 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), 0388-0391 (год публикации - 2020)
10.1109/USBEREIT48449.2020.9117674
14.
Черепанов И.А., Михайлов А.А., Шигаров А.О., Парамонов В.В.
On automated workflow for fine-tuning deep neural network models for table detection in document images
2020 43rd International Convention on Information, Communication and Electronic Technology (MIPRO), 1130-1133 (год публикации - 2020)
10.23919/MIPRO48935.2020.9245241
15.
Парамонов В.В., Шигаров А.О., Ветрова В.В.
Table header correction algorithm based on heuristics for improving spreadsheet data extraction
Communications in Computer and Information Science, 1283, 147-158 (год публикации - 2020)
10.1007/978-3-030-59506-7_13
16.
Юрин А.Ю., Дородных Н.О.
Personal knowledge base designer: Software for expert systems prototyping
SoftwareX, 11, 100411 (год публикации - 2020)
10.1016/j.softx.2020.100411
17.
Дородных Н.О., Юрин А.Ю.
TabbyLD: A tool for semantic interpretation of spreadsheets data
Communications in Computer and Information Science, 1341, 315-333 (год публикации - 2021)
10.1007/978-3-030-68527-0_20
18.
Михайлов А.А., Шигаров А.О., Рожков Е.В., Черепанов И.А.
On graph-based verification for PDF table detection
2020 Ivannikov ISPRAS Open Conference, 91-95 (год публикации - 2021)
10.1109/ISPRAS51486.2020.00020
Публикации
1. Шигаров А.О., Христюк В.В., Парамонов В.В., Юрин А.Ю., Дородных Н.О. Toward Framework for Development of Spreadsheet Data Extraction Systems Proc. 1st Workshop on Information Technologies: Algorithms, Models, Systems. CEUR Workshop Proceedings, vol. 2221, pp. 90-96 (год публикации - 2018)
2.
Шигаров А.О., Христюк В.В., Михайлов А.А., Парамонов В.В.
Software development for rule-based spreadsheet data extraction and transformation
42nd International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO 2019 - Proceedings, 1132-1137 (год публикации - 2019)
10.23919/MIPRO.2019.8756829
3.
Черкашин Е.А., Шигаров А.О., Парамонов В.В., Михайлов А.А.
Digital archives supporting document content inference
42nd International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO 2019 - Proceedings, 1037-1042 (год публикации - 2019)
10.23919/MIPRO.2019.8757196
4.
Шигаров А.О., Христюк В.В., Михайлов А.А.
TabbyXL: software platform for rule-based spreadsheet data extraction and transformation
SoftwareX, 10 (год публикации - 2019)
10.1016/j.softx.2019.100270
5.
Шигаров А.О., Христюк В.В., Михайлов А.А., Парамонов В.В.
TabbyXL: rule-based spreadsheet data extraction and transformation
Communications in Computer and Information Science, 1078, 59-75 (год публикации - 2019)
10.1007/978-3-030-30275-7_6
6. Шигаров А.О., Черепанов И.А., Черкашин Е.А., Дородных Н.О., Христюк В.В., Михайлов А.А., Парамонов В.В., Рожков Е.В., Юрин А.Ю. Towards end-to-end transformation of arbitrary tables from untagged portable documents (PDF) to linked data CEUR Workshop Proceedings, 2463, 1-12 (год публикации - 2019)
7.
Дородных Н.О., Юрин А.Ю.
Towards ontology engineering based on transformation of conceptual models and spreadsheet data: a case study
Advances in Intelligent Systems and Computing, 1046, 233-247 (год публикации - 2019)
10.1007/978-3-030-30329-7_22
8.
Парамонов В.В., Шигаров А.О., Ветрова В., Михайлов А.А.,
Heuristic algorithm for recovering a physical structure of spreadsheet header
Advances in Intelligent Systems and Computing, 1050, 140-149 (год публикации - 2020)
10.1007/978-3-030-30440-9_14
9. Дородных Н.О., Юрин А.Ю. Software conception for semantic interpretation CEUR Workshop Proceedings, 2463, 76-83 (год публикации - 2019)
10.
Дородных Н.О., Юрин А.Ю., Шигаров А.О.
Conceptual model engineering for industrial safety inspection based on spreadsheet data analysis
Communications in Computer and Information Science, 1126, 51-65 (год публикации - 2020)
10.1007/978-3-030-39237-6_4
11.
Юрин А.Ю., Дородных Н.О.
A reverse engineering process for inferring conceptual models from canonicalized tables
2019 International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), 0485-0490 (год публикации - 2020)
10.1109/SIBIRCON48586.2019.8958458
12.
Дородных Н.О., Юрин А.Ю.
Towards a universal approach for semantic interpretation of spreadsheets data
Proceedings of the 24th Symposium on International Database Engineering & Applications, Article No. 22, 1-9 (год публикации - 2020)
10.1145/3410566.3410609
13.
Юрин А.Ю., Дородных Н.О.
Experimental evaluation of a spreadsheets transformation in the context of domain model engineering
2020 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), 0388-0391 (год публикации - 2020)
10.1109/USBEREIT48449.2020.9117674
14.
Черепанов И.А., Михайлов А.А., Шигаров А.О., Парамонов В.В.
On automated workflow for fine-tuning deep neural network models for table detection in document images
2020 43rd International Convention on Information, Communication and Electronic Technology (MIPRO), 1130-1133 (год публикации - 2020)
10.23919/MIPRO48935.2020.9245241
15.
Парамонов В.В., Шигаров А.О., Ветрова В.В.
Table header correction algorithm based on heuristics for improving spreadsheet data extraction
Communications in Computer and Information Science, 1283, 147-158 (год публикации - 2020)
10.1007/978-3-030-59506-7_13
16.
Юрин А.Ю., Дородных Н.О.
Personal knowledge base designer: Software for expert systems prototyping
SoftwareX, 11, 100411 (год публикации - 2020)
10.1016/j.softx.2020.100411
17.
Дородных Н.О., Юрин А.Ю.
TabbyLD: A tool for semantic interpretation of spreadsheets data
Communications in Computer and Information Science, 1341, 315-333 (год публикации - 2021)
10.1007/978-3-030-68527-0_20
18.
Михайлов А.А., Шигаров А.О., Рожков Е.В., Черепанов И.А.
On graph-based verification for PDF table detection
2020 Ivannikov ISPRAS Open Conference, 91-95 (год публикации - 2021)
10.1109/ISPRAS51486.2020.00020
Публикации
1. Шигаров А.О., Христюк В.В., Парамонов В.В., Юрин А.Ю., Дородных Н.О. Toward Framework for Development of Spreadsheet Data Extraction Systems Proc. 1st Workshop on Information Technologies: Algorithms, Models, Systems. CEUR Workshop Proceedings, vol. 2221, pp. 90-96 (год публикации - 2018)
2.
Шигаров А.О., Христюк В.В., Михайлов А.А., Парамонов В.В.
Software development for rule-based spreadsheet data extraction and transformation
42nd International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO 2019 - Proceedings, 1132-1137 (год публикации - 2019)
10.23919/MIPRO.2019.8756829
3.
Черкашин Е.А., Шигаров А.О., Парамонов В.В., Михайлов А.А.
Digital archives supporting document content inference
42nd International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO 2019 - Proceedings, 1037-1042 (год публикации - 2019)
10.23919/MIPRO.2019.8757196
4.
Шигаров А.О., Христюк В.В., Михайлов А.А.
TabbyXL: software platform for rule-based spreadsheet data extraction and transformation
SoftwareX, 10 (год публикации - 2019)
10.1016/j.softx.2019.100270
5.
Шигаров А.О., Христюк В.В., Михайлов А.А., Парамонов В.В.
TabbyXL: rule-based spreadsheet data extraction and transformation
Communications in Computer and Information Science, 1078, 59-75 (год публикации - 2019)
10.1007/978-3-030-30275-7_6
6. Шигаров А.О., Черепанов И.А., Черкашин Е.А., Дородных Н.О., Христюк В.В., Михайлов А.А., Парамонов В.В., Рожков Е.В., Юрин А.Ю. Towards end-to-end transformation of arbitrary tables from untagged portable documents (PDF) to linked data CEUR Workshop Proceedings, 2463, 1-12 (год публикации - 2019)
7.
Дородных Н.О., Юрин А.Ю.
Towards ontology engineering based on transformation of conceptual models and spreadsheet data: a case study
Advances in Intelligent Systems and Computing, 1046, 233-247 (год публикации - 2019)
10.1007/978-3-030-30329-7_22
8.
Парамонов В.В., Шигаров А.О., Ветрова В., Михайлов А.А.,
Heuristic algorithm for recovering a physical structure of spreadsheet header
Advances in Intelligent Systems and Computing, 1050, 140-149 (год публикации - 2020)
10.1007/978-3-030-30440-9_14
9. Дородных Н.О., Юрин А.Ю. Software conception for semantic interpretation CEUR Workshop Proceedings, 2463, 76-83 (год публикации - 2019)
10.
Дородных Н.О., Юрин А.Ю., Шигаров А.О.
Conceptual model engineering for industrial safety inspection based on spreadsheet data analysis
Communications in Computer and Information Science, 1126, 51-65 (год публикации - 2020)
10.1007/978-3-030-39237-6_4
11.
Юрин А.Ю., Дородных Н.О.
A reverse engineering process for inferring conceptual models from canonicalized tables
2019 International Multi-Conference on Engineering, Computer and Information Sciences (SIBIRCON), 0485-0490 (год публикации - 2020)
10.1109/SIBIRCON48586.2019.8958458
12.
Дородных Н.О., Юрин А.Ю.
Towards a universal approach for semantic interpretation of spreadsheets data
Proceedings of the 24th Symposium on International Database Engineering & Applications, Article No. 22, 1-9 (год публикации - 2020)
10.1145/3410566.3410609
13.
Юрин А.Ю., Дородных Н.О.
Experimental evaluation of a spreadsheets transformation in the context of domain model engineering
2020 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT), 0388-0391 (год публикации - 2020)
10.1109/USBEREIT48449.2020.9117674
14.
Черепанов И.А., Михайлов А.А., Шигаров А.О., Парамонов В.В.
On automated workflow for fine-tuning deep neural network models for table detection in document images
2020 43rd International Convention on Information, Communication and Electronic Technology (MIPRO), 1130-1133 (год публикации - 2020)
10.23919/MIPRO48935.2020.9245241
15.
Парамонов В.В., Шигаров А.О., Ветрова В.В.
Table header correction algorithm based on heuristics for improving spreadsheet data extraction
Communications in Computer and Information Science, 1283, 147-158 (год публикации - 2020)
10.1007/978-3-030-59506-7_13
16.
Юрин А.Ю., Дородных Н.О.
Personal knowledge base designer: Software for expert systems prototyping
SoftwareX, 11, 100411 (год публикации - 2020)
10.1016/j.softx.2020.100411
17.
Дородных Н.О., Юрин А.Ю.
TabbyLD: A tool for semantic interpretation of spreadsheets data
Communications in Computer and Information Science, 1341, 315-333 (год публикации - 2021)
10.1007/978-3-030-68527-0_20
18.
Михайлов А.А., Шигаров А.О., Рожков Е.В., Черепанов И.А.
On graph-based verification for PDF table detection
2020 Ivannikov ISPRAS Open Conference, 91-95 (год публикации - 2021)
10.1109/ISPRAS51486.2020.00020