Новости

5 июля, 2022 14:15

Нейросеть от ученых МГУ оцифровала 10 тысяч астрономических рукописей о солнечной активности

Сотрудники МГУ вместе с пермскими и немецкими коллегами смогли перевести в цифровой формат тысячи рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе. В этом им помогла нейросетевая модель, которая способна с высокой точностью читать написанные от руки тексты. В результате авторы смогли детально восстановить картину солнечной активности за более чем 30 лет наблюдений, что позволит астрономам уточнить представления о характере солнечной активности и особенностях солнечных циклов того времени. Результаты работы, поддержанной грантом Российского научного фонда, опубликованы в журнале Solar Physics.
Источник: пресс-служба МГУ им. М.В.Ломоносова

Человечество наблюдает солнечные пятна с помощью телескопов уже более четырех веков. В те далекие времена записи велись от руки, а в наше время специалисты занимаются их расшифровкой и оцифровкой. Занятие этим вручную — долгий и трудоемкий процесс, а потому специалисты прибегают к помощи искусственного интеллекта. 

В своей новой работе исследователи Московского университета совместно с коллегами из Института механики сплошных сред УрО РАН (Пермь) и Потсдамского астрофизического института имени Лейбница (Германия) занялись переведением в цифровой формат рукописей о солнечной активности конца XIX — начала XX веков из обсерватории в Цюрихе.

«Мы разработали нейросетевую модель, которая с высокой точностью читает рукописный текст. В нашем случае текстом были координаты активных областей Солнца, записанные в таблицы. Примечательно, что ни одна из готовых программ, которые мы тестировали в начале процесса, не показывала удовлетворительного качества. Поэтому пришлось разрабатывать собственную модель — за это отвечали сотрудники МГУ», — рассказал Егор Илларионов, кандидат физико-математических наук, доцент кафедры теории вероятностей механико-математического факультета МГУ.

Несколько особенностей делают модель уникальной. Во-первых, помимо результата распознавания, она возвращает оценку уверенности как в числе целиком, так и в каждом отдельном символе, составляющем число, и предлагает набор возможных интерпретаций. Это помогает при дополнительной проверке результатов. Во-вторых, удалось разработать процедуру, которая позволяет модели «в режиме онлайн» адаптироваться под новые стили почерка (наблюдатели, заполнявшие каталог, неоднократно менялись за 30 лет) и особенности страниц. Это позволило значительно повысить точность по сравнению с моделью, которая работает с фиксированными предобученными параметрами.

С помощью разработанной нейросетевой модели удалось впервые оцифровать (прочесть) более десяти тысяч страниц рукописных каталогов по солнечной активности на рубеже XIX—XX веков. В результате удалось восстановить детальную картину положений солнечных пятен, факелов и протуберанцев за более чем 30 лет наблюдений. Это позволит астрономам лучше узнать прошлое Солнца, уточнить представления о характере солнечной активности и особенностях солнечных циклов в историческом периоде.

«В работе нужно выделить два аспекта. Во-первых, опубликован новый детальный датасет, охватывающий более чем 30 лет наблюдений, проводимых Цюрихской обсерваторией (одной из старейших в мире) в конце XIX — начале XX веков. Этот набор данных существенно уточняет наше представление о характере солнечной активности в историческом периоде и теперь доступен для исследования специалистам по солнечной физике. Во-вторых, предложенная технология распознавания текста в документах может быть адаптирована к самым разным задачам, в частности там, где ручная обработка оказывается слишком трудоемкой из-за больших объемов текстов», — подытожил Егор Илларионов.

2 декабря, 2024
Ученые РФ и Турции обнаружили 44 новых полезных вещества в плодах жимолости
Российские и турецкие исследователи изучили состав ягод жимолости, которые обладают мощными антиок...
2 декабря, 2024
Древовидные молекулы доставят ДНК-вакцины в клетки
Ученые предложили простой и дешевый способ синтеза дендримеров — древовидных органических соединен...