КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ

Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.

ОБЩИЕ СВЕДЕНИЯ

Номер 19-18-00525

НазваниеПонятность официального русского языка: юридическая и лингвистическая проблематика

РуководительБлинова Ольга Владимировна, Кандидат филологических наук

Организация финансирования, регион федеральное государственное бюджетное образовательное учреждение высшего образования "Санкт-Петербургский государственный университет", г Санкт-Петербург

Период выполнения при поддержке РНФ

2019 г. - 2021 г.

, продлен на 2022 - 2023. Карточка проекта продления (ссылка)

Конкурс№35 - Конкурс 2019 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами».

Область знания, основной код классификатора 08 - Гуманитарные и социальные науки, 08-453 - Языкознание

Ключевые словаСовременный русский язык, официальный язык, информационное общество, электронное правительство, информационно-телекоммуникационные технологии, социолингвистика, восприятие языка, языковая сложность, юридическая лингвистика, лингвистический корпус

Код ГРНТИ16.21.33

СтатусУспешно завершен

ИНФОРМАЦИЯ ИЗ ЗАЯВКИ

Аннотация
Проект направлен на решение фундаментальной научной проблемы определения и описания языковых характеристик текстов, которые влияют на интерпретацию этих текстов носителями языка как “простых” или “сложных”, “понятных” или “непонятных”. Объект исследования — тексты документов на русском языке. Будут рассматриваться документы, выпущенные государственными учреждениями, а также тексты документов органов государственной власти, органов местного самоуправления, государственных и муниципальных организаций (учреждений, унитарных предприятий). Исследование будет развиваться в двух направлениях: “перцептивно-когнитивном” и “дескриптивном”. Материалом для перцептивного направления станут данные масштабного социолингвистического опроса, направленного на выяснение стратегий восприятия и понимания текстов официальных документов рядовыми носителями русского языка. Дескриптивное направление будет подразумевать описание языка документов, выполненное корпусными методами. Проект мыслится как принципиально междисциплинарный, то есть задуманный и реализуемый в тесном сотрудничестве между лингвистами и юристами. Целью исследования является исследование проблемы доступности и понятности текстов официальных документов во взаимодействии государственных, муниципальных органов и граждан, организаций. Конечной целью исследования станет выработка механизмов преодоления коммуникативного барьера между государством и обществом. Научная значимость проекта определяется тем, что в его ходе будет выработан и применен научный аппарат определения языковой сложности текстов (на русском языке). Этот аппарат будет основан не на традиционных квантитативных методиках оценки сложности текстов (алгоритмах оценки с применением “формул удобочитаемости”, readability formulas), а на стратегиях носителей языка, полученных в ходе социолингвистического эксперимента, а также на более пристальном рассмотрении собственно языковых свойств текстов (прежде всего, их синтаксической организации). Реализация проекта предполагает решение следующих задач: 1. Проведение масштабного социолингвистического эксперимента. В рамках опроса будут исследованы трудности, с которыми сталкиваются носители русского языка при восприятии и интерпретации официальных текстов. 2. Формирование списка перцептивно сложных явлений. 3. Создание лингвистически размеченного Корпуса русских локальных документов и актов объёмом 1,5 млн. токенов, содержащего в том числе разметку перцептивно-когнитивных сложных явлений. Публикация корпуса в сети Интернет. 4. Корпусно-ориентированное квантитативное исследование перцептивно-когнитивных сложных явлений. 5. Широкий мониторинг официальных сайтов государственных органов (планируется оценить контент 200 сайтов). 6. Написание “Концепции использования государственного языка в деятельности государственных и муниципальных органов и организаций”. 7. Написание коллективной монографии по результатам проекта. Актуальность задач проекта определяется важностью и высокой практической значимостью решения проблемы непонятности официальных текстов для их адресатов. Развитие информационного общества, формирование общества знаний, национальной цифровой экономики относятся к приоритетным направлениям политики Российской Федерации. Активно реализуются меры по развитию информационной и коммуникационной инфраструктуры. Это развитие предполагает переход государственных органов и органов местного самоуправления к использованию инфраструктуры электронного правительства, внедрение цифровых платформ работы с данными. Для этого необходимо единое коммуникативное информационное пространство, то есть необходимо обеспечить доступность и понятность официальных текстов, их ориентированность на адресата.

Ожидаемые результаты
В ходе реализации проекта будут получены следующие основные результаты: 1) Научное описание перцептивно и когнитивно сложных явлений официального текста, выполненное на материале масштабного социолингвистического исследования. 2) Научное описание сложных явлений официального текста, выполненное на корпусном материале. 3) Лингвистически размеченный Корпус русских локальных документов и актов “CorRIDA”, содержащий в том числе метаразметку по степени языковой сложности. Корпус объёмом не менее 1,5 млн. токенов будет размещен в открытом доступе в сети Интернет и будет доступен для скачивания. 4) Концепция использования государственного языка в деятельности государственных и муниципальных органов и организаций. 5) Коллективная монография по результатам выполнения проекта. Научная значимость результатов проекта определяется тем, что в его ходе будет выработан и применен аппарат описания языковой сложности текстов на русском языке. Этот аппарат будет основан не на традиционных квантитативных методиках оценки сложности текстов (так называемых “формулах удобочитаемости”), а на оценках носителей языка, полученных в ходе социолингвистического эксперимента, а также на корпусно-ориентированном рассмотрении собственно языковых свойств текстов (прежде всего, их синтаксической организации). Полученные научные результаты найдут свое отражение в серии статей в изданиях, входящих в российские и международные базы цитирования, в том числе Scopus и Web of Science, будут представлены научной общественности на всероссийских и международных конференциях, а также обобщены в коллективной монографии.

ОТЧЁТНЫЕ МАТЕРИАЛЫ

Аннотация результатов, полученных в 2019 году
На первом этапе выполнения работ по проекту исследование развивалось в рамках трёх основных направлений: I. Сбор, систематизация и анализ данных массового социолингвистического опроса. II. Обработка и анализ текстов корпуса русских локальных документов и актов CorRIDA. III. Разработка методики мониторинга официальных сайтов государственных органов и органов местного самоуправления. Согласно заявленному плану, были решены следующие задачи. I.1. Выполнена предварительная обработка данных социолингвистического опроса, имевшихся на момент старта проекта. Выделены группы респондентов, описан состав групп. По параметру «возраст» выделены следующие группы: молодые (18-28 лет), взрослые (женщины 29-54 лет и мужчины 29-59 лет), возрастные (женщины старше 55 лет, мужчины старше 60 лет). По уровню образования были выделены следующие основные группы: респонденты с высшим гуманитарным образованием, высшим техническим образованием, неоконченным высшим, средним образованием (специальным и общим). В соответствии с опытом работы с официальными документами выделены следующие группы: «нет опыта», «есть небольшой опыт», «есть значительный опыт». I.2. Выполнен анализ данных массового социолингвистического опроса с целью выяснить, каких именно респондентов не хватает для сбалансированной представленности основных категорий респондентов. Выяснилось, что для формирования сбалансированной выборки недоставало в первую очередь респондентов без высшего образования. I.3. Получены ответы от респондентов недостающих категорий, общее число респондентов достигло 400. Соответственно, опрошено еще 96 взрослых респондентов со средним образованием, а также 65 респондентов с неоконченным высшим, 9 старшеклассников. I.4. Выполнен количественный и качественный анализ совокупного количества ответов на анкеты массового социолингвистического опроса. Количественный анализ показал, что состав итоговой выборки может бать охарактеризован следующим образом. а) По критерию «возраст»: «молодые»: 158 респондентов, «взрослые»: 176 респондентов, «возрастные»: 63 респондента, не указали возраст: 3 респондента. b) По критерию «пол»: 235 респондентов-женщин, 165 респондентов-мужчин. c) По критерию «уровень образования»: среднее специальное и общее – 94 человека, высшее гуманитарное (в т.ч. юридическое) – 111 человек, высшее техническое – 106 человек, неоконченное высшее – 79 человек, старшеклассники, достигшие 16-летнего возраст – 9 человек, не указал уровень образования – 1 человек. d) По критерию «опыт работы с официальными документами»: значительным опытом обладает 101 респондент, небольшим опытом – 179 респондентов, нет опыта у 96 респондентов, на дали ответа на этот вопрос 24 респондента. Качественный анализ анкет позволил выделить типовые ответы. Каждый ответ был отнесен к тому или иному типу, выделенному исходя из стратегии интерпретации текста и вопроса (например, респондент отвечает, исходя из общих соображений или по тексту, копирует текст или обобщает его, выискивает скрытый смысл и т.д.). I.5. Выполнена обработка данных массового социолингвистического опроса. В частности, создана таблица в формате MS Excel, аккумулирующая информацию о полученных ответах; таблица заполнена ответами 200 респондентов. II.1. Произведена предварительная обработка текстов доменов «Образование» и «Культура», вошедших в корпус русских локальных документов и актов CorRIDA. Такая обработка включала прежде всего следующие шаги: перевод всех собранных текстов корпуса в формат «плоский текст»; очищение текстов корпуса от множественных пробелов, множественных табуляций, следов html-тегов, указаний на нумерацию страниц документа и др.; исправление опечаток и других недостатков, могущих в дальнейшем затруднить анализ текстов; анонимизация текстов; снабжение текстов тегами <s>, <\s> маркирующими начало и конец фразы; токенизация текстов. В общей сложности на этапе 2019 г. предварительной обработке подверглось 969 документов (т.е. все документы корпуса, относящиеся к доменам «Образование» и «Культура»). II.2. Создана реляционная база данных CorRIDA_v1 в формате Apache Open Office Base, описывающая тексты в составе корпуса. Каждая таблица базы данных соответствует определённому домену и типу текста внутри домена. II.3. Произведена апробация алгоритмов автоматической оценки читабельности текстов на материале текстов корпуса. Апробации подверглись только алгоритмы оценки читабельности, адаптированные для применения к текстам на русском языке. При апробации использовался API, разработанный Иваном Бегтиным(https://github.com/ivbeg/readability.io/wiki/API). Был учтён опыт группы казанских лингвистов и математиков, занимающейся оценкой сложности текстов на русском языке под руководством В.Д. Соловьева и М.И. Солнышкиной, а также опыт лингвистов НИУ ВШЭ, в первую очередь – К.Ю. Дружкина. Были выбраны три формулы читабельности. Во всех этих формулах представлены значения констант, вычисляемых применительно к конкретному языку (или даже к определённым жанровым разновидностям текстов на конкретном языке). При тестировании алгоритмов оценки сложности с применением формул читабельности можно было (1) использовать готовый API, (2) использовать только значения коэффициентов (констант), а все значения переменных вычислять самостоятельно. При тестировании выяснилось, что значения индексов читабельности, вычисленных способом (1) и (2), и применённых выборочно к текстам корпуса CorRIDA, сильно разнятся. II.4. Выбраны индексы удобочитаемости (три индекса), решено использовать значения коэффициентов (констант), предложенные И. Оборневой и И. Бегтиным, но не использовать готовый API. Взяты следующие формулы, значения переменных подсчитывались самостоятельно с использованием результатов сегментации на предложения и токены: формула Флеша-Кинкейда (Flesch-Kincaid) в редакции И.В. Оборневой; индекс Колман-Лиау (Coleman-Liau); автоматизированный индекс читабельности (Automated Readability Index). II.5. Для всех текстов домена «Медицина» (включающего 602 документа) подсчитаны индексы читабельности. Получение значений индексов читабельности позволила ранжировать тексты по сложности. Информация об удобочитаемости текстов помещена в реляционную базу данных CorRIDA_v1, аккумулирующую метаданные для текстов корпуса CorRIDA. III. Выработана методика проведения мониторинга официальных сайтов государственных органов и органов местного самоуправления: разработаны критерии включения сайтов в список сайтов, подлежащих мониторингу; определён перечень сайтов для мониторинга; сформулированы критерии оценки контента сайтов, написана «Инструкция по проведению мониторинга официальных сайтов государственных органов». Мониторинг официальных сайтов позволит оценить соответствие содержания таких сайтов требованиям доступности информации о деятельности государственных органов и органов местного самоуправления, а также рассмотреть информационное содержание сайтов с точки зрения его понятности адресату – пользователю сайта. Для решения этой задачи введены критерии рассмотрения сайтов: во-первых, полнота информации (содержательный критерий), во-вторых, наличие/отсутствие юридико-лингвистической неопределенности, в-третьих, уровень читабельность текстов на официальных сайтах (формально-языковой критерий). Все заявленные на 2019 г. задачи выполнены в полном объеме. Полученные научные результаты первого этапа проекта таковы. 1) Сформирован актуальный на момент старта проекта список из 230 респондентов с распределением по группам в соответствии с возрастом, образованием, профессией и занятиями, а также в соответствии с компетенциями в работе с документами. Проведена работа над сбалансированностью выборки; выяснено, что в выборке недостаёт прежде всего респондентов со средним образованием. 2) Собраны заполненные респондентами электронные и бумажные анкеты. В общей сложности получены ответы от 400 респондентов, 170 из них собраны после старта проекта. 3) Важным теоретическим результатом работы на отчётном этапе реализации проекта является система обозначения типовых ответов и выставления баллов, отражающих компетенции респондентов в работе со сложными текстами. Подготовлено описание основных типов вопросов, включённых в анкеты (тип 1 – предметные вопросы по тексту, направленные на проверку понимания документа; тип 2 -- вопросы о языковых особенностях текстов, которые вызывают затруднения при чтении; тип 3 – вопросы, направленные на проверку понимания более общих характеристик текста; тип 4 – вопросы оценочного характера, выявляющие отношение носителей языка к документу). Разработана система оценки ответов, позволяющая судить о компетенции респондента. Введены коды для обозначения типовых ответов. 4) Создана реляционная база данных Questionnaire_v1 в формате Apache Open Office Base с таблицей «Answers», описывающей основные типы ответов (в форме специальных кодов), количество баллов, выставленных экспертами при оценке ответа на первую или третью часть анкеты, а также уровни компетенции респондентов, оцененные по результатам по результатам анализа ответов и выставления баллов. В базу данных сведены общая таблица с данными о 400 респондентах и таблица с ответами от 200 респондентов. 5) Тексты, вошедшие в подкорпусы доменов «Образование» и «Культура» корпуса CorRIDA, прошли предварительную обработку и анонимизацию. В общей сложности обработано 969 документов, в том числе 495 документов, относящихся к домену «Культура», и 474 документа, относящихся к домену «Образование». 6) Сформирована база данных CorRIDA_v1 в формате Apache Open Office Base, аккумулирующая метаданные к текстам в составе корпуса. Данные о документах домена «Медицина» дополнены информацией, необходимой для оценки языковой сложности текстов: ASL (average sentence length, средняя длина предложения в словах), ASW (average number of syllables per word, средняя длина слова в слогах), TTR (type-token ratio). Для одного типа текста домена «Медицина» (Договор об оказании платных услуг) подсчитаны также значения других мер лексического разнообразия (Herdan’s C, Guiraud's Root TTR) и количество гапаксов. 7) Вычислены индексы читабельности текстов домена «Медицина». 8) На материале корпуса CorRIDA проведены исследования лексической сложности текстов, отражённые в публикациях. 9) В рамках мониторинга официальных сайтов государственных органов и органов местного самоуправления выработаны критерии формирования списка сайтов, подлежащих мониторингу; cформирована инструкция по проведению мониторинга официальных сайтов государственных органов с описанием критериев оценки языкового контента сайтов, сформирован список сайтов для мониторинга. 10) Результаты первого этапа проекта отражены в публикациях научного коллектива. 11) Кроме того, для обнародования результатов проекта создан сайт «Понятность официального русского языка: юридическая и лингвистическая проблематика», доступный по адресу http://www.plaindocument.org/.

Публикации

1. Белов С.А., Гулида В.Б. Язык юридических документов: сложности понимания Acta Linguistica Petropolitana. Труды Института лингвистических исследований РАН, Т. 15. Ч. 1. (год публикации - 2019) https://doi.org/10.30842/alp2306573715104

2. Белов С.А., Тарасова К.В. Понятность текстов юридических документов: фикция или презумпция? Вестник Санкт-Петербургского университета. Право, том 10, №4(2019), С. 610-625 (год публикации - 2019) https://doi.org/10.21638/spbu14.2019.401

3. Блинова О.В. Низкочастотные слова в русском языке и подходы к моделированию общеязыковой частотности Социо- и психолингвистические исследования, Вып. 7. С. 7-13 (год публикации - 2019)

4. Блинова О.В., Белов С.А. Русские официальные документы домена “Здравоохранение” и оценка их лексической сложности с использованием ключевых слов Труды международной конференции «Корпусная лингвистика-2019», С. 166-173 (год публикации - 2019)

5. Руднева Е.А. Отношение носителей русского языка к сложным документам (по материалам социолингвистического опроса) IV Фирсовские чтения. Язык в современных дискурсивных практиках: материалы докладов и сообщений Международной научно-практической конференции. Москва 22 - 23 октября 2019 / под ред. А.С. Борисовой, А.В. Игнатенко, Т.В. Лариной, О.В. Ломакиной. М.: РУДН., С. 488-493 (год публикации - 2019)

6. Блинова О.В., Белов С.А. Legal corpus «CorRIDA» and lexical complexity assessment of Russian official texts “Contemporary Approaches to Legal Linguistics”: 1st International Conference of the Austrian Association for Legal Linguistics 8th-10th November 2019, University of Vienna. Book of Abstracts., P. 42 (год публикации - 2019)

7. - Эксперт СПбГУ: «Учить понимать законы нужно со школы» Новостной портал СПбГУ, Эксперт СПбГУ: «Учить понимать законы нужно со школы» // Новостной портал СПбГУ. Рубрика "крупным планом" (12.12.2019). URL: https://spbu.ru/news-events/krupnym-planom/ekspert-spbgu-uchit-ponimat-zakony-nuzhno-so-shkoly (год публикации - )

Аннотация результатов, полученных в 2020 году
I. По первому (перцептивному) направлению исследований получены прежде всего следующие результаты. I.1. Завершена обработка данных массового социолингвистического опроса, направленного на оценку компетенций носителей в работе со сложными текстами трех доменов («Образования», «Медицины», «Культуры»). В ходе обработки ответов респондентов усовершенствована система типизации ответов и кодирования. Кодирование ответов всех респондентов трансформировано в соответствии с доработанной системой кодирования. База данных «Questionnaire» заполнена кодами ответов, полученными от всех 400 респондентов, теперь она содержит ответы респондентов по текстам всех трёх социально значимых доменов. I.2. На основе доработанной системы оценки ответов и системы распределения баллов оценки компетенции в работе со сложными текстами проведён анализ результатов оценивания ответов в социальных подгруппах. Выявленные различия компетенций рассмотрены с точки зрения объективных факторов формирования компетенции: уровня образования; возраста; опыта работы с документами; занятости в последние 5-10 лет. Оценена индивидуальная компетенция респондентов и средняя по группам. В результате выяснилось, в частности, что респонденты с неоконченным высшим образованием демонстрируют более высокий уровень компетенции, чем респонденты с оконченным высшим. По-видимому, в ходе обучения им приходится более активно работать со сложными текстами (а после окончания периода обучения этот навык постепенно пропадает. Кроме того, проанализированы различия в стратегиях интерпретации текста информированного согласия на медицинское вмешательство простыми носителями языка (неспециалистами) и медицинскими работниками. Для выявления различий в восприятии медицинского официального документа проведено 10 полуструктурированных интервью с врачами разных специальностей. Выяснилось, что врачи разделяют недоумение пациентов по поводу общей процедуры подписания информированного согласия: так, документ, в котором значится, что пациенту «сообщена, разъяснена и понятна информация о гарантиях», предполагает беседу с врачом, которая обычно проводится после подписания и занимает немного времени – около 5 минут. С другой стороны, выражения, которые вызывают непонимание, страх и чувство неуверенности у респондентов без медицинского образования, могут восприниматься врачами нейтрально. I.3. Проведено исследование того, как носители воспринимают административные объявления с признаками канцелярита, размещенные в общественных местах. Материалом исследования стали результаты онлайн опроса (получены ответы от 141 респондента) и серии полуструктурированных интервью (проинтервьюировано 26 человек в возрасте от 20 до 83 лет). Представляя эмоциональную оценку респондентов в простых терминах, можно выделить следующие варианты отношения: а) респонденты относятся к этому варианту языка в целом негативно, хотели бы видеть более простые и ясные формулировки; б) респонденты оправдывают, оценивают вариант положительно, ср.: «так должно быть», «вежливо», «официально», «профессионально»; в) для некоторых носителей характерно равнодушие к языку, отсутствие рефлексии. I.4. Выполнен анализ данных массового социолингвистического опроса с целью формирования списка перцептивно трудных явлений официальных текстов. Проанализированы ответы на вопросы, касающиеся трудностей, возникающих при восприятии текстов трёх доменов, напр.: «Какие из пунктов этого Согласия вызвали у Вас затруднения при чтении?», «Какие пункты были непонятны по содержанию?». Кроме того, о трудностях восприятия и понимания можно судить по ответам на оценочные вопросы, так как эмоциональная реакция соотносится с эффективностью восприятия, поэтому оценочные комментарии несут важную информацию об уровне трудности текста. В ходе анализа результатов опроса выделены перцептивные трудности разного порядка. 1) Трудности первого порядка вызывает незнакомая лексика, в том числе, (относительно) употребительные термины, например, «антибиотики», «аллергические реакции»; «хирургическое вмешательство»; 2) трудности второго порядка связаны с такими особенностями, как распространенные предложения, многокомпонентные слова и устойчивые обороты, относящиеся к официальному стилю, синтаксические шаблоны (напр., последовательности генитивов) – тем не менее, доступными для интерпретации содержания при условии знакомства с фактической ситуацией, описываемой в документе; 3) трудности третьего порядка вызваны строго официальным или официально-юридическим типом текста, с характерными признаками стилевой маркированности в грамматическом оформлении, лексемами обобщенного характера, с осложнениями, в основном связанными с длиной слов, словосочетаний, фраз и текста в целом; 4) трудности четвертого порядка связаны с введением новой терминологии на базе общеупотребительной лексики. Результаты второго (корпусного) направления проекта можно описать следующим образом. II.1. Для всех текстов корпуса русских локальных документов и актов CorRIDA вычислены значения метрик читабельности FRE (GL), SMOG, ARI, DCI, CLI. Значения сохранены в базе данных, содержащей метаданные к текстам корпуса. В результате сравнения значений метрик по подкорпусам выяснилось, что наибольшее медианное среднее наблюдается для текстов домена медицины (19,84), наименьшее – для текстов домена культуры (17,22), ср. также значения для текстов домена образования (19,61), различия статистически значимы. Таким образом, тексты домена «Культура» в целом проще, чем тексты доменов «Образование» и «Медицина», что подтверждается данными перцептивного направления исследования. II.2. С учётом статистик аккуратности выбраны инструменты разметки текстов корпуса CorRIDA, а именно UDPipe, модель "russian-syntagrus-ud-2.5-191206.udpipe", а также pymorphy2. II.3. Тексты корпуса CorRIDA в объёме 1546 документов лемматизированы, снабжены частеречной, морфологической и синтаксической разметкой. Общий размер размеченного корпуса – 1 784 436 токенов. II.4. Создан корпус решений Конституционного суда РФ СorDes: выполнены сбор, предобработка и разметка коллекции текстов решений, выпущенных с 1992 по 2018 г. (584 документа, 3 426 747 токенов). II.5. На материалах корпуса СorDes отработана схема оценки лексической сложности текстов для целей проекта. В частности, в качестве базовой меры лексического разнообразия, надёжной и независимой от длины текста, выбран индекс K (Yule's K). II.6. Начата работа по созданию сводного частотного списка русских лемм по данным больших корпусов (ruTenTen11, Araneum Russicum III Maximum, Taiga) для получения данных об общеязыковой частотности. Мы планируем использовать эти данные при оценке лексической сложности русских текстов, выделяя леммы, принадлежащие различным зонам сводного частотного словаря, и оценивая их доли в тексте. В сводный частотный список будут включены показатели частотности Zipf-value, что сделает данные интерпретируемыми, поскольку диапазон значений меры невелик – самые частотные леммы в корпусе имеют показатели Zipf-value, равные 7 и 8, наименее частотные леммы – равные 1 и 2. II.7. Определён список сложных явлений, подлежащих разметке в корпусе CorRIDA. Список содержит как простые (базовые) метрики текстов, так и параметры, значения которых вычисляются по размеченным данным (и с учётом формата разметки). В общей сложности формулировано 54 параметра оценки текста. Среди базовых метрик текста представлены, например, значение TTR и значение Yule's K. Среди лексических признаков присутствуют в том числе «количество и доля слов текста с общеязыковой частотой Zipf-value, равной 1, 2», «количество и доля слов с абстрактным значением» и мн. др. Среди выделенных синтаксических признаков решено учитывать, например, «количество и долю относительных предложений», «количество аппозитивных модификаторов», «количество и долю предложений, содержащих отношение ‘parataxis’». Среди дискурсивных признаков представлены «количество и доля средств дискурсивной связности, в частности, дискурсивных маркеров (в UD тег «discourse»)», «повтор существительных в соседних предложениях» (для оценки референциальной связности). II.8. Выработаны принципы разметки сложных явлений. Для оценки языковой сложности текстов корпуса CorRIDA и выделения в них сложных явлений будет использоваться 54 основных параметра. Значения каждого из параметров будут записаны в состав метаданных ко всем текстам корпуса CorRIDA. Они будут вычисляться автоматически с помощью программного кода на языке Python. На вход будут поступать файлы корпуса, размеченные UDPipe и pymorphy2. II.9. Сформированы и проанализированы частотные списки словоформ, лемм, частеречных тегов UD и граммем (в терминах pymorphy2) по корпусу CorRIDA в целом и для подкорпусов отдельных доменов (культуры, образования, медицины; цифры ниже приведены в таком порядке). Выяснилось, в частности, что доля существительных (не считая имён собственных) во всех доменах составляет больше трети от слов всех частеречных классов по подкорпусам. В текстах по подкорпусам доли прилагательных составляют 12,18%, 14,48% и 14,41%, причём самая низкая доля наблюдается в текстах домена «Культура» (который, если судить по полученным данным о читабельности, содержит самые простые для чтения тексты). Глаголы в личной форме (доля которых отрицательно коррелирует со сложностью текста) представлены в долях 2,77%, 2,29% и 2,60%. II.10. Отдельным направлением исследований стало изучение имеющих языковую природу явлений, обозначаемых юристами общим понятием «неопределенность». Класс таких выражений неоднороден: они имеют различные источники неопределенности, различные алгоритмы интерпретации и затрудняют понимание текста. Предложена лингвистическая классификация таких выражений, в её основе лежит различение языковой неоднозначности (ambiguity) — мы рассмотрели случаи лексической, синтаксической и референциальной неоднозначности — и языковой неопределенности (vagueness). Кроме собственно классификации, результатом работы стали языковые иллюстрации выделенных типов неоднозначности и неопределенности, в том числе из правовых текстов. III. В рамках третьего направления (мониторинга сайтов гос. органов) на этапе 2020 г. получены следующие основные результаты. Проведен мониторинг 205 официальных сайтов судов общей юрисдикции и арбитражных судов Северо-Западного федерального округа РФ. Проанализированы: параметры соответствия информационного наполнения официального сайта о деятельности судов в РФ требованиям нормативно-правовых актов; наличие юридико-лингвистической неопределенности; текстовое содержимое сайтов (с использованием формул читабельности). Оценён итоговый показатель доступности и открытости сайтов, создан рейтинг доступности и открытости официальных сайтов судов. IV. Подготовлен пилотный вариант «Концепции использования государственного языка в деятельности государственных и муниципальных органов и организаций». В Концепции содержатся в том числе конкретные рекомендации юридического, лингвистического и информационного свойства, адресованные составителям правовых документов, например: «В одном документе не должны совмещаться разные по содержанию положения (нормативные и индивидуальные предписания, правовые предписания и общая информация)», «Любой текст должен быть максимально краток – настолько, насколько это возможно при изложении всего необходимого его содержания» и др. Концепция учитывает разнообразие видов правовых актов, особенности их коммуникативных характеристик, а также сложившуюся практику подготовки и издания различных правовых актов. Основная информация о развитии проекта представлена на сайте https://www.plaindocument.org/.

Публикации

1. Блинова О.В., Белов С.А. Языковая неоднозначность и неопределённость в русских правовых текстах Вестник Санкт-Петербургского университета. Серия 14. Право., - (год публикации - 2020)

2. Блинова О.В., Белов С.А., Ревазов М.А. Decisions of Russian Constitutional Court: Lexical Complexity Analysis in Shallow Diachrony CEUR Workshop Proceedings (Proceedings of the International Conference "Internet and Modern Society" IMS-2020, 17-20 June 2020, ITMO University, St. Petersburg, Russia)., - (год публикации - 2020)

3. Блинова О.В., Тарасов Н.А., Модина В.В., Блеканов И.С. Modeling Lemma Frequency Bands for Lexical Complexity Assessment of Russian Texts Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной международной конференции «Диалог» (Москва, 17–20 июня 2020 г.)., Вып. 19 (26) (год публикации - 2020) https://doi.org/10.28995/2075-7182-2020-19-76-92

4. Глазанова Е.В., Руднева Е.А. Социолингвистический опрос о понятности официального языка: принципы типизации ответов Материалы международной конференции «Активные процессы в современном русском языке: национальное и интернациональное», - (год публикации - 2020)

5. Тарасова К.В. Понятность официальных текстов, размещённых в сети Интернет Язык, право и общество в координатах массмедиа: сборник материалов III Международной научной конференции (Москва, ИЗиСП, 25–26 сентября 2019 г.) / под ред. И.В. Анненковой, Л.Р. Дускаевой; предисл. Т.Я. Хабриевой. М.: ИЗиСП, С. 423-426 (год публикации - 2020) https://doi.org/10.12731/978-5-9516-0877-2

6. Белов С.А. «Буквальное» значение слов и выражений юридического договора Тезисы XLIX Международной научной филологической конференция, посвященной памяти Людмилы Алексеевны Вербицкой, Электронная публикация. (год публикации - 2020)

7. Гулида В.Б. Понимание официального документа: Стандартный административный vs Грамотный юридический текст Тезисы XLIX Международной научной филологической конференция, посвященной памяти Людмилы Алексеевны Вербицкой, Электронная публикация. (год публикации - 2020)

8. Гулида В.Б., Блинова О.В., Белов С.А. Изучение понятности языка русских документов в контексте сотрудничества между лингвистами и юристами Тезисы XLIX Международной научной филологической конференция, посвященной памяти Людмилы Алексеевны Вербицкой, Электронная публикация (год публикации - 2020)

9. Гулида В.Б., Руднева Е.А. Professional and Naïve Interpretations of Official Medical documents Ninth International Symposium on Intercultural, Cognitive and Social Pragmatics. Book of Abstracts, P. 21 (год публикации - 2020)

10. Модина В.В. Понятие предложения и данные локальных документов на русском языке Тезисы XXIII Открытой конференции студентов-филологов в СПбГУ, Электронная публикация. (год публикации - 2020)

11. Руднева Е.А. Отношение носителей языка к признакам канцелярита в официальных объявлениях Тезисы XLIX Международной научной филологической конференция, посвященной памяти Людмилы Алексеевны Вербицкой, Электронная публикация (год публикации - 2020)

12. Тарасова К.В. Мониторинг официальных сайтов государственных органов и органов местного самоуправления как способ оценки обеспечения права на информацию Тезисы XLIX Международной научной филологической конференция, посвященной памяти Людмилы Алексеевны Вербицкой, Электронная публикация (год публикации - 2020)

13. - Язык пандемии: почему сложно понять «коронавирусные» постановления? Информационное агенство "Северная звезда", Язык пандемии: почему сложно понять «коронавирусные» постановления? // Информационное агентство "СЕВЕРНАЯ ЗВЕЗДА" (6 августа 2020 г.); Новостной портал СПбГУ (5 августа 2020 г.) (год публикации - )

Аннотация результатов, полученных в 2021 году
В 2021 г. исследование продолжено в рамках трёх основных направлений: I. «корпусного», ориентированного на изучение объективной сложности русских правовых текстов, II. «перцептивного», ориентированного на изучение субъективной трудности русских официальных документов, III. мониторинга официальных сайтов государственных органов. Кроме того, подготовлен итоговый вариант «Концепции использования государственного языка в деятельности государственных и муниципальных органов и организаций». Основные результаты таковы. I.1. Завершено создание автоматической модели оценки сложности русских правовых текстов. В ней используется 130 метрик, разделённых на следующие категории: «базовые метрики», «формулы читабельности», «учёт слов разных частеречных классов», «биграммы и триграммы частеречных тегов (частеречная сочетаемость)», «частотность лемм», «словообразование», «отдельные граммемы», «лексические и семантические признаки, неоднословные выражения», «синтаксические признаки», «оценки связности». При выборе параметров учтён накопленный опыт исследований сложности и языковые свойства официально-деловых текстов, описанные в работах по функциональной стилистике, а также языковые характеристики, хорошо отделяющие русские тексты официально-делового стиля от текстов других стилей при решении задач автоматической классификации текстов по стилям или регистрам. I.2. Расширен исследовательский материал. На этапе 2021 г. размечен корпус решений Конституционного суда РФ, собран и размечен корпус законов. Общий размер юридических корпусов достиг 8 млн токенов. Формат разметки: лемматизация UDPipe, частеречная разметка в терминах UDPipe, частеречная и морфологическая разметка pymorphy2, синтаксическая разметка UDPipe. Таким образом, использована двойная частеречная разметка; это обусловлено разницей в наборе частеречных тегов: каждый из наборов по-своему используется для оценок сложности. I.3. Все тексты собранных юридических корпусов оценены с помощью разработанной модели (то есть каждому документу присвоены значения 130 метрик сложности). I.4. Выполнено тестирование разработанной модели оценки сложности. Для определения качества выбранных 130 метрик, их способности предсказывать сложность текстов произведены такие тесты и сравнения: 1. Классификация с использованием полученных метрик в качестве параметров (тестирование проведено на текстовом наборе “plainrussian” и на текстовом наборе школьных учебников); в качестве тестовой модели классификации использован XGBoost. 2. Классификация с использованием в качестве параметров векторов языковой модели USE (Universal Sentence Encoder). Модель тестировалась с предварительным разбиением на тестовую и тренировочную выборки с последующим подбором гиперпараметров с помощью библиотеки “Hyperopt”, представляющей метод эффективной оптимизации параметров с использованием байесовской оптимизации. Для подбора параметров было обучено 1000 моделей с различными параметрами. Итоговые показатели качества таковы: - для кодирования с использованием метрик (130 параметров), эксперимент на текстовом наборе “plainrussian”: средняя точность – 88% со среднеквадратичным отклонением 9%; - для кодирования с использованием метрик (130 параметров), эксперимент на текстовом наборе учебников обществознания: средняя точность – 90% со среднеквадратичным отклонением 5%; - для кодирования с использованием языковой модели (768 параметров): средняя точность – 70% со среднеквадратичным отклонением 15%. Таким образом, тестирование подтвердило, что использование метрик позволяет оценивать сложность текстов более точно и согласованно, чем в эксперименте с использованием языковой модели. I.5. Получены данные об эффективности работы 130 метрик в задаче классификации по сложности. Эксперимент с текстовым набором “plainrussian” показал, что для задачи классификации значимы 72 метрики. Эксперимент с учебниками показал, что для классификации важны 95 признаков. Эффективно сработали: некоторые формулы читабельности; индекс именной лексики; доля неодушевлённых существительных; доля полных прилагательных; средняя длина словоформы в буквах; доля словоформ в родительном падеже; доля длинных слов (4 и более слога); индекс адъективности; доля адъективных модификаторов имени; доля вхождений пассивного подлежащего; средняя длина предложения в слогах; доля лемм с «хвостами», включающими определённые словообразовательные суффиксы; формула динамичности / статичности; доля полных причастий; доля абстрактных лемм; доля биграмм тегов глагола в личной форме и существительного. Итоги работы перцептивного направления в 2021 г. вкратце таковы. II.1. Уточнены принципы подсчета финального балла, отражающего понимание текстов и компетенцию работы с официальными документами. Чем больше сумма баллов, тем успешнее респондент заполнил исследовательские анкеты, соответственно, тем выше уровень его компетенции в чтении и понимании официальных документов. II.2. Выполнена оценка ответов респондентов в соответствии с базовыми социальными параметрами (возрастом, образованием, полом), а также опытом работы с документами и типом занятости. «Возраст». Уровень компетенции группы «молодежь» был значимо выше, чем людей среднего возраста (средняя сумма баллов по всему опросу – 11,12 vs 9,43, p=0,01). «Образование». Компетенция группы со средним образованием была значимо ниже компетенции группы с неоконченным высшим образованием по всем трем анкетам в отдельности и по опросу в целом. Респонденты с неоконченным высшим образованием как группа, выделенная и по возрасту, и по уровню образования, чаще отвечают по тексту, демонстрируя лучшие навыки его обработки. «Гендер». Наблюдались значимые различия сумм баллов, полученных женщинами и мужчинами по всем трем анкетам в отдельности и по опросу в целом: средняя сумма баллов по всему опросу – 10,96 vs 9,5 (p=0,007). Таким образом, можно говорить, что в целом в рамках данного исследования женщины продемонстрировали значимо более высокий уровень компетенции, чем мужчины. «Тип занятости» (выявлены подгруппы, для которых были выявлены значимые различия средних баллов при попарном сопоставлении). Хуже всех отвечали неработающие, занятые в сфере промышленности, строительства, транспорта и обслуживании, торговле и охране, а стабильно лучше отвечали учащиеся, занятые в области права, гуманитарных областей и культуры (в этой группе были юристы и филологи), бизнеса, управления и администрирования (в этой группе были люди, постоянно работающие с документами на руководящих должностях) и занятые в сфере информационно-коммуникационных технологий. «Опыт работы с документами». По всем анкетам отдельно и по опросу в целом прослеживается следующая тенденция: лучше всех отвечают люди с небольшим опытом работы с документами, хуже всего – люди с отсутствием опыта работы с документами, а те, кто описал свой опыт как «значительный», стабильно набирает среднее количество баллов. Наиболее высокие навыки обработки текстов демонстрируют студенты, которые чаще всего описывали свой опыт как «незначительный». II.3. Оценена значимость пяти параметров Параметр «образование» чаще всего оказывался значимым; «возраст» давал значимое различие по подгруппам реже всего. II.4. Исследовано отношение к языку официальных документов Почти половина респондентов испытала негативные эмоции при чтении информированного согласия. Респонденты описали свое впечатление как «омерзительное» и «тягостное», указав среди эмоций «тоску и безысходность», «уныние» и зачастую «страх». Это связано прежде всего с организацией и содержанием документа, в котором подробно прописаны негативные последствия и риски, но не уделяется внимания положительному исходу лечения. 28 % респондентов нейтрально отнеслись к документу. Около 10 % описали свое впечатление как положительное: «Грамотный документ, удовлетворение от чтения»; «Позитивное, информация искореняет страх». II.5. Выявлено наличие зависимости между проявленным отношением к представленному в Правилах поведения (Анкета-2) языковому варианту и социальными параметрами респондентов. Чем выше уровень образования, тем больше негативных и меньше позитивных оценок языка представленных правил, различие статистически значимо (p=0,0028). Количество нейтральных оценок для всех групп составляет подавляющее большинство (около 50%). II.6. Получены данные о субъективной сложности (трудности) исследуемых текстов Если при ответе на какие-то вопросы у респондентов возникали затруднения, они могли поставить в соответствующей графе прочерк (или оставить ячейку незаполненной), в дальнейшем подобные ответы классифицировались как «отказ отвечать». Таким образом, общее количество отказов, полученное на какой-то вопрос или анкету в целом, может служить показателем их сложности в принципе. По Анкете-1 из общего количества полученных ответов отказы составили 11%, их число в ответах на различные вопросы варьировало от 2,9% до 27,9%. По Анкете-2 процент отказов был 5,8% – от 0,8% до 9,5% по отдельным вопросам. Количество отказов по Анкете-3 было самым большим – 25,2% от общего числа ответов. III. По результатам мониторинга 166 сайтов государственных органов подготовлена аналитическая записка. IV. Кроме того, подготовлена «Концепция использования государственного языка в деятельности государственных и муниципальных органов и организаций» V. Результаты третьего года работ по проекту отражены в монографии и на сайте проекта plaindocument.org.

Публикации

1. Белов С.А. Роль языка в обеспечении понятности и определенности нормативных правовых актов Вестник Санкт-Петербургского университета. Право, - (год публикации - 2022)

2. Белов С.А., Кропачев Н.М. Представления сотрудников СМИ об источниках кодификации языковых норм и правил употребления языка (по материалам анкетирования) Вестник Санкт-Петербургского университета. Язык и литература, Т. 18, № 3. С. 512–527 (год публикации - 2021) https://doi.org/10.21638/spbu09.2021.306

3. Белов С.А., Ревазова E.A., Руднева Е.А. Смысл и содержание информированного согласия на медицинское вмешательство в правовых актах, а также в понимании врачей и пациентов Вестник Санкт-Петербургского университета. Право, Вып. 4 (год публикации - 2021)

4. Блинова О.В., Алексеева Ю.Е. Личное местоимение как редуцированное референциальное средство в русском правовом тексте Вопросы русского языка в юридических делах и процедурах. Международная научно-практическая конференция. – СПб.: Первый класс, 2021. – 544 с., С. 146-159 (год публикации - 2021)

5. Блинова О.В., Тарасов Н.А. Сложность русских правовых текстов: методы оценки и языковые данные Труды международной конференции «Корпусная лингвистика-2021». СПб.: Скифия-принт, - (год публикации - 2021)

6. Глазанова Е.В. Студентка vs водитель в возрасте, или почему никто не любит читать официальные документы Социо- и психолингвистические исследования, Вып. 9. С. 76-85 (год публикации - 2021)

7. Гулида В.Б., Руднева Е.А. «Сложно и глупо» vs «профессионально» и «вежливо»: отношение носителей русского языка к канцеляриту в объявлениях Антропологический форум, № 50. С. 200–224 (год публикации - 2021) https://doi.org/10.31250/1815-8870-2021-17-50-200-224

8. Руднева Е.А., Глазанова Е.В. Как россияне понимают текст информированного согласия на медицинское вмешательство Материалы международной научно-практической конференции «V Фирсовские чтения: Современные языки, коммуникация и миграция в условиях глобализации», - (год публикации - 2022)

9. Руднева Е.А., Гулида В.Б., Глазанова Е.В. Понимание российскими гражданами официальных документов (по результатам анкетирования) Вопросы русского языка в юридических делах и процедурах. Международная научно-практическая конференция. – СПб.: Первый класс. – 544 с., С. 248-260 (год публикации - 2021)

10. Гулида В.Б., Глазанова Е.В., Руднева Е.А. How Russian Speakers Comprehend Documents 16th Conference on Legal Translation and Interpreting and Comparative Legilinguistics (Legal Linguistics). Literature, Media and Law. Book of Abstracts, P. 48 (год публикации - 2021)

Возможность практического использования результатов
Области приложения результатов исследования весьма обширны, среди них: 1) оценка сложности разнообразной документации, юридических текстов, 2) оценка читабельности языкового контента веб-сайтов, в том числе – сайтов органов государственного управления. Например, сейчас в рамках [Открытость государства в России, 2021] см. https://ach.gov.ru/upload/pdf/Otkrytost-2021.pdf для проверки контента используются формулы читабельности И. Бегтина. Наша модель оценивает точность с применением большего количества параметров и лучше учитывает специфику юридического текста (однако для её применения требуется разметка). Мы планируем доработать модель оценки сложности, добавив нейросетевую кодировку (таким образом получим гибридную модель, работающую и на метриках, и на результатах обучения языковой модели), и подготовить простой интерфейс взаимодействия с моделью (пользователь сможет подгрузить текст и на выходе получить оценки сложности). Далее, модель может быть доработана через добавление к метрикам сложности метрик неопределённости (vagueness). Наработки научного коллектива позволяют сделать это продуманным образом. Аналоги модели, работающие в рамках этого подхода (сложность + неопределённость = понятность) с применением большого количества надёжных метрик нам неизвестны. Наконец, модель может быть адаптирована для задач автоматической жанровой классификации правовых текстов. Для этого понадобится большой набор данных, включающий тексты разных юридических жанров. Однако если учитывать, сколько в оцифрованном мире русскоязычных юридических текстов, создание большого и разнообразного датасета не представляется существенной проблемой.