КАРТОЧКА ПРОЕКТА ФУНДАМЕНТАЛЬНЫХ И ПОИСКОВЫХ НАУЧНЫХ ИССЛЕДОВАНИЙ,
ПОДДЕРЖАННОГО РОССИЙСКИМ НАУЧНЫМ ФОНДОМ
Информация подготовлена на основании данных из Информационно-аналитической системы РНФ, содержательная часть представлена в авторской редакции. Все права принадлежат авторам, использование или перепечатка материалов допустима только с предварительного согласия авторов.
ОБЩИЕ СВЕДЕНИЯ
Номер проекта 24-18-00570
НазваниеОценка аффективности текстов на русском языке и ее динамики в 20-21 вв.: лингвистические маркеры психологического состояния общества
Руководитель Соловьев Валерий Дмитриевич, Доктор физико-математических наук
Организация финансирования, регион федеральное государственное автономное образовательное учреждение высшего образования "Казанский (Приволжский) федеральный университет" , Республика Татарстан (Татарстан)
Конкурс №92 - Конкурс 2024 года «Проведение фундаментальных научных исследований и поисковых научных исследований отдельными научными группами»
Область знания, основной код классификатора 08 - Гуманитарные и социальные науки; 08-453 - Языкознание
Ключевые слова русский язык, эмоции, семантические факторы Ч. Осгуда, корпусы, компьютерная лингвистика, квантитативное литературоведение, Эффект Поллианны, нейронные сети, социальные сети
Код ГРНТИ16.31.21
ИНФОРМАЦИЯ ИЗ ЗАЯВКИ
Аннотация
Проект состоит в создании цифровых словарей русского языка и комплекса программных средств для анализа текстов и всего лексикона языка на предмет аффективности (под этим далее понимаются описанные Ч. Осгудом факторы — valence (оценка, тональность, позитивность), arousal (активность), dominance (сила)) и эмотивности, а также проведении серии эмпирических исследований с применением созданного инструментария. Словари планируется создавать двумя способами: путем опроса информантов и путем экстраполяции человеческих оценок средствами машинного обучения. При машинном обучении будет применен классический подход к описанию семантики слов через контекст, в котором они встречаются (дистрибутивная гипотеза). Подход реализуется путем обучения нейронных сетей на эмбеддингах (вложениях) fastText и др. Исследования будут проводиться на сверхбольших корпусах текстов, таких как Google Books Ngram (GBN) и Генеральный интернет-корпус русского языка (ГИКРЯ). Оба эти корпуса являются диахроническими, т.е. тексты снабжены метаданными о времени их публикации. Это позволяет изучать интересующие нас характеристики языка и текстов в развитии, на что и будет сделан основной упор в данном проекте.
Актуальность проекта состоит в том, что позитивность, другие факторы Ч. Осгуда и эмотивные характеристики текста важны для целого ряда задач, таких как:
- известная фундаментальная проблема оценки языка в целом на предмет позитивности лексикона (гипотеза Поллианны или Language positive bias — LPB);
- оценка контента соцсетей для измерения общественных настроений, отношения пользователей соцсетей к актуальным социальным проблемам;
- изучение динамики психологического состояния общества по материалам изданных на протяжении двух столетий книг в сопоставлении с динамикой социально-демографических факторов (таких как уровень доходов, урбанизация, рождаемость и др.), в том числе во время общественно-политических, экономических и природных кризисов;
- объективный квантитативный анализ художественных произведений для определения степени их эмотивности и позитивности;
- оценка иных видов текстов (рекламных, образовательных и т.д.) с точки зрения эмоционального воздействия на адресата и достижения целей коммуникации.
Актуальность данного направления возросла в последние годы в связи с необходимостью оперативного анализа контента в социальных сетях. Исследования в данной области стали реализуемыми в последние годы, потому что именно сейчас появились адекватные средства достижения результата: сверхбольшие диахронические корпусы GBN и ГИКРЯ, необходимые компьютерные средства — нейронные сети глубокого обучения.
Новизна проекта связана с тем, что для русского языка исследования в этом направлении находятся в зачаточном состоянии. Нами впервые для русского языка будут созданы словари активности и силы методами опроса информантов и машинной экстраполяции. Впервые будет создан словарь позитивности/негативности для редких слов. Впервые гипотеза Поллианны будет проверена на редких словах (до 500 000 по частотному словарю). Впервые будет описана репрезентация слов русского языка в многомерном пространстве эмоций и осгудовских факторов. Будут учтены 6 базовых эмоций по П. Экману и, при необходимости, 8 по Р. Плутчику или 11 по К. Изарду. Впервые для русского языка будет проведен анализ связи позитивности и эмотивности текстов книг и сообщений в соцсетях с социально-демографическими изменениями в российской обществе, а также с динамикой субъективного благополучия по данным социологических опросов за последние 30 лет. Впервые будет создан общедоступный вычислительный аппарат измерения степени эмотивности/аффективности текстов художественных произведений и текстов других типов. В качестве одного из этапов настоящего междисциплинарного проекта впервые в российском литературоведении будет классифицирована по нескольким категориям и комплексно проанализирована с помощью количественных методов русскоязычная фантастическая проза и, для сравнения, так называемая, деревенская проза.
ОТЧЁТНЫЕ МАТЕРИАЛЫ
Аннотация результатов, полученных в 2024 году
Проект предусматривает развитие технологии оценки степени аффективности текстов. С этой целью созданы словари русского языка с оценками факторов Осгуда: активности (arousal) и силы (dominance). Словари содержат 1000 наиболее частотных слов русского языка основных частей речи и получены методом опроса респондентов. В дополнение к ним созданы датасеты 6-ти базовых эмоций. Важным исследовательским ресурсом является подобранный нами и снабженный метаданными корпус художественных произведений на русском языке двух жанров – фантастика и деревенская проза. В настоящее время (после предобработки) он содержит более 3 млн. слов и включает произведения таких писателей, как братья Стругацкие, Шукшин и др. Исследования велись в трех основных направлениях.
1. Проверка Принципа Поллианны о позитивности языка. Нами были описаны строгие закономерности по уменьшению усредненной позитивности слов по мере уменьшения их частотности в языке. Результат получен впервые и фактически ограничивает сферу применимости принципа Поллианны. Результаты установлены для русского, английского и испанского языков с использованием как вновь созданных, так и существующих словарей в диапазоне до 500 тыс. слов.
2. Выявление корреляций динамики лингвистических параметров и социологических переменных. Исследования нацелены на обнаружение лингвистических маркеров психологического состояния общества. В проекте использовался корпус Google Books Ngram, содержащий более 80 миллиардов слов русского языка. В этом направлении получен ряд конкретных результатов. Например, в интервале 1920-2019 гг. нами выявлена сильная связь частоты употребления местоимения "Мы" и лингвистических маркеров гнева, которая может указывать на рост коллективной субъектности в периоды кризисов. Получены оценки корреляции частоты местоимения “Мы” и с другими основными эмоциями, при этом использовался корреляционный анализ с непараметрическим критерием Спирмена. В этом направлении исследований обосновано предположение о том, что вклад групповой идентичности в обеспечение эффекта Поллианны возрастает в условиях кризисов, сопряженных с переживанием трудноконтролируемой угрозы и коллективной травмой.
Выдвинута и подтверждена гипотеза о том, что гражданская идентичность в условиях кризиса снижает выраженность индивидуальной и коллективной тревоги, а также поддерживает эффект лингвистической позитивности в оценке коллективного будущего. Для проверки гипотезы использовалась данные онлайн-опроса, проведенного ИП РАН на онлайн-панели ВЦИОМ в августе 2023 г.
Проведен анализ динамики психоэмоционального состояния российского общества в 1990-2000-е гг. на основе русскоязычных текстов из корпуса Google Books Ngrams и данных общероссийских социологических опросов. Проведено психологическое исследование среди россиян, заставших в 1990-2000-е гг. в возрасте 17 и более лет (онлайн-анкетирование, 1044 взрослых в возрасте 50-90 лет, проживающих в Российской Федерации). Полученные актуальные оценки отличаются от данных опросов, проведенных в то время российскими социологическими агентствами. Подтверждена гипотеза о том, что декларируемые актуальные эмоции, связанные с периодом 1990-х и 2000-х гг., отличаются вследствие работы защитных механизмов от ретроспективных переживаний и данных опросов того времени. Как оказалось, связь текущего позитивного аффекта с реконструируемыми позитивными эмоциями относительно 1990-х гг. и актуальными позитивными эмоциями относительно 1990-х гг. усиливается при ориентации респондентов на когнитивную переоценку негативной ситуации.
3. Анализ аффективности художественных произведений. На основе созданного корпуса проведены первичные эксперименты, показавшие возможность использования нашего инструментария и технологии в филологических исследованиях. При изучении динамики позитивности в произведениях разного периода времени, обнаружено, что, например, в трилогии братьев Стругацких о Максиме Каммерере происходит рост средней позитивности от ранних к поздним текстам. Создан программный инструментарий, позволяющий анализировать изменение аффективных параметров по мере развития сюжета одного произведения. Его использование позволило по меньшей мере поставить под сомнение (если не опровергнуть) ранее выдвигавшуюся гипотезу о 6-ти паттернах развития позитивности в произведениях.
Проведен анализ корреляций параметров Осгуда для двух корпусов. Корреляция показателей позитивности и активности для произведений из корпуса Фантастика выше в 2,5 раза, чем для словарей, а для деревенской прозы − ниже в 2 раза. Корреляции по корпусам, вероятно, отражают особенности жанра. Предварительно, можно отметить, что в произведениях жанра Фантастика интенсивность эмоций связана с позитивными эмоциями больше, чем обычно (в словаре), а для жанра деревенской прозы − меньше, чем обычно.
Уже первый год работы показал, что созданные нами словари, датасеты, программные средства позволяют проводить широкие разноплановые исследования в лингвистике, литературоведении, психологии, социологии. Полученные результатов уточняют и, даже, вероятно, опровергают ранее опубликованные результаты зарубежных исследователей.
Публикации
1.
Бакиров Р.А., Афанасьев А.С., Бочкарев В.В.
Valuation of emotionality and Osgood factors in fiction prose using machine-generated dictionaries (on the material of the Strugatsky brothers trilogy about M. Kammerer)
Journal of Ecohumanism, 3(8), 2600–2608.
(год публикации - 2024)
10.62754/joe.v3i8.4909
2.
Нестик Т.А.
Эффект Поллианны: роль механизмов защиты позитивной личностной и групповой идентичности
Социальная психология и общество, Том 15. № 4 (год публикации - 2024)
doi.org/10.17759/sps.20241504
3.
Бочкарев В.В., Савинков А.В., Шевлякова А.В.
Predicting the Valence Rating of Russian Words Using Various Pre-Trained Word Embeddings
Lecture Notes in Computer Science, том 15300, с. 349-361 (год публикации - 2025)
10.1007/978-3-031-78014-1_26
4.
Соловьев В.Д., Ивлева А.И.
How to Detect Imbalances in the Google Books Ngram Corpus?
Lecture Notes in Computer Science, vol 15300, Part II, pp. 334–348 (год публикации - 2025)
10.1007/978-3-031-78014-1_25
Аннотация результатов, полученных в 2025 году
Методом машинной экстраполяции построен словарь аффективных рейтингов (позитивности, активности и силы) на 2 миллиона словоформ русского языка. Словарь доступен на страничке лаборатории «Лингвистика и искусственный интеллект» на сайте Казанского федерального университета. Построены нейросетевые модели, позволяющие по статистике сочетаемости слова в большом диахроническом корпусе получать оценки аффективных рейтингов слова (факторов Осгуда) для различных интервалов времени. Рассчитаны оценки факторов Осгуда для 100 тысяч наиболее частотных слов русского языка для каждого года в интервале 1800-2019.
Выделены главные факторы временной изменчивости средних аффективных рейтингов в книжных текстах на русском языке. Показано, что рейтинги, приводимые в 6 словарях позитивности русского языка (и значения вычисленных на их основе национальных индексов позитивности) могут быть с высокой точностью получены как комбинации двух главных компонент. Графики национального индекса позитивности, полученные на базе двух главных компонент, по-разному откликаются на разные исторические события и социальные изменения. Это свидетельствует о целесообразности использования для более полной характеристики позитивности/негативности текстов двух индексов, соответствующих найденным компонентам.
Построены ряды средних аффективных рейтингов для текстов социальной сети Живой Журнал и ВКонтакте (1999-2016 гг). Выделено около 15 тысяч слов, за счет различий употребления которых в языке книг и языке социальных сетей формируются различия в средних аффективных рейтингах. Среди этих слов, в частности, можно выделить две ярко выраженные семантические группы: слова, связанные с государственным устройством, политикой и управлением, и слова с выраженной негативной коннотацией, включая отрицательные эмоции, ощущения, отношение к действительности.
В рамках анализа взаимосвязи между показателями абстрактности и параметрами VAD получен следующий результат: абстрактные слова чаще, чем конкретные, оценивались как позитивные (высокий рейтинг valence), вызывающие интенсивное проявление эмоций (высокий рейтинг arousal) и ощущение силы (высокий рейтинг dominance). При этом, среди конкретных существительных значительно чаще встречаются слова с низким рейтингом по одному или нескольким аффективным параметрам, т.е. это слова: а) с негативной эмоциональной окраской; б) вызывающие пассивное проявление эмоций; в) вызывающие ощущение слабости и подконтрольности.
Весомые различия между оценками мужчин и женщин по шкалам arousal и dominance обнаруживаются среди существительных и прилагательных. Чаще всего мужчины и женщины оценивали слова противоположными показателями по шкале dominance (38 слов). Это слова из группы физические действия, абстрактные понятия, временные характеристики, ментальные действия, природа, родственные связи, профессии. 19 слов имеют противоположные показатели в ответах мужчин и женщин по шкале arousal: размер, область искусства, национальность, статус, родственные связи.
Составлен словарь 5000 наиболее частотных и 1000 наиболее характерных для художественной литературы лемм на основе основного подкорпуса НКРЯ. Наблюдается тренд смещения фокуса художественной литературы от коллективных, внешних и социально-идеологических тем к частной, внутренней и бытовой жизни человека. С одной стороны, снижается частотность военной, советской и ритуализированной лексики, а с другой — растёт употребление слов, связанных с психологией, семьёй, бытом и эмоциональным общением. Эти изменения отражают глубинные социальные сдвиги: демократизацию общения, усиление рефлексии, секуляризацию и влияние массовой культуры. Также наблюдается повышение позитивности лексикона художественной литературы. Составлен список ключевых концептов русской культуры. Показано, что по сравнению с 19 веком снизилась частота употребления этих концептов.
Частично подтверждены выводы историков литературы о больших значениях активности и доминировании лексики в текстах фантастической литературы по сравнению с деревенской прозой. На материале собранных корпусов книжной серии “Библиотека приключений и научной фантастики”, текстов братьев Стругацких и Кира Булычева сделан вывод о росте средней позитивности в схожие хронологические периоды в данных текстах, что корректирует традиционные в литературоведении гипотезные ожидания. В ходе анализа параметров позитивности творчество последнего автора впервые было разделено на три этапа с точки зрения количественных характеристик текстов.
Анализ моральной лексики русского языка за последнее столетие выявил, что язык чутко реагирует на социальные потрясения, становясь барометром коллективного сознания. В кризисные периоды — будь то Великая Отечественная Война, распад СССР или современная неопределенность — происходит резкая поляризация: увеличивается частота как позитивных, так и негативных моральных понятий. Кроме того, выявлена высокая корреляция между частотами слов-маркеров абсолютистской лексики, слов, которые отражают индивидуализм в обществе, а также негативной моральной лексики — вербальных маркеров тревоги и поляризации в современном обществе.
В рамках сравнительного исследования было показано, что лингвистические, социологические и психологические данные относительно эмоциональных оценок разных периодов отечественной истории сопоставимы и дополняют друг друга. Данные анализа документальных источников (книг, периодических изданий и др.) выступают объективными показателями психоэмоционального состояния личности и общества, отражая общую динамику реакции на события. Результаты социологических опросов, проводимых в анализируемый период, выступают в качестве актуальной по отношению к событиям субъективной оценкой, которая часто более динамична и информативна. В тоже время данные психологических исследований позволяют зафиксировать след тех событий в коллективной памяти, что рассматривается как реконструируемая субъективная оценка, интегрированная и достаточно устойчивая. Таким образом при ретроспективном изучении психоэмоционального состояния общества необходимым является комплексный анализ этого вопроса, с учетом данных корпусной лингвистики, социологии и психологии.
Публикации
1. Емельянова Т.П., Бочкарев В.В. Тарасов С.В. Динамика аффективности газетных текстов в 1990-е гг.: оценка и сравнение с эмоциональным состоянием общества Экспериментальная психология, т.19, №1 (год публикации - 2026)
2. Вольская Ю.А., Токсубаева А.А., Соловьев В.Д., Аффективные нормы VAD для русского языка: корреляция с рейтингами абстрактности/конкретности Вестник РУДН. Серия: Теория языка. Семиотика. Семантика., т.16, №4 (год публикации - 2025)
3.
Ивлева А.И., Нестик Т.А., Соловьев В.Д.
Intelligent Analysis of Frequency Dynamics of the Russian Moral Vocabulary in the 20th–21st Centuries
Lecture Notes in Networks and Systems, vol. 1530, pp 508–515 (год публикации - 2025)
10.1007/978-3-031-98565-2_55
4.
Ивлева А.И., Соловьев В.Д.
An Algorithm for Genre Imbalance Correction in the Russian Subcorpus of the Google Books Ngram Corpus
Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference “Dialogue”, issue 23, #34, pp. 1-10 (год публикации - 2025)
10.28995/2075-7182-2025-23-137-146