Новости

25 ноября, 2020 18:01

Робот на проводе. Социолог о проблемах коммуникации между человеком и голосовыми помощниками

Телефонный разговор с роботом, хотим мы того или нет, стал частью повседневности. Как правильно реагировать на механический голос, кто виноват, если диалог не получается, и может ли искусственный интеллект быть идеальным собеседником? На вопросы IQ отвечает социолог НИУ ВШЭ Алиса Максимова. Результаты её исследования о взаимодействии человека и машины представлены в новой книге «Приключения технологий: барьеры цифровизации в России».
Источник: iStock

— Алиса, расскажите, что за книга и о чём в ней пишете вы?

— Это итог коллективного проекта по гранту Российского научного фонда в рамках президентской программы поддержки фундаментальных и поисковых исследований. Наше длилось три года, работала команда социальных учёных из Москвы и Санкт-Петербурга.

Монография посвящена социологическому анализу барьеров в создании, внедрении и потреблении цифровых технологий. Что и почему в этих процессах идёт не так, изучали на разных эмпирических кейсах — от специфики деятельности тестировщиков (иногда их ещё называют инженерами по обеспечению качества) до проблем с разработкой беспилотных автомобилей или использованием приложений онлайн-знакомств.

Моим был кейс о голосовой технологии — автоматизированного робота-оператора, который отвечал на звонки в телефонном справочном центре: давал информацию о госуслугах, жилищно-коммунальной сфере, оформлении документов и прочем.

Повезло наладить сотрудничество с одной организацией, пожелавшей остаться неизвестной. Она предоставила нам более 200 записей звонков. На этом массиве данных мы проанализировали, как люди контактируют с виртуальным оператором, заранее зная, что он не человек, но при этом не выбирая такое общение специально, взамен традиционного.

— Что собой представляет этот робот?

— Он относится к голосовым технологиям или пользовательским интерфейсам, условно — к разговорным агентам или чат-ботам, которые не просто управляются человеком, а ведут с ним диалог: распознают речь, «понимают» уникальные реплики и соответствующим образом на них реагируют.

История голосовых помощников началась в 1961 году с компьютера IBM Shoebox («Обувная коробка»), который был способен распознавать 16 произнесённых слов, а также цифры от 0 до 9. В 2011-м вышел iPhone 4s, первый смартфон со встроенным голосовым помощником. Развитие голосовых технологий для массового пользователя существенно ускорилось. Самые популярные в мире — голосовые помощники вроде SiriCortana и Alexa. В России — Алиса от «Яндекса», официально запущенная в 2017 году, и появившиеся недавно Джой, Сбер и Афина от «Сбера».

Три года назад, когда мы приступили к исследованию, такие вещи были достаточно редкими. Сейчас это часть повседневности. Тех же автоматизированных операторов, отвечающих на звонки, уже перестали воспринимать как нечто из ряда вон, неприятное или странное.

И в этой ситуации интересно посмотреть, как, с одной стороны, технологии настраиваются на пользователей, а с другой, пользователи начинают понимать: ага, робот, значит, нужно замедлиться, набраться терпения, говорить отчетливо, сформулировать лаконичный запрос.

— Человек вообще сразу осознает, что говорит с компьютером? Как начинает перестраиваться, поняв, с кем имеет дело?

— Записи для исследования были полностью анонимизированы и отвязаны от конкретных звонящих. Поэтому нельзя проверить, о чем они думают в момент разговора — о глупых роботах или о неумелых операторах-людях.

Любопытно, но, вероятно, дело просто в привычке: когда человек общается с машиной, это похоже именно на «роботизированный» разговор — с отрывочными, довольно громкими фразами. А потом он может сказать: «девушка, ну что же вы не понимаете». То есть технологию всё равно соотносят с каким-то человеческим агентом, и многие используют те же категории, что в привычной беседе.

— Как робота готовят к встрече с людьми — что в него нужно заложить, чтобы он поддерживал диалог?

— Самое главное — способность различать человеческую речь. В робота важно встроить технологии распознавания речи и правила соотнесения сказанного с имеющимися в базе ключевыми словами. Люди могут один и тот же объект называть по-разному, часто неформально: платёжный документ — платёжкой и тому подобное. Это необходимо предусмотреть.

Есть настройка под то, насколько умело мы общаемся с технологиями, насколько разборчиво можем говорить. Иногда адаптируют чувствительность распознавания роботом речи под определенные категории пользователей, например, пожилых людей.

Если разработчик уверен, что абонент будет говорить понятно и отчётливо, чувствительность, наоборот, есть смысл снизить. Так повысятся её эффективность и точность, машина сделает меньше ошибок, поскольку не станет принимать шум за содержательное высказывание.

С другой стороны, у робота есть некие шаблоны, стандартные фразы, сценарий диалога. Всё это тоже можно тестировать, смотреть насколько та или иная формулировка приводит к более успешному взаимодействию.

— С «вашим» виртуальным оператором так экспериментировали?

— Там была дилемма: как правильно попросить человека назвать свой запрос, какие для этого заложить в робота фразы. Сначала пробовали вариант «чётко сформулируйте свой вопрос». Позвонивший отвечал не сразу. Разработчики решили, что пользователь теряется, не понимает, что значит «чётко». Слово убрали. Появилась не официальная инструкция, а повседневная формулировка «какой у вас вопрос?» — вариант, предполагающий, что абонент обращается с уже готовым вопросом, который машина в целом распознает.

В попытке найти оптимум во фразу встраивали пример: «сформулируйте свой запрос, например…». Но это тоже приводило в замешательство, человек говорил: подождите, я тогда не по адресу, у меня другая тема.

То есть даже такую простую и понятную на первый взгляд инструкцию довольно сложно спроектировать, но процессы доведения технологии до нужной формы очень интересно изучать.

— Теперь с другой стороны: как на разговор настраиваются люди? Наши действия и слова спонтанны или чем-то предопределены?

— У учёных по этому поводу разные мнения. Некоторые говорят, что есть предзаданные установки по отношению к технологии — доверие к ней, представление о ней. Мы слышим робота и сразу думаем: машина то-то умеет и надо действовать соответствующе. Или другой фактор: уровень цифровой грамотности пользователей. В зависимости от него они ведут себя по-разному. Люди с техническим образованием, понимающие, как всё может быть устроено, не станут долго и витиевато объяснять, а сразу попробуют «отправить» компьютер к заложенным в него ключевым словам.

Другой взгляд — интеракционистсткий. Здесь на первое место ставятся не характеристики пользователей, а процесс взаимодействия. То есть вне зависимости от того, что человек думал и как относится к машине, есть важные черты самой ситуации, на которые он ориентируется.

Я тоже придерживаюсь этого подхода, опираясь на этнометодологию — направление социологии, изучающее повседневный социальный порядок, и на конверсационный анализ, то есть анализ непосредственно разговора как упорядоченного действия, все элементы которого (реплики) зависят от развития этого действия.

С таких позиций хорошо видно, как именно человек «слышит» робота и формирует своё действие. Задаёт вопрос; по каким-то признакам определяет, понят ли он; обращает внимание на длительность паузы; делает вывод об «адекватности» виртуального оператора и дальше, исходя из этого, выстраивает собственное поведение.

Например, используя реплики, типичные для обыкновенного разговора и столкнувшись с неудачей, переходит на более простые фразы:

Абонент: Меня зовут Иван Иванович, я проживаю в Подмосковье. Дело в том, что я обратился в больницу, где лежал с травмой глаза, и всё время ходил к врачу без всяких проблем, она меня контролировала. А это пошёл, а мне говорят, что теперь я должен платить шестьсот пятьдесят рублей, чтобы пройти к врачу. Раньше этого не было. У меня всё.

Робот: Простите, я никак не могу понять. Пожалуйста, ещё раз четко сформулируйте свой вопрос и говорите после звукового сигнала.

Абонент: В БОЛЬНИЦЕ ГОРОДА… города Серпухова… Городск… районная больница города Серпухова, чтобы обратиться К ВРАЧУ БЕРУТ ПЛАТУ. ЭТО ПРАВИЛЬНО?

— Насколько методы, которые вы используете, распространены в исследованиях контактов с интеллектуальными системами? Как ещё это изучают?

— Методов достаточно. Это могут быть, скажем, постановочные эксперименты, смоделированные ситуации, где участники какое-то время взаимодействуют с роботами — в играх, музейных экскурсиях, разговорах с чат-ботами.

Но в реальности человек, вероятно, будет действовать не совсем так. Да и реальность быстро меняется. С технологиями мы уже не просто иногда встречаемся. Они буквально приходят в наш дом в виде умных колонок или ассистентов в смартфонах, то есть присутствуют постоянно, всегда доступны.

Такая ситуация требует других научных методов. Поэтому в последние несколько лет всё чаще анализируются натуралистические данные, собранные в естественных ситуациях взаимодействия. Хотя основные исследовательские проблемы остаются теми же, что в ранних работах.

С 1980-х годов, когда социолог Люси Сачмен изучала «столкновение» человека с копировальным аппаратом, мало что изменилось. Техника совершенствуется, а вопросы взаимодействия с ней прежние: обратная связь, прозрачность действий, понимание и ресурсы для его выстраивания.

— Возвращаясь к практике. Как все-таки разговаривать с «умной» машиной, чтобы она вас поняла? Что важно — интонация, темп, есть ли специальные приёмы?

— Главное — быть терпеливым, ждать и не отчаиваться раньше времени. Если робот вдруг замолчал, не факт, что завис — возможно, думает, подбирает ответ. Нужно быть готовым повторять или изменять свой запрос.

— А что такое адаптированный способ говорить? Вы пишите, он вырабатывается в ходе общения с роботами. Речь об адаптации именно к ним?

— Когда случается сбой или человек замечает проблемы в понимании, он начинает приспосабливаться к машине: регулировать свою громкость, менять интонацию, делать паузы, повторять по нескольку раз фразы.

Однако эти способы не уникальны. Такова обычная реакция на непростых в коммуникации собеседников. Например, тех, у кого слабый слух или плохое владение нашим родным языком. И тогда что с роботом, что с иностранцами или слабослышащими, или даже с обычными людьми, но в некомфортных условиях — шумном помещении, плохой телефонной связи, мы говорим так, чтобы сказанное воспринималось легче.

— Разработчики это учитывают?

— Вероятно, но мне трудно привести свидетельства этого. Роботу проще, если мы изъясняемся не скороговоркой и не на сленге, но он, скорее всего, не станет просить нас облегчить ему жизнь, потому что по замыслу создателей должен выглядеть как можно умнее и сообразительнее.

— Отличаются ли реакции на голосового помощника в зависимости от того, он это или она? Важен ли гендер пользователей при создании технологий?

— При создании — не знаю. Думаю, что в связи с современными дискуссиями адекватной будет позиция, когда мужчин и женщин не различают и делают так, чтобы роботы общались с ними одинаково.

Что касается голосов, то да, реакции на них разные. В исследовании Екатерины Хониневой на примере Siri показано, как и когда пользователи ориентируются на гендер «женской» помощницы, как это связано с определенными действиями вроде оскорбления или заигрывания, выбором тем разговора, способами объяснения ошибок машины.

Использование гендерных категорий в связи с «умными» технологиями сопряжено с приписыванием последним определенных свойств. Так, считается, что для голосового компьютера в авиации женский голос был выбран потому, что он спокойный, уверенный, доброжелательный и при этом не напрягает пилотов-мужчин, так как ассоциируется не с начальником, а именно с помощником.

Сейчас большинство таких технологий по умолчанию озвучиваются женскими голосами. Этот образ помощницы часто критикуется. Звучат мнения, что слугоподобная модель сцепляется с вполне реальными представлениями о женщинах и воспроизводит их соответствующую роль в социальном мире.

— Учат ли цифровых агентов реагировать на нецензурную лексику?

— По-моему, они её не особенно распознают. В ответ на некоторые реплики, робот перенаправляет звонок на оператора. Говорят, так происходит и когда абонент выражает недовольство, более того, ненормативная лексика, если её применить сразу — верный способ побеседовать с человеком. Но, думаю, это просто обывательский миф.

— Какие сбои в разговорах случаются чаще всего? Кто в них виноват — мы или компьютеры?

— Я бы не искала главного виноватого. Сбои — совместное «достижение». Часто к ним приводят асимметрия и разница в природе человека и машины. Люди, к примеру, обычно не думают о собственных действиях как о вводе команды для компьютера, а компьютер в свою очередь — игнорирует их высказывания как шум, не содержащий адекватного ввода.

Или абсолютно техническая особенность робота, связанная с тем, что после окончания слов человека он несколько секунд молчит. Это тоже может обернуться проблемой, поскольку человек привык к более быстрой реакции. Он начинает волноваться, добавлять что-то к запросу. Работ параллельно обрабатывает информацию и приступает к ответу. Происходит наложение реплик. Нередко возникает комичная последовательность из паузы, одновременного говорения и снова паузы, потому что робот, как и человек, настроен останавливаться, когда слышит собеседника.

— Чем обычно это заканчивается?

— Кто-нибудь сдаётся. Шучу, конечно. На самом деле постепенно всё восстанавливается. Человек может продолжить говорить или сделать паузу и подождать, поскольку предполагает, что ответ всё-таки будет.

— Что, на ваш взгляд, пока не предусмотрели разработчики? Есть ли какие-то рекомендации с точки зрения социолога?

— Я бы рекомендовала налаживать механизмы обратной связи. Роботов мы склонны считать не просто объектами для управления, а партнёрами по коммуникации, поэтому важно сделать их более предсказуемыми и понятными.

Нужно озвучивать или показывать пользователю с помощью индикаторов, что происходит с технологией в данный момент: слушает ли она, приступила ли к поиску, как скоро выдаст результат. Пока такие процессы в большинстве случаев предельно непрозрачны.

Рано или поздно человек научится успешно контактировать с роботами, особенно если его заставить сталкиваться с ними в важных жизненных ситуациях. Но можно дополнительно, усилиями разработчиков, расставить маячки, которые в этом обучении помогут.

Мне вообще нравится идея не скрывать ограничения технологии, не представлять робота всемогущим, сообразительным, быстрым, умным, а обозначать границы того, что он умеет. Иначе получается, разработчики стремятся показать совершенный продукт, и мы, слыша речь, приближенную к человеческой, оцениваем, как он действительно крут. Но тогда и говорим соответственно — будто с администратором или служащим, готовым распознать запрос по нашей фрагментарной, сбивчивой фразе. А это не так, и падение с пьедестала пользовательских ожиданий оказывается болезненнее, чем если бы мы были подготовлены к встрече с роботом. Пусть он с механическим голосом и плоскими интонациями, зато ясно, что с ним надо вести беседу как с машиной.

— Можно ли сконструировать идеального технологического собеседника? Да и что значит идеальный?

— Пример, который я изучала, показывает, что мы имели дело с определенным типом разговора человека и машины. Для такой задачи его представить можно — он должен хорошо понимать вопрос, оперативно реагировать, выдавать точную информацию.

Но если речь о спонтанном, свободном общении, то идеальная «машина» для разговора — человек, и это ещё надолго. Нужно иметь богатую фантазию или быть большим технооптимистом, чтобы поверить в искусственного собеседника, так же быстро и чутко реагирующего, приносящего столько же удовольствия, сочувствия, понимания.

Социальные роботы — компаньоны, друзья, помощники — создаются, но пока это довольно бледные отпечатки того, что умеем мы. И главное не очень понятно, зачем стремиться делать из машин людей.

В максимальном приближении к человеку есть элемент подлога. В 2018 году предметом публичного обсуждения стала новая технология Google Duplex, участвующая в телефонном разговоре неотличимым от человеческого образом. Что она делает? Заминается, оговаривается, меняет интонации, обрывается на полуслове, поправляется. И это явно попытка выдать себя за того, кем ты не являешься.

— Научные проекты по изучению взаимодействия человека и робота сегодня имеют прикладной выход? Есть ли заказы от бизнеса и государства?

— Разработки тестируют с реальными пользователями, иногда — с пользователями разных категорий, чтобы продукт стал более инклюзивным и доступным. Однако это скорее точечные вещи. Они направлены на совершенствование конкретной технологии конкретной компании, что, к сожалению, часто мешает делать научные результаты публичным достоянием.

Заинтересованность в сотрудничестве с учёными есть, но она ограничена тем, что в науке, в бизнесе и в государственных услугах различные временные рамки и критерии эффективности. Наука часто медленная, а бизнес быстрый и требует очень понятных и определенных результатов.

— Ваше исследование началось три года назад. Интерес к теме возник тогда же?

— Нет, изначальное любопытство было задолго до того, как мне и моим коллегам попали в руки данные по этому телефонному роботу.

— И куда любопытство заведёт дальше?

— Не знаю… Надеюсь, в какое-нибудь прекрасное место. Сфера социального взаимодействия богата на открытия, на неприметные с первого взгляда сюжеты. Здесь много разных данных, не обязательно связанных с технологической средой. Тема того, как мы соотносим свои действия друг с другом и с происходящим вокруг, неиссякаема. Нужно просто наблюдать, ставить задачи, видеть поле, где можно и академически и практически приложить свои знания и опыт.

 

21 октября, 2021
В Тульской области нашли водоросль с высоким содержанием жирных кислот
Ученые обнаружили на территории России штамм зеленой одноклеточной водоросли Coelastrella multistria...
21 октября, 2021
«Обрезание» гена сделало самцов дрозофил бесплодными
Биологи выяснили, что три четверти самцов мух-дрозофил с укороченным геном orb2 становятся бесплод...