Матрица чувств: как наш мозг расшифровывает эмоции по походке и жестам.
Допустим, что вы смотрите не на человека, а на рой точек на белом фоне — как будто кто‑то разобрал человека на «суставы» и оставил только минимальный набор пикселей. И все равно мозг уверенно говорит: «он радуется», «он боится» или «ему смертельно скучно». Почему так, и где проходит граница, за которой мы уже перестаем понимать эмоции по одному только движению? Этим вопросом занялась сотрудник ФГБОУ ВО МГППУ, психолог Ольга Королькова.
В обычной жизни мы читаем эмоции по лицу, позе, походке, жестам — целому ансамблю сигналов. Но тело видно издалека лучше, чем лицо: вы еще не разглядели мимику, а походка и осанка уже выдают, в каком человек настроении. Исследовательница решила радикально «обеднить» картинку и проверить: сколько информации о форме и движении нужно нашему мозгу, чтобы он продолжал угадывать эмоции, а в какой момент он окончательно теряется.
Для этого взяли реальные видеоролики из европейской базы EU-ESM: три актера в полный рост изображают семь состояний — радость, страх, отвращение, возбуждение, разочарование, скуку и спокойствие. Затем видео прогнали через систему Mediapipe: программа отметила 33 ключевые точки тела — суставы, голову, пальцы. Итог — вместо людей на экране двигаются только черные точки; ни лица, ни одежды, ни предметов, никакого контекста «кафе», «улица» или «офис». Чистая хореография эмоций.
Дальше — небольшой эксперимент над восприятием. Одной группе показывали этих «точечных людей» в нормальном режиме — 23 кадра в секунду, движение выглядит плавным. Другой группе включили «стробоскоп»: всего 2 кадра в секунду, движение рвется и превращается в прерывистую смену поз. Так исследовательница проверяла, насколько важна для распознавания эмоций именно кинематика — плавность и непрерывность движения.
Участникам задавали вполне бытийный вопрос: «В каком эмоциональном состоянии человек?» — и предлагали варианты ответа плюс возможность написать свой. То есть это не был сухой тест на «угадать по шкале от 1 до 7», а скорее приближение к тому, как мы называем чужие состояния в реальной жизни.
Результаты для плавного движения обнадеживают: в среднем люди правильно распознавали эмоции по одним только точкам в 61% случаев. Лучше всего заходили скука (75%) и страх (73%). Хуже — радость, отвращение, возбуждение и разочарование, где точность болталась между 49 и 64%. Наш мозг, как выясняется, довольно неплохо считывает скуку и страх даже тогда, когда от человека остался только скелет из точек.
Но как только включался «стробоскоп», все резко усложнялось. Средняя точность падала до 40%, а по некоторым эмоциям — почти до случайного угадывания. Страх, отвращение и разочарование «ломались» особенно сильно: страх падал с 0,73 до 0,35, разочарование — с 0,49 до 0,17. То есть там, где движение рваное и мало кадров, мозгу уже не хватает информации, чтобы собирать эмоцию воедино. Однако есть два исключения — радость и спокойствие: для них переход к «стробоскопу» статистически не ухудшал распознавание.
Особенно интересно, какие ошибки люди допускали. Радость без цвета, лица и контекста часто превращалась в «интерес» или «удивление». Скука иногда маскировалась под «возбуждение» (видимо, кто‑то просто очень энергично скучал). При стробоскопическом режиме поле ошибок менялось: радость чаще принимали за удивление и злость, страх — за стыд или разочарование, отвращение — за страх или грусть. То есть, когда мозгу не хватает кадров, он начинает «договаривать» картинку и путает близкие по напряжению и динамике состояния.
Еще один ключевой ход исследования — сравнение этих точечных фигур с предыдущим экспериментом, где участники смотрели полноцветное видео. Там были варианты: все видно, лицо размыто, тело размыто, разные степени ограничения формы, а также те же самые «фигуры из точек». Это позволило разложить вклад разных источников информации: формы тела, движения и лица.
Выяснилось, что для разных эмоций мозг использует разные «комбинации каналов».
Радость почти целиком держится на форме, текстуре и контексте: по обычному видео ее узнавали с точностью до 89–96%, а по фигурам из точек — лишь около 51%, причем снижение частоты кадров ситуацию почти не меняло. Одних только движений здесь мало: без лица, ярких поз, «жизненного сюжета» радость легко путают с интересом или удивлением.
Отвращение и разочарование — гибридные эмоции: им нужна и форма, и движение, и желательно контекст. По полноцветному видео отвращение узнавали очень хорошо (82–90%), но стоило оставить только точки — точность падала до 60%, а при стробоскопе — до 29%. Для разочарования провал был еще драматичнее: от 0,78–0,92 по полному видео до 0,49 по точкам и 0,17 при стробоскопе. Здесь мозг явно опирается и на рисунок тела, и на мелкие движения, и на ситуацию, в которую помещен человек.
Страх и скука — «звезды» чистой телесной экспрессии. Информация о лице почти не влияет на точность; важны и поза, и движение, и контекст. Страх по полноцветному видео распознавали с точностью около 92%, по точкам при плавном движении — 73%, а при стробоскопе точность сильно падала. Скука лучше всего читалась там, где было достаточно непрерывного движения: неретушированное видео, видео с размытым лицом и фигура из точек с плавным движением давали схожие высокие показатели (0,75–0,8).
Возбуждение (в смысле сильного эмоционального подъема) оказалось самым трудным случаем: во всех условиях точность была относительно низкой. Забавно, что наличие формы и текстуры даже мешало — в полном видео возбуждение нередко принимали за интерес. А вот уменьшение количества кадров у точек ухудшало распознавание, что говорит о ключевой роли кинематики: эта эмоция «живёт» в характере движения.
Спокойствие — отдельная история. Здесь главный герой — не тело, а микроэкспрессии лица. Когда лицо размывали, спокойное состояние распознавали лучше всего (до 0,83), потому что ничего не отвлекало от общей расслабленной позы. Как только лицо становилось видно, люди начинали выискивать там микросигналы тревоги или скуки, и точность падала. Фигуры из точек без лица распознавались по спокойствию примерно так же хорошо, как полноцветное видео без ретуши.
Если вы любите прикладные выводы, их тут несколько. Во‑первых, тело действительно говорит о нас не меньше, чем лицо: по одним только «суставам» можно довольно надежно отличить страх от скуки, а скуку — от возбуждения. Во‑вторых, разные эмоции распределяются по разным каналам: радость требует формы и контекста, возбуждение — динамики, а спокойствие — тонкой мимики. В‑третьих, когда мы резко «обрезаем» движение (как стробоскопом), мозг начинает чаще ошибаться и смешивать близкие по энергетике состояния.
С точки зрения технологий это важная новость для систем, которые пытаются распознавать эмоции по видео и движениям тела. Нельзя просто «натренировать нейросеть на всех эмоциях сразу» и ждать одинакового успеха: алгоритмы должны учитывать, что для радости критичны контуры и сцена, для страха — конфигурация тела, а для возбуждения — тонкая структура движения. Для психологии общения это тоже урок: иногда мы уверены, что «по походке всё понятно», но на самом деле недостающие детали мозг тихо домысливает.
И, наконец, небольшой утешительный вывод для тех, кто переживает, что окружающие «читают» их как открытую книгу. Даже когда вы — всего лишь набор черных точек на экране, люди ошибаются довольно часто, а уж в реальной жизни, с ее стробоскопом дел, новостей и уведомлений, шанс быть неправильно понятым только растет. Так что иногда полезно не пытаться всё считать по чужим жестам, а просто переспросить.
Исследование опубликовано в журнале «Экспериментальная психология»


