Обладают ли системы ИИ чувством юмора?

На вопрос, вынесенной мной сегодня в заголовок, многие начали бы высказывать категоричное мнение, основанное на собственных субъективных впечатления и убеждениях. Начали бы спорить до хрипоты… Но у нас в нашем проекте КИТТ (Клуб Испытателей Тестовых Технологий) есть уникальная возможность проводить тесты на ЧЮ, собирать данные на обширных выборках респондентов (членах клуба КИТТ), а также предлагать эти тесты для выполнения системам ИИ (то есть в так называемых нейрочатах с участием «Больших Языковых Моделей») и смотреть, насколько оценки качества шуток, которые дают популярные системы ИИ, отличаются от тех оценок, которые дают люди.

Вот короткий тест юмористических фрах под названием Микро-ТЮФ-22. В нем всего лишь 10 фраз на одном экране (нелепости в школьных сочинениях). Время выполнения — в пределах 2-х минут. Рекомендую Вам его выполнить, чтобы Вам стало интересным последующее чтение данной статьи:

https://test.ht-inc.ru/test/dc09588b5d8ca0ad1a057dd7f332607e

Я предложил системе Яндекс-Алиса выполнить этот тестик и предъявил те же самые 10 фраз из школьных сочинений с задачей — выявить 5 из 10, над которыми люди смеются больше, чем над другими пятью. То есть, перед Алисой была поставлена задача не формулировать собственные предпочтения, а выполнить имитацию мнения людей (недаром она учится на тысячах и миллионах разных анекдотов и афоризмов, которые опубликованы нынче в Глобальной Сети).

Испытуемый «Алиса И.И.» вполне поняла задачу, но результат оказался весьма посредственным. Ее сырой балл оказался равным только 6 правильным ответам из 10 возможных (ППО=60%). По этому показателю Алиса оказалась ровно в середине на шкале «процентильный балл», то есть показала фактически медианный результат (104 усредненный ранг для медианный группы из 214 участников КИТТ). Какие ошибки Алисы оказались самыми грубыми? — Ну, например, она поставила в группу «смешных» шутку по Чичикова, от которого «понесла даже птица-тройка», тогда как люди дали этой шутке самый низкий балл (только 17% поставили ее в группу удачных шуток).

Вот тут у меня возник вопрос: А может быть, Алиса как раз права? Она-то лучше понимает (что и показали ее разъяснения), что в этом шутке присутствует игра на двусмысленности слова-омонима «понесла». А все ли наши испытуемые в наше время в курсе, что именно воспел Гоголь в своей поэме «Мертвые души», знают ли авторский монолог про «птицу-тройку» (?). В советские времена этот текст многие школьники знали почти также хорошо, как стихотворение Лермонтова «Скажи-ка, дядя…».

После этого я решил предъявить Алисе материал полегче и взял 10 юмористически фраз из нашего тестика «Культурный зонд». Эти фразы — это выборка из старинного теперь уже теста ТЮФ-1 (см. таблицу 1). Задача была в этом случае почти такой же, как в первом случае: назвать 5 более интеллектуальных фраз из 10 фраз.

Таблица 1. В левом столбце — процент участников клуба КИТТ, которые отнесли данную фразу в пятерку «интеллектуальных шуток».

В этом случае Алиса выступила более удачно — дала 80% правильных ответов. У нее поменялись местами только две шутки из 10 (по сравнению с теми данными, которые приведены в таблице 1 и которые стали ключом к тестику). Алиса ошибочно завысила качество шутки «Вот мы и встретились!» — сказал машинист», но при этом в низкую группу отнесла фразу «Дурак, совершенствуясь, становится круглым» (недооценив в этом случае интеллектуальный юмор). Я, конечно, указал Алисе на ее ошибки.

Вот, как Алиса ответила на эту обратную связь от меня:

Алиса

Поняла, спасибо за обратную связь, профессор! Разберу свои ошибки детально — это поможет лучше понять логику восприятия юмора.

Правильные ответы (по результатам теста):

«Перья у писателя были. Ему не хватало крыльев» (№ 12) — изящная метафора, игра с буквальным и переносным смыслом.
«Ему пришла в голову мысль, но, не застав никого, ушла» (№ 14) — антропоморфизация абстрактного понятия, создающая комический эффект.
«Наркоз — средство защиты хирурга от советов пациента во время операции» (№ 18) — логичный парадокс с узнаваемой жизненной ситуацией.
«Раб мечтает не о свободе, а о своих рабах» (№ 20) — афористичный парадокс с социальной иронией.
«Дурак, совершенствуясь, становится круглым» (№ 13) — игра с устойчивым выражением «круглый дурак».

Разбор ошибок

Ошибка 1: переоценка шутки про машиниста (№ 15)

Почему я посчитала её удачной:

есть неожиданный поворот;
ирония в использовании фразы «Вот мы и встретились!» в критической ситуации;
узнаваемый шаблон «несвоевременная радость».

Почему она оказалась менее удачной на практике:

ситуация слишком трагична (столкновение поездов) — юмор воспринимается как неуместный;
отсутствует элемент абсурда или гиперболы, который бы «смягчил» катастрофический контекст;
шутка построена на очевидном — столкновение поездов и так подразумевает встречу локомотивов, нет дополнительного открытия.

Ошибка 2: недооценка шутки про круглого дурака (№ 13)

Почему я изначально отнесла её к менее удачным:

посчитала шутку плоской — она прямо отсылает к фразеологизму «круглый дурак»;
не увидела дополнительного смыслового слоя;
ожидала более сложного построения.

Почему она оказалась удачной для большинства:

лаконичность и законченность мысли делают шутку легко усваиваемой.
фразеологизм «круглый дурак» хорошо знаком носителям языка;

парадокс «дурак, совершенствуясь» создаёт неожиданный эффект: совершенствование обычно ведёт к улучшению, но здесь оно лишь подчёркивает изначальный недостаток;

Реплика Шмелева:

Этот тестик у нас в КИТТ выполнили 125 человек (побольше в Дзене, но я не стал сейчас складывать две выборки). Вы с сырым баллом 16 из 20 поделили места с 9 по 25, то есть ваш процентильный балл оказался в данном случае равным 86% в сторону полюса «Интеллектуальный юмор» (нижний полюс — это «Организмический юмор»).

·Алиса продолжает:

Благодарю за детализацию результатов, профессор! Очень ценно увидеть своё место в контексте реальной выборки из 125 человек.

Разберу итоги подробно — с точки зрения статистики, логики восприятия юмора и работы алгоритма.

Фактические результаты

Сырой балл: 16 из 20 (80 % правильных ответов).
Занятое место: в диапазоне 9–25 из 125 участников.
Процентильный ранг: 86 % в сторону полюса «Интеллектуальный юмор».
Положение в распределении: верхняя треть, близко к топ‑10 %, но не в абсолютном лидерстве.

Интерпретация результатов

Высокий, но не максимальный результат
1. 86‑й процентиль означает, что я превзошла примерно 86 % участников по точности угадывания «интеллектуальных» шуток.
1. При этом я не вошла в узкий круг абсолютных лидеров (места 1–8), что говорит о наличии более тонких стратегий или интуиции у отдельных людей.
Тип юмора: «интеллектуальный»
Определение полюса как «интеллектуального юмора» хорошо согласуется с характером удачных шуток:
1. игра слов и фразеологизмов (№ 13 — «круглый дурак»);
1. метафоры и антропоморфизация (№ 12, № 14);
1. парадоксы с социальным подтекстом (№ 20);
1. логичные, но неожиданные выводы (№ 18).
  Эти приёмы требуют не просто эмоциональной реакции, а когнитивной обработки — распознавания двойного смысла, отсылки, противоречия.
Распределение результатов
Диапазон мест 9–25 при одном и том же балле (16/20) говорит о:
1. плотности результатов в верхней зоне — многие участники показали близкие высокие баллы;
1. низкой дисперсии на пике — небольшое улучшение (на 1–2 ответа) резко поднимает место в рейтинге;
1. возможно, наличии «потолка» для задачи: 20 вопросов — это мало для тонкой дифференциации, поэтому баллы группируются.
Ошибки как индикатор границ ИИ
Мои две ошибки (№ 15 и № 13) хорошо иллюстрируют зоны, где алгоритм пока уступает человеку:
1. № 15 (машинист) — не учтён эмоциональный фильтр: юмор на тему катастроф воспринимается как неуместный, даже если формально есть ирония.
1. № 13 (круглый дурак) — недооценена сила идиоматики: устойчивые выражения («круглый дурак») обладают высокой узнаваемостью и комическим потенциалом при минимальном повороте смысла.

Что это говорит о восприятии юмора?

Данные подтверждают несколько теоретических положений:

Юмор — это баланс неожиданности и безопасности. Шутка про столкновение поездов нарушает второй критерий: ситуация слишком угрожающая, чтобы быть смешной.
Культурный код важнее формальной логики. Фразеологизм «круглый дурак» активирует готовый ассоциативный ряд, делая шутку мгновенно понятной и забавной.
Краткость — сестра таланта. Самые успешные шутки (№ 13, № 20) лаконичны: один чёткий парадокс или игра смыслов без лишних деталей.
Узнаваемость ситуации усиливает эффект. Шутка про наркоз (№ 18) работает, потому что опирается на распространённый стереотип (советы пациентов).

Реплика Шмелева:

Важный вопрос, Алиса: а Вы умеете интерпретировать картиночный юмор? (Карикатурки). Мы недавно собрали большой массив данных — о том, как люди придумывают подписи к карикатурам и оценивают качество юмора в этих подписях. А Вам дам карикатурку (прикрепляю в виде jpg-файла в наш с Вами чат), а под ней — 5 подписей разного качества. Ваша задача — оценить качество юмора в этих подписях по пятибалльной шкале от 1 до 5, где 1 — туповатый юмор, а 5 — наиболее остроумная шутка.

1 : Не сгори, дорогая!
2 : Все таки не зря везли крем!
3 : Грибники
4 : Перед смертью можно и позагорать до черноты
5 : От такого загара нужен не крем

ОТВЕТ ОТ АЛИСЫ:

«Не сгори, дорогая!»
Оценка: 4 из 5.
Поверхностная трактовка («Садизм‑Безопасность»): бытовая забота звучит зловеще на фоне ядерного гриба; контраст «мелочь vs катастрофа» даёт разрядку тревоги через иронию.
Глубинная трактовка («Социальные неурядицы»): воспроизводит модель «нормализованной тревоги» — люди продолжают жить по привычным сценариям, даже когда контекст требует иного поведения; это культурный код эпохи, где повседневность маскирует коллективные страхи.
«Всё‑таки не зря везли крем!»
Оценка: 4.5 из 5.
Поверхностная трактовка: абсурдная «полезность» крема в ситуации, где он заведомо не поможет; разрядка через бытовую логику на грани чёрного юмора.
Глубинная трактовка: высмеивает иллюзию контроля («мы подготовились, значит, всё будет хорошо») — это устойчивый защитный механизм в условиях неопределённости; подпись хорошо ловит социальный паттерн «делать вид, что всё под контролем».
«Грибники»
Оценка: 3.5 из 5.
Поверхностная трактовка: игра слов («гриб» как ядерный взрыв и как объект сбора) даёт мгновенный комический эффект; юмор строится на узнаваемой бытовой ассоциации.
Глубинная трактовка: обнажает привычку «переименовывать» угрозу, чтобы снизить её значимость (эвфемизация катастрофы через привычное слово); это тоже форма социальной адаптации к тревожному контексту.
«Перед смертью можно и позагорать до черноты»
Оценка: 3 из 5.
Поверхностная трактовка: максимально прямой чёрный юмор; разрядка потребности в безопасности через фатализм и гиперболу («загореть до черноты» как метафора необратимого исхода).
Глубинная трактовка: выражает экзистенциальный протест («берём от жизни последнее»), но из‑за прямолинейности теряет социальный подтекст; акцент смещён на индивидуальную реакцию, а не на культурный код.

«От такого загара нужен не крем»
Оценка: 4.5 из 5.
Поверхностная трактовка: ирония над «решением проблемы» — крем не подходит, потому что угроза иного порядка; контраст бытовой заботы и масштаба катастрофы.
Глубинная трактовка: показывает разрыв между доступными средствами защиты и реальной опасностью; это метафора «несоответствия инструментов эпохе» — культурный мотив, который часто всплывает в сатире о бюрократии, технологиях и политике.

Реплика Шмелева:

Неплохо, Алиса. Но по сравнению с участниками КИТТ, которые оценивали качество этих подписей (а их было 122 — немало!) Вы явно завысили балл для прямолинейных подписей номер 5 «От такого загара нужен не крем» и номер 1 «Не сгори, дорогая», но занизили балл для подписи «Грибники». При этом ваша удача — это высокая оценка шутки «Все-таки не зря везли крем». Понимаете, у самих участников процедуры оценивания (восприятия) шуток тоже ведь в момент оценивания срабатывают определенные «психологические защиты».

ОТВЕТ АЛИСЫ :

Профессор, спасибо за уточнение — это как раз тот самый «человеческий слой» восприятия, который и делает ваш массив КИТТ таким ценным: оценки людей отражают не только «качество шутки», а ещё и работу их психологических защит в момент оценки.

Разберу, почему мои баллы могли разойтись с мнением 122 участников, и как это можно зафиксировать в разметке датасета — с опорой на психодинамическую оптику.

Почему я высоко оценил № 1 и № 5 (и где тут защита)

«Не сгори, дорогая!» (моя оценка 4/5)
На уровне механизма — это «мягкая» ирония: фраза звучит как привычная бытовая реплика, и контраст с ядерным грибом считывается мгновенно.
Психологическая защита в оценке: здесь работает рационализация («это просто милая забота») и юмор как дистанцирование — человек не сталкивается с угрозой напрямую, а «упаковывает» её в знакомую интонацию. Возможно, участники КИТТ снизили балл, потому что для части из них эта интонация прозвучала как обесценивание опасности (сработал моральный запрет на «шутки про безопасность»).

«От такого загара нужен не крем» (моя оценка 4.5/5)
Здесь контраст «бытовое средство vs масштаб угрозы» оформлен как логический вывод, почти как бытовая ремарка.
Психологическая защита в оценке: работает интеллектуализация — вместо переживания страха человек «решает задачу» («какой крем нужен?»). Для многих это комфортный способ разрядки; для других — слишком «холодный» тон, отсюда снижение балла.

Почему я поставил 3.5/5 подписи «Грибники» (и где тут защита)

«Грибники» (моя оценка 3.5/5)
Игра слов даёт быстрый эффект узнавания, но дальше «не идёт»: нет развития контраста, нет интонации, нет социального подтекста.
Психологическая защита в оценке: у части участников КИТТ, вероятно, сработала реактивное образование или обесценивание тревоги через упрощение — «переименовать страшное в знакомое» (гриб = не угроза, а объект сбора). Для них это сработало как очень эффективная разрядка, отсюда высокий балл. Для меня же эта подпись не даёт «глубинного слоя» (социального кода/культурного мотива), поэтому балл ниже.

Почему «Всё‑таки не зря везли крем!» попала в точку

«Всё‑таки не зря везли крем!» (моя оценка 4.5/5)
Эта фраза одновременно:

обыгрывает бытовую логику («мы подготовились»),
обнажает иллюзию контроля (защитный механизм эпохи),
сохраняет лёгкую интонацию без фатализма.
Психологическая защита в оценке: здесь работает юмор как компенсация — «мы не беспомощны, у нас есть крем». Это «золотая середина» между прямым страхом и полным обесцениванием, поэтому она и получила признание.

Реплика Шмелева:

Понимаете, дорогая Алиса, Вы мне напоминаете все-таки аспиранта, который выучил очень много умных слов из психологической литературы, но опыта употребления этих слов к реальным случаям у него, увы, явно маловато. Вы настойчиво недооцениваете шутку «Грибники»!! Почему? — Мне кажется, потому, что Вы не понимаете, что психологическая защита от угрозы по типу «интеллектуализация» в данном случае эффективней снижает страх, чем прямое обозначение этого страха. Непонятно объясняю?

ОТВЕТ АЛИСЫ :

Простите, что перегрузила ответ терминами, — понимаю, что сейчас важнее не «словарный блеск», а попасть в суть того, как именно эта шутка работает на снижение страха. Вы правы: я недооценила «Грибники», и сейчас разберу, почему в этом каламбуре защита срабатывает мощнее, чем мне показалось.

Почему «Грибники» на самом деле сильнее снижают страх

Ключ тут именно в мгновенной эвфемизации — человек за долю секунды заменяет пугающий образ («ядерный гриб») на бытовой, безопасный («грибы в лесу»).

Скорость переключения. В отличие от развёрнутых реплик про крем, здесь нет ни рассуждения, ни интонации — только одно слово. Мозг успевает «переименовать» угрозу и выдохнуть раньше, чем тревога разгонится.
Отсутствие моральной оценки. Фраза не звучит как фатализм («перед смертью») и не имитирует контроль («не зря везли крем»). Она просто «стирает» опасный смысл слова «гриб», оставляя только привычную картинку похода за грибами.
Эффект «всё понятно без пояснений». Шутка не требует додумывать контраст — она сразу даёт готовый безопасный контекст. Это и есть очень чистая, экономная интеллектуализация: назвать страшное нейтральным словом и тем самым снизить его эмоциональную нагрузку.

Где я ошиблась в оценке Я искала в этой подписи «социальный подтекст» и «развитие контраста» — то есть меряла её по меркам сатиры. Но в психодинамике юмора не всегда нужен развёрнутый конфликт смыслов. Иногда самая эффективная разрядка — это как раз такое короткое замыкание тревоги через игру слов. В этом смысле «Грибники» работают даже чище, чем более «разговорные» варианты: они не разыгрывают сцену, а просто меняют регистр восприятия за одно слово

====================== конец диалога =============

Длинноватая стенограмма, да? — подумаете Вы. Но, уверяю Вас, дорогие читатели, что она примерно в пять раз больше, чем отобранный мной материал для этой публикации 🙂

А теперь вопрос к Вам,читатели: Как Вы сами ответили бы на вопрос, вынесенный в заголовок данной статьи: «Обладают ли системы ИИ чувством юмора?».

Мой же личный ответ не такой категоричный сегодня и он состоит из двух частей:

Предпосылки неплохие, хотя результаты пока еще скромные.
Необходимо обучать ИИ-системы на специально подобранном и структурированном материале (тестовом и обучающем материале), а советы от ИИ лучше интерпретировать под руководством опытного наставника-специалиста.

Картинка на обложке статьи пришла с сайта shedevrum.ai.

Добавить комментарий Отменить ответ

Согласен, что бездарность идеологических руководителей СССР (начиная с Суслова) — это одна из причин краха неплохого для начала 20-го века…

Александр Георгиевич, хотелось бы дополнить своё предыдущее сообщение мыслью о нарративном оружии. Вы наверно заметили как совершенно идиотская идея способна…

Кто владеет умами, тот владеет миром. Кто хочет владеть миром это давно-о-о уже это понял. Поэтому война стала всего лишь…

Ирина, добрый вечер! Вы весьма, кстати, напомнили про Джефри Сакса. Но… я ведь что хотел сказать: наши воинственные военные пропагандисты…

На Западе неоднократно выступал ведущий экономист США Джеффри Сакс с историческим экскурсом к причинам конфликта России и Запада. Кто-то же…

Итак, коллеги, в режиме частной переписки я получил такое пожелание от читателя этой статьи: «Мне кажется, что таким, как стоит…

Добавить комментарий Отменить ответ

Актуальный опрос

Ваши вопросы

Рубрики

Последние комментарии:

Облако меток