
На уровне здравого смысла понятно, что слишком трудный тест становится слишком страшным, поэтому под любым предлогом потенциальные участники стараются либо избегать его, либо начинают пользоваться шпаргалками (и другими источниками для «читтинга»). Но опять-таки на уровне того же здравого смысла понятно, что если сделать тест совсем легким, то он становится бесполезным: слишком много участников получают максимально высокие результаты и тест перестает выполнять свою дискриминативную (различающую) функцию.
Так какой же уровень трудности является оптимальным — таким, что тест перестает казаться страшным, но все еще остается дискриминативным (различающим, диагностичным)? — Для ответа на этот вопрос нужны определенные специальные знания, которые мы даем в нашей дистанционной программе «Конструирование тестов знаний»:
https://ht-line.ru/ktz-w
Хотя… некоторые простые истины, полученные за многие годы практической разработки тестов знаний, мы стараемся популяризировать в наших открытых статьях. В том числе в этой статье на этом «авторском блоге А.Г.Шмелева».
За пять дней с 8 по 12 марта наш шуточный поздравительный тест прошли в клубе КИТТ 116 человек. Это короткий визуальный тестик под названием «Я — ваша тетя». Вот ссылка на официальный сайт этого нашего «Клуба Испытателей Тестовых Технологий»:
ДЛЯ СПРАВКИ: если Вы еще ранее не стали зарегистрированным участником проекта КИТТ, то сделать это очень просто и совершенно бесплатно: можно пройти регистрацию под любым псевдонимом; при этом не надо даже пароль придумывать, так как вход в ваш личный кабинет будет происходить по персональной авторизующей ссылке на почту.
Средний балл ППО (процент правильных ответов) у тестика «Я — ваша тетя» оказался равным 72%. Вот это и есть трудность, близкая к оптимальной! Но… поскольку тест коротковат (что простительно для шуточного поздравительного тестика) и содержит только 12 заданий (вместо 20, как минимум, что предписывается в «Российском стандарте тестирования персонала»), то по тесту получилось слишком много участников с баллами выше ППО=90%. Таких оказалось 29%, то есть почти одна треть. При этом абсолютный результат ППО=100% показали 14 участников тестирования (больше 10% от выборки!). Для серьезного теста слишком много вундеркиндов!
Увы, обилие высоких результатов — это неизбежное следствие того, что тестик «Ваша тетя» слишком короткий. Такие короткие тесты (до 15 заданий) до сих пор настолько популярны в Рунете, что широкая публика у нас до сих пор сбита с толку: думает, что надо получать по тестам обязательно 100% результат. Но…если тест создан основательно и включает, как положено, не меньше 50 заданий, то в выборке размером до 150 человек, практически НИКТО не должен получать балл ППО=100% (!). Приведу убедительный пример из нашей текущей практики.
Такова у нас сейчас статистическая картина по демотесту КВАЛИМИН (тест знаний для психологов). Его выполнили уже 145 человек (включая тех, кто выполнял еще пилотную версию из 50 заданий). Самый высокий результат среди людей равен пока что 92% на шкале ППО. Почему пишу «среди людей»? — Потому, что этот тест уже выполнили 6 разных «нейросетей». И вот у этих «цифровых мудрецов» баллы в самом деле получаются очень высокие: у четверых 98%, а у двоих даже 100% (!). Это ChatGPT-5 и Perplexity. В данном случае «нейронки» помогают нам — разработчикам КВАЛИМИН — быть уверенными в том, что тест обладает содержательной валидностью, то есть все задания имеют обоснованные правильные ответы.
===================
В заключение этой короткой статейки, я приведу парочку скриншотов со статистикой ответов на поздравительный тест 8 марта, и Вы тогда поймете, почему он получил шуточное название «Я — ваша тетя» и, возможно, Вы немножко улыбнетесь. Ведь большая часть заданий теста — это фотографии известных артистов кино и шоу-бизнеса, у которых с помощью «нейронок» был трансформирован пол.
Вот пара скриншотов с аналитической веб-страницы нашей системы Ht-Line, которая помогает автоматически проанализировать собранную статистику.
На первом скриншоте показано самое удачное тестовое задание:

Скриншот 1. Это задание оказалось самым ценным в диагностическом плане. У этого задания получился самый высокий коэффициент дискриминативности (КД=77%). Что это такое? — Подробности для слушателей нашей программы КТЗ-26.

Скриншот 2. А это самое неудачное задание. У него оказалось самое низкое значение КД (только 14%), то есть оно не различает сильных и слабых участников. Почему так? — Потому что это слишком легкое задание: более 90% испытуемых дали правильный ответ.
Ну а кто из известнейших киноактеров изображен на обложке? — Догадайтесь!
P.S.
Оценки за тест тоже берутся не «с потолка», а с учетом статистического распределения тестовых баллов. По демоверсии КВАЛИМИН-26 мы пока не можем сообщить статистических нормативов. Наша цель — уточнить их вместе с Вами. Но предварительные приближенные экспертные нормативы известны:
Балл ППО Словесная характеристика
Более 90% — Превосходно (5+)
Более 80% — Отлично (5)
Более 70% — Хорошо (4)
Более 60% — Удовлетворительно (3+)
Более 50% — Посредственно (3-)
Повторяю в этой статье прямую ссылку на тест для психологов КВАЛИМИН-26 (потребует от 25 до 35 минут вашего времени). Точней будет сказать, что эта ссылка на предыдущую мою статью, внутри которой Вы сразу найдете прямую ссылку на тест (она идет в самом начале статьи):
https://ags.ht.ru/?p=4377

Добавить комментарий