Тесты отбора и тесты отсева: как в этом помогают разобраться таблицы ЧТС

Коллеги,

в группе TESTbyTEST на Фейсбуке у нас возникла по инициативе Эдуарда Бабушкина спонтанная дискуссия на тему «тесты потенциала». Я написал, почему само понятие «потенциал» нельзя освоить без освоения логико-статистических таблиц, какими являются ЧТС-таблицы (четырехклеточные таблицы сопряженности).

Мне каждый раз не хочется тащить на ФБ «сокровенное знание», ибо там преобладает все-таки «помойка». Мне каждый раз хочется людей по-настоящему пытливых пригласить сюда — чтобы здесь в нормальной обстановке все обсудить и ответить на все вопросы. Но… многие там застряли надолго (на много лет) и не понимают, что они при этом застряли в своем… «концептуальном развитии». Там нельзя найти такой документ как «Стандарт тестирования персонала», ибо соцсеть для этого НЕ предназначена — для поиска документов. Надо хотя бы в поисковик выйти и там искать… Но … многие думают теперь, что ФБ — это и есть Интернет (и заодно это и есть компьютер тоже). А дети-школьники думают, что сеть ВК (вконтакте) — это и есть Интернет. Ну и так далее.

Как же выглядят ЧТС для тестов отбора и отсева. Тут надо вглядеться в них (в эти таблицы ЧТС) и понять, что это и есть ЛОГИКА, что это и есть ЛОГИЧЕСКИЕ ТАБЛИЦЫ.

Я уже писал почти 20 лет назад в статье «Тест как оружие», как выглядят ЧТС для типичных тестов отсева, но давайте еще раз здесь повторю:

 Могут работатьНе могут работать
Прошли тестА = 30B = 30
Не прошли тестC = 0D = 40

Выборка условная численностью в 100 человек разбивается на 4 клеточки. Напомню, что в каждой из четырех клеточек указано число испытуемых. Как видим, никакого контраста в первой строке между А и В нет. Что это значит? — Что статистика НЕ позволяет использовать тест для прогноза успешности. Увы! Из числа 60 человек, кто справился с тестом, ровно половина (30 человек) может работать, а половина — не может вовсе (тоже 30 человек). Казалось бы тест совсем дрянь и его надо выкинуть? Ан нет! Он полезен, так как работает на дело, но… как ТЕСТ ОТСЕВА. Для этого изучите нижнюю строку таблицы. Никто с низким результатом по тесту не может работать (С=0), так как все 40 человек, кто завалил тест, попали в клеточку D. Таким образом, тест ОТСЕВА — это тест с асимметричными прогнозом: он не позволяет прогнозировать успех, но позволяет прогнозировать неудачу. Вопрос на понимание к Вам такой. На каком из этапов следует использовать ТЕСТ ОТСЕВА?

Ответ 1) на раннем (предварительном) этапе
Ответ 2) на позднем (заключительном) этапе воронки отбора.

А вот как выглядит ЧТС для теста отбора, который дает положительный прогноз.

 Могут работатьНе могут работать
Прошли тестА = 40B = 0
Не прошли тестC = 30D = 30

В этом случае неинформативной оказывается нижняя строка — нет контраста в значения С и D. Только верхняя строка является информативной (А больше B). Этот тест тоже обладает асимметричной прогностичностью, но он как раз является тестом отбора, так как попадание в высокую группу позволяет прогнозировать успех в работе, а вот попадание в низкую группу (по тестовому баллу) еще ни о чем не говорит.

Вы спросите, а зачем так огрублять результаты?- Сводить их к бинарным переменным, когда больше информации можно получить, если рассматривать более детальные шкалы с тестовыми баллами — например, шкалу Т-баллов, шкалу стэнов или шкалу IQ? — Вот этот примерно вопрос и задал мне Эдуард и я считаю себя обязанным ответить.

Причин, почему следует использовать ЧТС наряду с указанными выше стандартными шкалами, как минимум, существует две штуки:

1) Корреляционное поле, в котором рассыпано множество точек на разных уровнях по осям X и Y (а именно его мы получаем как графическую иллюстрацию для изображения пространстве всех случаев) частенько не позволяет так легко УВИДЕТЬ асимметричность в прогнозе. Не все умеют увидеть в этом облаке точек наличие нечеткой, но криволинейной зависимости (вогнутость или выпуклость нелинейной регрессионной кривой, составленных из средних значений для каждого X). Чтобы люди освоили это преобразование в своей голове — отображение корреляционного поля в ЧТС мы создали и даем в нашей Дистанционной Школе интерактивную программу, которая помогает УЗРЕТЬ это преобразование и… поиграть с ним. Это соображение, таким образом, можно назвать ВИЗУАЛЬНО-КОГНИТИВНЫМ основанием для применения ЧТС.

2) Более серьезная причина в другом. В организационной практике мы часто вынуждены применять БИНАРНЫЕ решения. Мы их частенько не осознаем, как БИНАРНЫЕ, но работаем с ними фактически. Что означает воронка отбора при применении многоэтапной схемы отбора кандидатов на каком-то кадровом конкурсе? — Это означает, что те, кто не прошел предварительный тест УЖЕ НЕ ДОПУСКАЮТСЯ до следующих этапов — до следующих испытаний (например, на очный тур не попадают — на интервью, деловую игру и т.п.). Отсев слабых после предварительного этапа — это и есть переход к БИНАРНОЙ ПЕРЕМЕННОЙ. Это означает, что на шкале тестовых баллов мы вынуждены выставить точку отсечения (cut score) и разделить всю шкалу, какой бы дробной она ни была, не две области — высокую и низкую. Вот тут-то анализ в терминах логико-статистических таблиц ЧТС просто необходим. О том, что им не владеют даже наши «записные эйчар-аналитики» можно увидеть по отчетам, которые циркулируют внутри экспертного совета по конкурсу «Лидеры России». Все время даются одни линейные корреляции, которые не являются адекватным инструментом для выявления тестов с асимметричной прогностичностью, а это не адекватный инструмент для работы с воронкой отбора. Как я могу передать этот свой опыт на Фейсбуке? Ну никак? Мне его не удается передать ни с помощью статей, ни с помощью книг (их не читают просто!). Одна надежда — на спокойный разговор на тихом специализированном форуме «для своих»…

Приглашаю к этому разговору именно Юрия Шатрова (@Шатров Ю.И.).
Впрочем, как и всех желающих понять, почему в ЛЮБЫХ тестах независимо
от области их применения (образование, медицина, отбор персонала)
есть общее логико-математическое ядро, понимание которого позволяет различать
грамотную и безграмотную работу с тестами. Основа этого ядра — это на самом
деле ЧТС. Я преподаю этот предмет 45 лет (без малого!) и на опыте сотен
своих учеников (состоявшихся и не состоявшихся как мои ученики) знаю,
что… тяжелый ВОЗ тестологический культуры в нашей стране только-только
зашевелился, но еще не вполне уверенно сдвинулся с места. Ленивые мозги!

Задавайте вопросы.

Ваш АШ

P.S.

Кстати, практически любой коэффициент корреляции (или сопряженности) дает для двух указанных выше ЧТС-таблиц одинаковое значение, так как… одним числом нельзя описать их специфику. Например, фи-коэффициент Гилфорда (а это частный случай Пирсона для ЧТС) дает одинаковое значение 0,53. Нужны 2 коэффициента, чтобы найти между ними разницу. Например, в так называемой «доказательной медицине» эти коэффициенты называются Чувствительность и Специфичность. В теории обнаружения сигнала (в технической диагностике) эта особенность описывается в терминах ошибок двух типов — «ложные тревоги» и «пропуски». Если считать СОБЫТИЕМ привлечение к работе такого кандидата, которые на самом деле НЕ может работать. Тогда ЧТС для первого теста (теста отсева) дает слишком много «пропусков» (допускает к работе много не умеющих работать), а вторая ЧТС (теста отбора) — дает слишком много ошибок типа «ложная тревога» (отсеивает слишком много тех, кто умеет). Поэтому первый тест надо использовать именно для отсева, а второй — для отбора. В бизнесе для ЧТС используется другой термин — confusion matrix (матрица ошибок). Но от этого суть никак не меняется. Немного разные слова и буквенные обозначения коэффициентов. Иногда меняются местами строки и столбцы, но суть одна и та же. И в голове надо выработать обобщенное предоставление о ЛОГИКО-СТАТИСТИЧЕСКИХ ТАБЛИЦАХ. Понятно?

комментировать


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Актуальный опрос

Рубрики

Последние комментарии:

  1. Здравствуйте Александр Георгиевич! Да, согласен, вы правы. Возможно, даже больше чем можете себе представить. Всякие переговоры об окончании боевых действий…

Облако меток