
Уважаемые коллеги!
В связи с появлением пробной версии теста КВАЛИМИН-26/50 (тест знаний для психологов) на страницах «Психологической газеты» разгорелась острая дискуссия о том, каким же психометрическим требованиям должен соответствовать такой тест. Речь прежде всего идет о проверке валидности по внешнему критерию — о связи результатов теста с эффективностью работы практикующего психолога.
Цитирую одного из критиков нашего подхода (это Александр Иванович Жиров, «психосоматолог и менеджер по связям с реальностью», как он сам написал о себе в Телеграме):
«В-третьих, о валидности утверждения про «низкий балл». Вы пишете, что низкий результат «говорит о том, что человек точно НЕ готов работать с пониманием сложности и ответственности своей миссии». Это сильное утверждение, имеющее профессиональные и этические последствия. В психодиагностике любое утверждение о связи тестового балла с реальной компетентностью требует эмпирического подтверждения: данных о корреляции с экспертными оценками, с результатами супервизии, с успешностью ведения случаев.
… Есть ли данные, что результат теста коррелирует с реальной эффективностью психолога-практика? Если такие данные есть — это предмет для научной публикации, а не для дискуссии в комментариях. Если данных нет — то тест остаётся интересным упражнением, но не может претендовать на роль инструмента оценки профессиональной квалификации.»
По этому поводу я бы хотел объяснить и Александру Жирову, и всем читателям 2 вещи:
1) Данный тест мы (коллектив авторов) и распространяем пока именно как «интересное упражнение». Каждый может его пройти совершенно АНОНИМНО. Даю еще раз прямую ссылку на прохождение:
https://test.ht-inc.ru/test/e4151d9069a4f128d49681c770ed50a1
2) Но я считаю необходимым поднять и более серьезный вопрос: А насколько адекватным в данном случае является такое требование к данному тесту, чтобы он высоко коррелировал с эффективностью деятельности профессионала? Ведь это тест не для окончательной, а для предварительной оценки! Давайте смоделируем здесь числовую ситуацию, которая поясняет, в чем разница. Это будет такая ситуация, когда корреляция (сопряженность) предварительного теста с внешним критерием будет низкой, но это не умаляет его пользы — не отменяет необходимости его использования на предварительных (ранних) этапах аттестации.
Все дело в том, что предварительный тест-фильтр частенько порождает АСИММЕТРИЧНУЮ четырехклеточную таблицу сопряженности (ЧТС). Рассмотрим следующий гипотетический пример такой структура ЧТС:

Допустим, что у нас есть ровно 1000 случаев. С половиной из них поработали психологи с высоким (или средним) баллом по тесту КВАЛИМИН, а с другой половиной консультанты с низким баллом. Предположим, что только один случай из 1000 оказался несчастным и завершился суицидом пациента. И этот случай произошел у консультанта с низким баллом. Почему? — Причины могут быть разными. Но в том числе это может быть результатом незнания этим «практиком» элементарных правил и процедур применения психодиагностических методик, которые должны-то, по идее, предварять всякую серьезную психотерапию. Если по результатам таких методик выявляется «острая депрессия на грани суицидального риска», то психолог обязан отказаться от работы с таким пациентом и СРОЧНО ПЕРЕНАПРАВИТЬ его врачу-психиатру, имеющему право (и обязанность) назначить медикаментозное лечение. Но… «практик» не знает ни этого профессионально-этического норматива, ни владеет психодиагностическими методиками вовсе, а считает возможным «работать на глазок»… Увы, таких практиков у нас сейчас БОЛЬШИНСТВО (!).
Какова же корреляция по такой таблице ЧТС? — Считаем обычный фи-коэффициент Гилфорда и получаем низкое значение — только 0,03 (!). Это вполне закономерный результат перекоса в частотности наблюдений между столбцами. Но… факт остается фактом и он иллюстрирует ситуацию, когда корреляция оказывается очень низкой — фактически НЕ отличимой от нулевого значения (граница значимого коэффициента в данном случае равна 0,10, так как на выборке в 1000 человек необходимо задавать строгий уровень вероятности ошибки p<0,001).
Но тяжесть события, которое отражается в нашей ЧТС в клеточке D (в правой нижней клеточке), на самом деле такова, что вовсе никак нельзя игнорировать возможность исключить такое событие с помощью предварительного тестирования (!). Поэтому во многих подобных случаях люди на уровне здравого смысла понимают: необходимо еще до практического вождения за рулем на улицах проверять знание начинающими водителями ПДД (правил дорожного движения) — причем знания поведения водителей в некоторых редких ситуациях, которые на практике встречаются очень редко (например, вождение в условиях схода снежных лавин на равнинных дорогах практически не встречается). Главное — исключить возможность летальных ДТП (!).
Кстати, два асимметричных коэффициента дискриминативности (КД) работают в случае асимметричных ЧТС очень по-разному. Один КД1, отражающий контраст в столбцах в нашей таблице, оказывается близким к 0,5 и это сигналит нам о высокой значимости теста. Тогда как другой КД2, отражающий контраст относительных частот по строкам, оказывается близким к нулю, так что ни о чем не говорит. Но… подобными вычислительными деталями я уже не хочу перегружать читателей этой статьи. Приглашаю самых любознательных принять участие в наших дистанционных психометрических школах, где мы обсуждаем подобные маргинальные случаи c остро-асимметричной структурой ЧТС:
https://ht-line.ru/tkk
ВЫВОДЫ
1) Надо накапливать большие данные! По тесту КВАЛИМИН в настоящее время не накоплено достаточно статистики, чтобы всерьез оперировать цифрами о мере его эмпирической валидности (или о мере особой предупреждающей эффективности, если хотите). Тем более, что пока тест запускается в незащищенном режиме — на доверии к тому, что люди занимаются самопознанием, поэтому честны… сами перед собой. Нужны очень большие выборки и доступ к реальным значимым событиям в работе профессионалов, чтобы делать аргументированные выводы. Полученные на этапе пилотной версии данные (высокая связь с самооценкой испытуемыми своего уровня образования и практического опыта) в любом случае являются очень условными.
2) Все равно высокой корреляции НЕ будет. Но большой опыт, уже накопленный человечеством в отношении значимости теоретических знаний, позволяет уверенно спрогнозировать, что будущий экзаменационный тест КВАЛИМИН, даже когда он станет более надежным, репрезентативным и достоверным инструментом (это все самостоятельные психометрические свойства), все равно не будет являться ДОСТАТОЧНЫМ инструментом для окончательного вывода о профпригодности (не будет он высоко валидным в традиционном смысле). Это лишь НЕОБХОДИМЫЙ инструмент, то есть позволяющий делать асимметричный вывод — об отсутствии пригодности в случае низкого балла. Тогда как высокий балл по данному тесту все равно потребует проведения дополнительных более специализированных и более дорогостоящих процедур (работа под супервизией, собеседование с комиссией, решение кейсов в письменном и устном виде и т.п.). Вот как раз эти дополнительные процедуры и будут разными в разных СРО (саморегулируемых организациях), специализирующихся на разных подходах, а также в разных секциях единого РПО.
Короче основной вывод можно сформулировать так:
Высокую корреляцию с эффективностью работы мы должны требовать от окончательных процедур аттестации, а не от предварительных!
Фото обложки автор подхватил в галерее Яндекс-картинки, куда оно попало с сайта avtocod.ru.
ПРИЛОЖЕНИЕ
Для желающих увидеть реальные цифры, даю три таблицы ЧТС, которые построены по результатам еще только пилотной версии из 127 апробационных заданий (а не на заданиях демонстрационной окончательной версии, доступной ныне). Мы видим здесь как раз ВЫСОКИЕ значения сопряженности тестовых баллов и с самооценкой образования, и с самооценкой опыта практической работы. Поясним, почему в ЧТС отражены данные только 90 человек, хотя апробационную версию у нас выполнили 125 испытуемых. Дело в том, что из рассмотрения выпали испытуемые, которые попали по величине общего ППО в интервал от 55% до 64% (включительно). Это люди, балл которых нельзя назвать удовлетворительным, но и нельзя назвать низким (мы называем эту категорию дореволюционным русским словом «посредственно», то есть оценка «3-«).
Но… Автор этой статьи — далеко не наивный начинающий специалист. Я-то хорошо понимаю разницу между самооценкой опыта и реальной эффективностью опыта. Поэтому к этим данным я отношусь без всякого восторга и делаю спокойный вывод: эти данные позволяют осторожно прогнозировать, что экзаменационная версия тоже будет валидной.

Ну а какой же оказалась у нас пока ФИ-сопряженность, если у одних испытуемых наблюдается комбинация «образования плюс опыт», а у других — «ни образования, ни опыта»? Естественно, что мы прогнозируем в этом случае рост связи. Так и есть!

По всем психометрическим стандартам 0,61 — это очень высокая эмпирическая валидность. Но не будем забывать, что критерий в данном случае — это лишь самооценка. Другого источника информации для проверки валидности у нас пока нет. Если у кого-то есть, то прошу откликнутся и написать мне по адресам, указанным на этом блоге (или просто в комментарии к этой статье).
P.S.
Когда мы с покойным Владимиром Викторовичем Столиным писали одни из первых в стране научно-методических рекомендаций по организации типового «Центра психологической помощи» (на основе опыта работы экспериментального центра на Погодинской улице 20), то пытались доказать и обосновать, что психолог НЕ имеет права приступать к работе с клиентом без применения психодиагностики, то есть не убедившись в его психическом здоровье и способности адаптивно реагировать на само взаимодействие с психологом-консультантом (психотерапевтом). Сплошь и рядом это профессионально-методическое и этическое требование наши практики НАРУШАЮТ (!).
С чем это можно сравнить? — С отсутствием проверки исправности системы торможения на автомобиле! Читаем выдержку из правил ПДД, которые водитель обязан выучить «на зубок»:
2.3.1. Перед выездом проверить и в пути обеспечить исправное техническое состояние транспортного средства в соответствии с Основными положениями по допуску транспортных средств к эксплуатации и обязанностями должностных лиц по обеспечению безопасности дорожного движения <*>.
<*> В дальнейшем — Основные положения. Запрещается движение при неисправности рабочей тормозной системы, рулевого управления, сцепного устройства (в составе автопоезда), негорящих (отсутствующих) фарах и задних габаритных огнях в темное время суток или в условиях недостаточной видимости, недействующем со стороны водителя стеклоочистителе во время дождя или снегопада.
(в ред. Постановлений Правительства РФ от 24.01.2001 N 67, от 14.12.2005 N 767)
Как такая проверка выглядит на практике? — Очень компактно! Никто не открывает теперь капот перед выездом и не лезет тем более под машину, чтобы осмотреть тормозные колодки или диски. Но опытный водитель еще до выезда на оживленную трассу пару раз на малой скорости обязательно легонько пару раз понажимает педаль тормоза (еще при движении во дворе!) и он тут же прочувствует, как тормоза «схватывают»…
Можно разводить сколько угодно демагогии о том, что разные «теоретические парадигмы помощи» порождают разные стратегии поведения в отношениях с клиентами, но есть, безусловные общие правила и общая логика, которые мы еще только ПЫТАЕМСЯ нащупать и поточней сформулировать. И это не от желания разработчиков тестов заставить практиков заниматься «абстрактными исследовательскими теориями», а от вполне здравого желания обезопасить самих практиков от попадания в очень и очень неприятные ситуации (!).

Добавить комментарий