Подпишитесь, чтобы получать уведомления о новых публикациях А.Г. Шмелёва!

О валидности и эффективности тестов предварительного отсева кандидатов

Автор публикации:

Уважаемые коллеги!

В связи с появлением пробной версии теста КВАЛИМИН-26/50 (тест знаний для психологов) на страницах «Психологической газеты» разгорелась острая дискуссия о том, каким же психометрическим требованиям должен соответствовать такой тест. Речь прежде всего идет о проверке валидности по внешнему критерию — о связи результатов теста с эффективностью работы практикующего психолога.

Цитирую одного из критиков нашего подхода (это Александр Иванович Жиров, «психосоматолог и менеджер по связям с реальностью», как он сам написал о себе в Телеграме):

«В-третьих, о валидности утверждения про «низкий балл». Вы пишете, что низкий результат «говорит о том, что человек точно НЕ готов работать с пониманием сложности и ответственности своей миссии». Это сильное утверждение, имеющее профессиональные и этические последствия. В психодиагностике любое утверждение о связи тестового балла с реальной компетентностью требует эмпирического подтверждения: данных о корреляции с экспертными оценками, с результатами супервизии, с успешностью ведения случаев.

…  Есть ли данные, что результат теста коррелирует с реальной эффективностью психолога-практика? Если такие данные есть — это предмет для научной публикации, а не для дискуссии в комментариях. Если данных нет — то тест остаётся интересным упражнением, но не может претендовать на роль инструмента оценки профессиональной квалификации.»

По этому поводу я бы хотел объяснить и Александру Жирову, и всем читателям 2 вещи:

1) Данный тест мы (коллектив авторов) и распространяем пока именно как «интересное упражнение». Каждый может его пройти совершенно АНОНИМНО. Даю еще раз прямую ссылку на прохождение:

https://test.ht-inc.ru/test/e4151d9069a4f128d49681c770ed50a1

2) Но я считаю необходимым поднять и более серьезный вопрос: А насколько адекватным в данном случае является такое требование к данному тесту, чтобы он высоко коррелировал с эффективностью деятельности профессионала? Ведь это тест не для окончательной, а для предварительной оценки! Давайте смоделируем здесь числовую ситуацию, которая поясняет, в чем разница. Это будет такая ситуация, когда корреляция (сопряженность) предварительного теста с внешним критерием будет низкой, но это не умаляет его пользы — не отменяет необходимости его использования на предварительных (ранних) этапах аттестации.

Все дело в том, что предварительный тест-фильтр частенько порождает АСИММЕТРИЧНУЮ четырехклеточную таблицу сопряженности (ЧТС). Рассмотрим следующий гипотетический пример такой структура ЧТС:

Допустим, что у нас есть ровно 1000 случаев. С половиной из них поработали психологи с высоким (или средним) баллом по тесту КВАЛИМИН, а с другой половиной консультанты с низким баллом. Предположим, что только один случай из 1000 оказался несчастным и завершился суицидом пациента. И этот случай произошел у консультанта с низким баллом. Почему? — Причины могут быть разными. Но в том числе это может быть результатом незнания этим «практиком» элементарных правил и процедур применения психодиагностических методик, которые должны-то, по идее, предварять всякую серьезную психотерапию. Если по результатам таких методик выявляется «острая депрессия на грани суицидального риска», то психолог обязан отказаться от работы с таким пациентом и СРОЧНО ПЕРЕНАПРАВИТЬ его врачу-психиатру, имеющему право (и обязанность) назначить медикаментозное лечение. Но… «практик» не знает ни этого профессионально-этического норматива, ни владеет психодиагностическими методиками вовсе, а считает возможным «работать на глазок»… Увы, таких практиков у нас сейчас БОЛЬШИНСТВО (!).

Какова же корреляция по такой таблице ЧТС? — Считаем обычный фи-коэффициент Гилфорда и получаем низкое значение — только 0,03 (!). Это вполне закономерный результат перекоса в частотности наблюдений между столбцами. Но… факт остается фактом и он иллюстрирует ситуацию, когда корреляция оказывается очень низкой — фактически НЕ отличимой от нулевого значения (граница значимого коэффициента в данном случае равна 0,10, так как на выборке в 1000 человек необходимо задавать строгий уровень вероятности ошибки p<0,001).

Но тяжесть события, которое отражается в нашей ЧТС в клеточке D (в правой нижней клеточке), на самом деле такова, что вовсе никак нельзя игнорировать возможность исключить такое событие с помощью предварительного тестирования (!). Поэтому во многих подобных случаях люди на уровне здравого смысла понимают: необходимо еще до практического вождения за рулем на улицах проверять знание начинающими водителями ПДД (правил дорожного движения) — причем знания поведения водителей в некоторых редких ситуациях, которые на практике встречаются очень редко (например, вождение в условиях схода снежных лавин на равнинных дорогах практически не встречается). Главное — исключить возможность летальных ДТП (!).

Кстати, два асимметричных коэффициента дискриминативности (КД) работают в случае асимметричных ЧТС очень по-разному. Один КД1, отражающий контраст в столбцах в нашей таблице, оказывается близким к 0,5 и это сигналит нам о высокой значимости теста. Тогда как другой КД2, отражающий контраст относительных частот по строкам, оказывается близким к нулю, так что ни о чем не говорит. Но… подобными вычислительными деталями я уже не хочу перегружать читателей этой статьи. Приглашаю самых любознательных принять участие в наших дистанционных психометрических школах, где мы обсуждаем подобные маргинальные случаи c остро-асимметричной структурой ЧТС:

https://ht-line.ru/tkk

ВЫВОДЫ

1) Надо накапливать большие данные! По тесту КВАЛИМИН в настоящее время не накоплено достаточно статистики, чтобы всерьез оперировать цифрами о мере его эмпирической валидности (или о мере особой предупреждающей эффективности, если хотите). Тем более, что пока тест запускается в незащищенном режиме — на доверии к тому, что люди занимаются самопознанием, поэтому честны… сами перед собой. Нужны очень большие выборки и доступ к реальным значимым событиям в работе профессионалов, чтобы делать аргументированные выводы. Полученные на этапе пилотной версии данные (высокая связь с самооценкой испытуемыми своего уровня образования и практического опыта) в любом случае являются очень условными.

2) Все равно высокой корреляции НЕ будет. Но большой опыт, уже накопленный человечеством в отношении значимости теоретических знаний, позволяет уверенно спрогнозировать, что будущий экзаменационный тест КВАЛИМИН, даже когда он станет более надежным, репрезентативным и достоверным инструментом (это все самостоятельные психометрические свойства), все равно не будет являться ДОСТАТОЧНЫМ инструментом для окончательного вывода о профпригодности (не будет он высоко валидным в традиционном смысле). Это лишь НЕОБХОДИМЫЙ инструмент, то есть позволяющий делать асимметричный вывод — об отсутствии пригодности в случае низкого балла. Тогда как высокий балл по данному тесту все равно потребует проведения дополнительных более специализированных и более дорогостоящих процедур (работа под супервизией, собеседование с комиссией, решение кейсов в письменном и устном виде и т.п.). Вот как раз эти дополнительные процедуры и будут разными в разных СРО (саморегулируемых организациях), специализирующихся на разных подходах, а также в разных секциях единого РПО.

Короче основной вывод можно сформулировать так:

Высокую корреляцию с эффективностью работы мы должны требовать от окончательных процедур аттестации, а не от предварительных!

Фото обложки автор подхватил в галерее Яндекс-картинки, куда оно попало с сайта avtocod.ru.


ПРИЛОЖЕНИЕ

Для желающих увидеть реальные цифры, даю три таблицы ЧТС, которые построены по результатам еще только пилотной версии из 127 апробационных заданий (а не на заданиях демонстрационной окончательной версии, доступной ныне). Мы видим здесь как раз ВЫСОКИЕ значения сопряженности тестовых баллов и с самооценкой образования, и с самооценкой опыта практической работы. Поясним, почему в ЧТС отражены данные только 90 человек, хотя апробационную версию у нас выполнили 125 испытуемых. Дело в том, что из рассмотрения выпали испытуемые, которые попали по величине общего ППО в интервал от 55% до 64% (включительно). Это люди, балл которых нельзя назвать удовлетворительным, но и нельзя назвать низким (мы называем эту категорию дореволюционным русским словом «посредственно», то есть оценка «3-«).

Но… Автор этой статьи — далеко не наивный начинающий специалист. Я-то хорошо понимаю разницу между самооценкой опыта и реальной эффективностью опыта. Поэтому к этим данным я отношусь без всякого восторга и делаю спокойный вывод: эти данные позволяют осторожно прогнозировать, что экзаменационная версия тоже будет валидной.

Ну а какой же оказалась у нас пока ФИ-сопряженность, если у одних испытуемых наблюдается комбинация «образования плюс опыт», а у других — «ни образования, ни опыта»? Естественно, что мы прогнозируем в этом случае рост связи. Так и есть!

По всем психометрическим стандартам 0,61 — это очень высокая эмпирическая валидность. Но не будем забывать, что критерий в данном случае — это лишь самооценка. Другого источника информации для проверки валидности у нас пока нет. Если у кого-то есть, то прошу откликнутся и написать мне по адресам, указанным на этом блоге (или просто в комментарии к этой статье).

P.S.

Когда мы с покойным Владимиром Викторовичем Столиным писали одни из первых в стране научно-методическиt рекомендации по организации типового «Центра психологической помощи» (на основе опыта работы экспериментального центра на Погодинской улице, 20 в Москве), то пытались доказать и обосновать, что психолог НЕ имеет права приступать к работе с клиентом без применения психодиагностики, то есть не убедившись в его психическом здоровье и способности адаптивно реагировать на само взаимодействие с психологом-консультантом (психотерапевтом). Сплошь и рядом это профессионально-методическое и этическое требование наши практики НАРУШАЮТ (!).

С чем это можно сравнить? — С отсутствием проверки исправности системы торможения на автомобиле! Читаем выдержку из правил ПДД, которые водитель обязан выучить «на зубок»:

2.3.1. Перед выездом проверить и в пути обеспечить исправное техническое состояние транспортного средства в соответствии с Основными положениями по допуску транспортных средств к эксплуатации и обязанностями должностных лиц по обеспечению безопасности дорожного движения <*>.

———————————

<*> В дальнейшем — Основные положения. Запрещается движение при неисправности рабочей тормозной системы, рулевого управления, сцепного устройства (в составе автопоезда), негорящих (отсутствующих) фарах и задних габаритных огнях в темное время суток или в условиях недостаточной видимости, недействующем со стороны водителя стеклоочистителе во время дождя или снегопада.

(в ред. Постановлений Правительства РФ от 24.01.2001 N 67, от 14.12.2005 N 767)

Как такая проверка выглядит на практике? — Очень компактно! Никто не открывает теперь капот перед выездом и не лезет тем более под машину, чтобы осмотреть тормозные колодки или диски. Но опытный водитель еще до выезда на оживленную трассу пару раз на малой скорости обязательно легонько понажимает педаль тормоза (еще при движении во дворе или хотя на разгонной полосе!) и он тут же прочувствует, как тормоза «схватывают»…

Можно разводить сколько угодно демагогии о том, что разные «теоретические парадигмы помощи» порождают разные стратегии поведения в отношениях с клиентами, но есть, безусловные общие правила и общая логика, которые мы еще только ПЫТАЕМСЯ нащупать и поточней сформулировать. И это не от желания разработчиков тестов заставить практиков заниматься «абстрактными исследовательскими теориями», а от вполне здравого желания обезопасить самих практиков от попадания в очень и очень неприятные ситуации (!).

комментировать

11 ответов

  1. Петр Балунов

    Александр Георгиевич, спасибо за статью!

    Задумался о Вашем примере таблицы сопряженности балла по КВАЛМИНН у психолога и риска суицида у его клиента. Но ведь можно представить себе и прямо противоположную ситуацию: такая же таблица, но единственный случай суицида приходится на подвыбирку психолог в высокими результатов. Тоже можно найти много правдоподобных объяснений. Начиная от эмоциональной черствости и заканчивая тем, что на тестирования тратят время те, кому необходимо как-то обосновать собственную компетентность (в то время как у профессионалов есть клиенты и в отсутствия внешнего маркера экспертности).

    По-видимому в силу низкой частотности «положительных» наблюдений показатель суицида в целом не очень хороший индикатор эффективности специалиста)). А существуют ли вообще хорошие индикаторы?Подобные исследования чаще всего опираются на самооценку состояния клинетами/пациентами. Ну или на разного рода опросники, диагностирующие психоэмоциональное состояние, опять же на основе самооценки. И в том и в другом случае есть основания усомниться в валидности таких оценок.

    Как тогда мы можем уверенно говорить об эффективности/неэффективности конкретного специалиста? И уж тем более стоит ли вообще ставить задачу обосновывать полезность/качество экзамена, проверяя корреляцию его результатов с некоторыми сомнительными оценками эффективности практической деятельности специалиста?

    1. Шмелёв А.Г.

      Петр Аркадьевич,я благодарю Вас за постановку достаточно острых профессиональных вопросов. Эти вопросы позволяют мне уточнить позицию. Конечно, Вы правы в том, что при такой крайней асимметрии событий в ЧТС может случиться и так, что «аварийный случай» попадет не в клеточку D, а в клеточку B (правую верхнюю). И Вы достаточно убедительно описали гипотетические причины, почему такой несчастный случай может произойти.

      Но я Вам хочу рассказать в связи с этим хотя бы несколько слов, как разрабатываются опросники типа «Суицидальный риск» и какие из них оказываются более достоверными, а какие — менее. Короткий тезис такой: изолированная лобовая методика порождает психологическую защиту и не дает вскрытия затаенной информации о человеке. Поэтому-то я скептически отношусь к изолированному применению методики типа «опросника Татьяны Разуваемой» (ее легко найти в Рунете по поисковому запросу).

      Эпизод, связанный с конструктом «суицидальный риск», в моей уже длинной профессионально-научной биографии случился давно — еще в 20 веке. Инициатором этой разработки стала в рамках своей дипломной работы моя подопечная студентка — Ирина Белякова (заканчивала она тогда не кафедру общей психологии, а кафедру патопсихологии). Из пула заданий опросника ММИЛ (модификация MMPI, как Вы знаете) нами с Беляковой были отобраны такие задания, на которые давали статистически значимо РАЗЛИЧНЫЕ ответы обычные испытуемые и пациенты кризисного стационара (и Ирины сложился тогда свой личный прямой контакт с легендарной Маей Захаровной Дукаревич).В шкале получилось не так много дискриминативных вопросов — около 30. Но… важно так осмыслить дилемму: в каком контексте лучше преподносить этот опросник клиенту? — Как изолированную методику (подобно тому как преподносят знаменитый опросник «тревожности» Жанет Тейлор, выстроенный как 50 отборных вопросов из перечня MMPI) или все-таки давать полный тест-опросник ММИЛ, а балл «суицидального риска» подсчитывать по полному протоколу (как по любой дополнительной шкале)? — Я отвечаю на этот вопрос категорично: нужно давать ПОЛНЫЙ вариант (!). Ибо изолированное применение 30 вопросов, направленных прямо на конструкт «СР» (суицидальный риск) может дать негативный эффект — у клиента может усилится прокрутка суицидальных мыслей от самого факта применения методики! Как мы знаем еще из классических работ Кэмпбелла по теории планирования социальных экспериментов, само измерение — есть воздействие! И это воздействие может быть как позитивным, так и негативным (увы). И понимают эти методические и профессионально-этические риски, увы, только образованные люди (получающие полноценное психологическое образование).

      У противников серьезного тестирования есть куча демагогических возражений против применения длинных опросников: человек устает, это ему самому не надо, это надо только ученым-психологам для их диссертации и т.п. У меня опыт применения БОЛЬШОГО тест-опросника (это был ММИЛ из 377 вопросов в адаптации Березина и соавторов) был на сотнях посетителях первого нашего «Центра на Погодинке», о котором я написал в статье. Бросали выполнение единицы клиентов, но в целом люди начинали понимать, что этот перечень помогает ВСПОМНИТЬ какие-то свои жалобы, о которых в неструктурированной беседе они просто могут забыть или даже «вытеснить». Недаром MMPI — это опросник, который завоевал такую популярность в мире, ведь он позволяет не просто структурировать жалобы клиента, а он позволяет актуализировать вытесненные жалобы (и проявить запрятанные на стыке с подсознанием проблемы в эмоциональной адаптации).

      Понятно ли, о чем я пишу? И о чем я пекусь?

    2. Шмелёв А.Г.

      И еще… немножко с другой стороны зайдем на тему валидности КВАЛИМИН. Поделюсь таким пониманием, почему тесты теоретических знаний СКОРРЕЛИРОВАНЫ с эффективностью работы (причем не только у психологов, а во всех современных, а значит наукоемких профессиях!).

      Вспомним, как надо интерпретировать корреляцию между переменными А и B. Возможно, что обе эти переменные находятся под воздействием одной и той же третьей переменной C, которая и является причиной, то есть обуславливает наличие связи (!). Что это означает содержательно? Какая такая третья переменная С может так воздействовать на «теоретические знания» и «опыт работы»? А эту третью переменную я бы назвал «Ответственное и заинтересованное отношение к своей профессии!» (или коротким словом «Ответственность»). Люди безответственные НЕ изучают теорию, а легкомысленно берутся за практическую работу. Они могут взяться за строительство автомобильного навеса на своем загородном участке, ничего не зная в области сопромата, и… автомобильный навес падает на личный автомобиль во время первого же серьезного снегопада.

      Психолог ответственный берется изучать механизмы кратковременной памяти не потому, что в своей практической работе он наивно ожидает, что придут клиенты с запросом на тренинг кратковременной памяти, а потому, что ПРЕДПОЛАГАЕТ, что в каких-то еще НЕИЗВЕСТНЫХ ЕМУ СИТУАЦИЯХ именно это знание (или незнание) может оказаться критически важным.

      Таким образом, получая высокий балл какого-то специалиста по тесту теоретических знаний, мы узнаем нечто очень важное о профессиональной мотивации и ценностных установках личности: о том, что этот человек хочет быть ответственным и проявляет любознательность, то есть готовится находить решения в широком спектре еще неизвестных ему ситуаций.

      Правдоподобно ли это звучит для Вас, Петр Аркадьевич?

      В любом случае я благодарю Вас за активное участие в дискуссии.

      1. Петр Балунов

        Александр Георгиевич!

        Согласен с Вашим рассуждением про профессиональную ответственность как «третью переменную», объясняющую корреляцию между теоретической подготовкой и эффективностью в практической деятельности. Более того, считаю два этих противоположных типажа очень жизненными. Видел и тех и других.

        В то же время, представители «ответственного типа», для того, чтобы решить конкретные трудности в работе с клиентом, конечно, пойдут читать не Рубинштейна и не Леонтьева. И даже не Выготского. Не учебник по социальной психологии или по психодиагностике. Также как и при строительстве автомобильного навеса мне поможет не учебник по физике, а скорее соответствующий гайд в интернете или блог на ютубе.

        Глядя на задачу с этой стороны, мне кажется, нам потребуется значительная ревизия не только вопросов, включенных в тест, но и самих источников, а также тех тематических разделов, на которых он строится. Нужна ли «ответственному» психологу консультанту социальная или общая психология вообще? Или более ответственным с его стороны было бы прочитать учебник по психиатрии?

        1. Алексей Беляев

          Здравствуйте. Речь идёт в первую очередь о континууме верифицируемых источников по профессии, составляющих ядро современного академического и практического представления о профессиональной сфере и науке. Можно было бы выстраивать проверку по глубине и ширине по условным осям знаний. Степень глубины от монографий (условно должно быть известно всем) к нормативным документам (более специфический характер), и далее научным статьям в рецензируемых источниках (передовой форпост). Широта на каждом из «этажей» вертикальной оси. Наверняка с накоплением данных по квалимин и формированием банка заданий такая многомерная форма оценки станет само собой разумеющейся.

          1. Алексей Беляев

            Сейчас квалимин в своей структуре именно не сбалансирован по «вертикали» от раздела к разделу. В одной части упор на монографии с историей, а в другой — нормативные документы или статьи. Лиха беда начало

          2. Шмелёв А.Г.

            Алексей, здравствуйте. Видите ли, все нерелевантные задания были отсеяны на экспертном этапе. Поэтому получается, что эксперты признают значимость РАЗНОТИПНЫХ заданий — и тех, которые касаются фактически истории психологии, и тех, которые касаются нормативных документов. Спасибо Вам за участие в обсуждении этой значимой темы.

        2. Шмелёв А.Г.

          Петр, я понимаю, что в эпоху, когда в Интернете полно рецептурной информации, построенной по принципу «Делай вначале так, а потом — делай так», кажется, даже как-то нелепым ставить вопрос о НАУЧНОМ МИРОВОЗЗРЕНИИ в определенной области знания. Но… ставить так вопрос НЕОБХОДИМО именно в психологии. Ибо здесь слишком распространен «рецептурный прагматизм» без всякого фундаментального видения ПРЕДМЕТА (!).

          Даже наша несовершенная пробная версия показывает, что в большей степени провисают у практиков именно концептуальные задания — на овладение базовыми понятиями. В физике еще более все не так плохо. Физику проходят в школе (и там дают приличное количество часов детям на освоение «физической картины мира»), но у многих практиков нет овладения базовыми понятиями:

          — психические процессы,
          — психические свойства,
          — психические состояния,
          — когнитивные способности,
          — мотивационные черты личности,
          — черты характера
          и так далее, и тому подобное!

          Какое следствие получаем из-за того, что люди не владеют этими понятиями? — Очень серьезное: они начинают всячески избегать применения психодиагностических методов, ибо любая серьезная методика имеет свой предмет (диагностический конструкт) и опирается так или иначе на более или менее поверхностную или глубокую теорию вопроса.

          Замысел в том, чтобы доступ к КВАЛИМИН предоставить всем, в том числе тем, кто хочет подготовиться к нему ЭКСТЕРНОМ — не имея никакого диплома! А это значит КВАЛИМИН должен компенсировать недостаток вузовских экзаменационных процедур, направленных на диагностику усвоения фундаментальной системы понятий.

          Понятно ли я объясняю?

          Мы же создаем для практиков КОРОТКИЙ путь вхождения в профессию, то есть ТРАМПЛИН, а не барьер для вхождения (в моем понимании это именно так). Многие этого пока совсем не понимают и рассматривают ЛЮБОЙ экзамен (в том числе КВАЛИМИН) как барьер, а не как трамплин. Очень трудно победить стереотипные ожидания. Почему? — Потому что в стране фактически не было массовой практики подготовки к экзаменам в режиме «экстернат»…

          У многих понимание такое пока, что КВАЛИМИН — это дополнительное последипломное испытание. А пока они получали диплом, они сдавали экзамены по теоретическим разделам психологии и… поэтому они больше не хотят это делать (ну понятно, что никому не хочется лишний раз сдавать экзамен, если только он не дает сразу же ощутимого прироста в заработках).

          Благодарю Вас за активное участие в обсуждении.

  2. Ирина

    Да, было бы интересно получить данные не только по Квалимин, но и по hexaco).

  3. Павел

    Добрый день, большое спасибо за ваши интересные статьи, пишу данный комментарий чтобы оставить свою почту для получения уведомлений о новых публикациях, спасибо

    1. Шмелёв А.Г.

      Павел, спасибо за поддержку и что оставили свой почтовый адрес для рассылки анонсов.


Добавить комментарий для Алексей Беляев Отменить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Актуальный опрос

Ваши вопросы

Есть вопрос к автору блога?
Вы можете задать его здесь -> <клик>

Рубрики

Последние комментарии:

Облако меток