Сложность и трудность тестового задания: бытовая и научно-профессиональная трактовка

Здравствуйте, коллеги!

Я комментирую здесь — на форуме ЭСПП — далеко не все «назидательные опросы», которые провожу в группе TESTbyTEST на Фейсбуке. Но этот мне показался заслуживающим внимания. Сам опрос и варианты ответов с набранной статистикой голосов показаны на скриншоте ниже.

Получили редкий случай, когда большинство вообще не выбрало тот ответ, который я изначально сформулировал как правильный ответ (?!). Большинство (хотя и не великое по численности, но ощутимое по перевесу голосов) выбрало ответ, предложенный уважаемой Ириной Павловной Шкуратовой. Фейсбук самые популярные ответы автоматически ставит первыми (см. картинку).

ОГОВОРКА: все, конечно, сделано не корректно на Фейсбуке с точки зрения требований к «чистому голосованию» (об этом я не раз писал). Ибо новые участники не должны, конечно, видеть, как распределились голоса ДО того, как они сами проголосуют. Поэтому мы должны сделать поправку, что эффект усилился из-за этого дефекта системы голосования (популистского формата голосования). Но тем не менее, несмотря на эту оговорку, самый частотный ответ нуждается теперь в особом внимании.

Что случалось, почему такой, казалось бы, простой объективной статистический принцип измерения трудности как ППО (процент правильных ответов) не оказался более популярным ответом, чем «субъективная оценка испытуемым тестового задания»?

Я ожидал, что с термином «сложность» будут… сложности (извините, за тавтологию), но рассчитывал, что с термином «трудность» таких сложностей не будет. Ошибся!

Надо ли долго объяснять, что «эмпирико-статистическая трудность» (ППО) и «субъективная трудность» — это разные вещи? — По-моему, очевидно это! ХОтя бы потому, что испытуемому, который знает правильный ответ, тестовое задание (ТЗ) почти всегда кажется более легким, а испытуемому, которые НЕ знает правильного ответа, — более трудным. Так что на «субъективном уровне» (при субъективном взгляде) вообще не очень-то понятно, каким образом «трудность задания» можно измерить как некую объективную величину…

У меня НЕТ у самого однозначной интерпретации причины — что же послужило причиной такого расхождения в ответах (у большинства со мной и примкнувшим ко мне меньшинством). Есть 2 версии. Хотелось бы пригласить коллег к их обсуждению и уточнению,чтобы мы получили больше ясности.

1) Версия 1. Психологи чаще имеют дело на самом деле не с тестами на знание и способности, а с личностными опросниками, где вопросы не имеют фактически «правильного ответа», а имеется в лучшем случае ключевой ответ (в пользу высокого полюса шкалы), но можно выбрать любой. В этом случае понятие ППО вообще ускользает из фокуса внимания и остается в фокусе только «субъективная трудность». На этом фоне «сложность» уже начинает казаться более объективной величиной, для которой хотя бы у автора есть какое-то обоснование. Поясню: на самом деле тысячи (даже миллионы!) измерений степени соответствия между авторской оценкой сложности и эмпирической мерой трудности (ППО) показали, что связь этих двух показателей имеет совсем не такую высокую корреляцию… как это представляют себе сами авторы. Количество заданий в тестах знаний, по которым авторы попадают «пальцем в небо» *(на один балл мажут по минимальной трехбалльной шкале — легкое, среднее, трудное), нередко достигает более 50 процентов, но обычная мера — 30 процентов.

2) Версия 2 (менее вероятная). Коллеги, выбравшие частотный ответ, предложенный И.П.Шкуратовой, вообще не ведают, что такое ППО как мера трудности тестового задания. Они исходят не из научно-профессиональных, а из бытовых представлений о трудности, которые вообще целиком субъективные, ибо статистика находится «за пределами обыденного сознания». Я бы вообще не стал особенно долго комментировать эту версию, так как она все-таки мне кажется менее вероятной, чем версия 1. Хотя… думается мне, что есть немало наших коллег, которые фактически в своем понимании этой проблемы, находятся где-то «между» версией 1 и версией 2 

Что я бы еще со своей стороны хотел добавить в пользу различения СЛОЖНОСТИ и ТРУДНОСТИ. Как видим, многие разделяют мои представления, что эти вещи лучше было бы разделять, а не отождествлять, но наполняют это различение разным смысловым содержанием. СЛОЖНОСТЬ — это теоретическая мера, подобная понятию «масса» в физике. Мы ведь в физике Массу не можем непосредственно измерить, а измеряем только Вес и через него косвенно судим про массу. Но… есть несколько умозрительных (теоретических) операций ума, которая позволяют реконструировать, какова масса тела (через так называемый «удельный вес вещества», умноженный на объем, черз сопротивление среды в виде трения качения или силы выталкивания из воды и т.п.). Вот так и в психолого-педагогическом тестировании обстоит дело. «Сложность» — это некое авторское обоснование его априорных представлений о трудности. Они существенно корректируются после получения в психометрическом эксперименте (в ходе пилотного или стандартизационного тестирования) апостериорной информации — реальной информации о том, насколько много правильных решений дает представительная выборка, какова доля этих решений (чем ниже эта доля, тем выше трудность).

… Тут есть еще один аспект. Он связан с трудоемкостью ТЗ (или времяемкостью). Задания «на сложность», как правило, требуют на порядок (или даже на два порядка) больше времени решения, чем задания на скорость. Но это уже немного другой разговор. Не сегодня.

Ваш АШ

комментировать


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Актуальный опрос

Рубрики

Последние комментарии:

  1. Здравствуйте Александр Георгиевич! Да, согласен, вы правы. Возможно, даже больше чем можете себе представить. Всякие переговоры об окончании боевых действий…

Облако меток