Новогодний диктант и проблема формирования обоснованных границ для оценок

Уважаемые читатели «авторского блога А.Г.Шмелева»!

Вначале хотелось бы просто поздравить Вас с наступающим Новым 2025 годом и предложить пройти «поздравительный тест».

https://test.ht-inc.ru/test/521c36be2082ea6f6bbe0e664a8a0f53

Этот тест, конечно, уступает нашим предыдущим новогодним поздравительным тестам в клубе КИТТ. Уступает по уровню веселья и развлекательности. Но зато он дает определенную пищу для размышления.

Как часто начинающие «тестологи» (организаторы массового тестирования) ошибаются при формировании «тестовых норм», или, иными словами, — границ для выставления оценок. Часто эти начинающие, не особенно задумываясь, сразу внедряют «международно признанные» границы оценок:

Уровень А (наша оценка «отлично») — выше 80% правильных ответов;

Уровень В (наша оценка «хорошо») — выше 60%;

Уровень С (наша оценка «удовлетворительно») — выше 40%;

Уровень D (наша оценка «ну ладно», или «почти удовлетворительно») — выше 20%.

Но… этот подход оправдан на самом деле только в тех случаях, когда средний балл по тесту приближается к 50% правильных ответов.

А вот в случае с предметом «русский язык» это далеко не так. В этом случае распределение тестовых баллов смещено в сторону высокого полюса! Поэтому границы надо выяснять, сочетая разумными образом экспертный и статистический подходы ОДНОВРЕМЕННО.

Все мы помним со времен выпускных школьных экзаменов (и вступительных в вузы), что наличие хотя бы одной ошибки уже приводит к понижению оценки, и она отличается от самой высокой оценки «отлично».

Так как надо действовать? — Ответ: прежде всего не торопиться объявлять оценки, а предупреждать, что границы оценок будут определены только ПОСЛЕ сбора достаточного количества протоколов — на основании частот распределения «сырых баллов».

Откуда мы взяли эти границы в случае «новогоднего диктанта»? — Не из головы, а на основании результатов первых 100 испытуемых. Эти данные мы получили буквально после первого же дня, когда тест был объявлен (включен в поздравительную рассылку по подписчикам проекта КИТТ

Итак, наш новогодний диктант выполнили уже более 100 человек. Средний балл на шкале ППО равен пока 88%. Это примерно 3 ошибки на 25 слов в сеансе. Стандартное отклонение — около 8% (это примерно 2 ошибки). Тем самым граница статистической оценки «отлично» (или 15% сильных) — это 24 из 25 правильных ответов. А верхняя граница статистической оценки «неуд» (или 15% слабых) — это 20 правильных ответов из 25.

Таким образом, мы имеем дело с ярким примером ситуации, когда совсем-совсем не годятся априорные стандартные статистические границы (вроде ППО=80% для оценки «отлично»‘, ведь в данном случае это лишь нижняя граница для «удов»).Более подробно стратегию формирования обоснованных границ оценок мы обсуждаем и ПЫТАЕМСЯ ПЕРЕДАТЬ в рамках нашей дистанционной школы «Конструирование тестов знаний», которая традиционно проходит зимой (в январе-феврале) и уже приближается:

ВАЖНАЯ ОГОВОРКА НАСЧЕТ ДЛИНЫ СЕАНСА ТЕСТИРОВАНИЯ

Предложенный формат «новогоднего диктанта» — это отнюдь не пример для подражания. Это именно развлекательно-поздравительный тест, поэтому укороченный. Судите сами: стандартная ошибка измерения в таком тесте никак не может быть ниже 10% от длины теста, а это составляет в данном случае 2.5 сырых балла на 25-балльной шкале. Как видим, интервал неопределенности размером в 2.5 балла оказывается в данном случае даже больше, чем интервал для определенной вербальной оценки (категории). На самом деле шесть градаций оценок в нашем «Новогоднем диктанте» носят весьма условный и во многом опять-таки развлекательный характер. Тест такой длины (да еще и при таком смещенном распределении баллов) не может иметь больше трех вербальных оценок (категорий):

А) Зачет — 24 или 25 правильных ответов;

Б) Нечто неопределенное — от 21 до 23;

В) Незачет — ниже 21 из 25 (менее или равно ППО=80%).

При этом категория Б означает, что надо пройти дополнительную попытку, то есть фактически удвоить длину сеанса тестирования.

Для получения шкалы из 4х градаций (категорий) оценок требуется применять сеанс тестирования в 2 раза длинней — от 50 попыток и выше.

А для шести градаций (которые использованы нами в поздравительного диктанте) нужно, если честно работать, предьявлять в сеансе 100 заданий (!).

комментировать


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Актуальный опрос

Рубрики

Последние комментарии:

  1. Здравствуйте Александр Георгиевич! Да, согласен, вы правы. Возможно, даже больше чем можете себе представить. Всякие переговоры об окончании боевых действий…

Облако меток