
Вы знаете почему на обложке этой коротенькой статьи я решил разместить фотку осьминога? — Нет, не потому, что я собираюсь обсуждать коллектив из 8 авторов. А только потому, что предлагаю Вам для разминки ответить на такой вопрос:
А сколько ног у осьминога?
Кажется, что ответ совершенно тривиальный и вытекает из самого названия данного животного, да? — Но не торопитесь с таким выводом, так как последние исследования этих головоногих моллюсков привели к определенной разноголосице. Некоторые спецы считают, что это вообще не «ноги», а «руки», но большинство эти конечности называют «щупальцами». Так вот… оказываются щупальцы имеют специализацию. Четыре передних служат для захвата и это скорее можно назвать «руками», а четыре задних (по ходу движения) служат для опоры и отталкивания от дна моря, поэтому их можно скорее назвать «ногами».
Зачем этот разговор про осьминога? — Ну не только «хохмы ради», а для того, чтобы проиллюстрировать различие между между поверхностным (типовым) и более углубленным, специальным знанием.
Как мы помним, в игру «Что-где-когда» играет команда из пяти человек. Этих пятерых мы видим на экране. Они сидят за одним столом и в течение одной минуты должны дать ответ на какой-нибудь хитрый вопрос от телезрителей. Четыре человека могут быть в полнейшем неведении, но если пятый знает ответ вполне твердо и произносит его уверенным тоном, то капитан обязательно озвучит этот ответ и команда может набрать победное очко (!). Сказывается «эффект коллективной силы» (кажется, этот термин у нас впервые появился в переводной книге по социальной психологии таких восточно-немецких авторов как Гибш и Форверг): достаточно в коллективе найтись только одному знатоку, как весь коллектив выигрывает. Сила коллектива оказывается, таким образом, грубо выражаясь, в пять раз больше, чем сила каждого отдельного игрока.
Переведем более точный расчет эффекта в виде вероятности правильного ответа на вопросы теста. Если выбор правильного ответа (из предложенных вариантов или свободного — сейчас не важно) в среднем равен у каждого индивидуального игрока-испытуемого только лишь 0,5 (фифти-фифти), то для расчета вероятности, что весь коллектив из пяти игроков НЕ знает правильного ответа, надо всего лишь возвести 0,5 в пятую степень. Получаем точно значение 0,03125, а это означает, что правильный ответ будет найден с очень высокой вероятностью — почти 97% (!). Это, как видим, уже выше минимального уровня статистической надежности в 0,95 (что соответствует известной вероятности ошибки p<0,05).
А если в коллективе 10 человек? А это, на мой взгляд, необходимый минимальный по численности коллектив авторов теста с широкой областью валидности. — Предлагаю Вам самим подсчитать, какова будет надежность в работе такого коллектива, если все его участники проверяют корректность созданных заданий в ходе «перекрестной экспертизы» (то есть все десять решают задания, созданные всеми авторами).
Тут имеет смысл сделать такую оговорку: мы явно завышаем балл надежности, если возведем в 10-ю степень 0,5, ибо возведение в степень обоснованная операция только при условии, что события никак не скоррелированны друг с другом (являются независимыми), тогда как реальные знания людей (специалистов в одной области), конечно, скоррелированны на достаточно высоком уровне сходства. Поправки на корреляцию требуют более сложных вычислений.
Я запросил такие вычисления у нейросети QWEN и получил ответы в ходе непростых выкладок (и вычислений по методу Монте Карло) , что высоко согласованный коллектив экспертов (ответы которых, если они работают каждый отдельно, и достигают высокой попарной корреляции 0,75) фактически не очень-то увеличивают «коллективную силу». А вот при узкой специализации каждого «знатока» команда из 10 человек решает почти любую задачу с высочайшей вероятностью. Нейронка так резюмирует свои же расчеты:
=======================
Заключение от QWEN:
Ваши интуитивные ожидания и расчёты абсолютно обоснованы (это он мне так говорит):
- При независимости: коллектив из 10 человек с p=0.5 даёт надёжность ~99.9% — это действительно высший статистический стандарт.
- При корреляции: этот эффект резко ослабевает, и именно разнообразие знаний становится ключевым ресурсом команды.
Это прекрасный пример того, как теория вероятностей формализует мудрость коллективного разума — при условии, что он не клонирован, а разнообразен.
======================
Тут я задал нейронке задачку с такими вводными. Давайте предположим, что в коллективе из 10 человек каждый автор справляется в ходе «перекрестной экспертизы» со всеми задачками, созданными другими авторами, в среднем с вероятностью 0,75 (далеко не со всеми, так как задания трудноватые, но с большинством справляется). Средняя реалистичная попарная корреляция между экспертами равна 0,3 (при этом известно, что корреляция индивидуального балла со средним профилем ответов по всем экспертам равняется примерно 0.6). Какова будет надежность коллектива, то есть вероятность ошибки, если все прислушиваются ко мнению хотя бы одного, отвечающего уверенно (к мнению автора тестового задания, изучавшему внимательно какой-то эталонный текст — первоисточник). QWEN провел расчеты и дал такой весьма правдоподобный ответ (я примерно так давно интуитивно и предполагал):
=====================
Ответ на ваш вопрос. При p=0.75, n=10, ρ=0.3:
Если достаточно одного уверенного эксперта → вероятность ошибки ≈ 0.21%
====================
Комментарий ШАГ: как видим, мы не достигаем в этом случае совсем мощной надежности 99,9%, но получаем уровень ошибки все-таки существенно ниже 1 процента (в пять раз!), что вполне удовлетворительно с учетом того, что в ходе проведения массового тестирования имеются еще и другие источники «случайной погрешности» (связанные с нестабильностью условий выполнения тестов и т.п.).
(Коллеги, по запросу я могу предоставить Вам полную стенограмму моего диалога с QWEN — пишите заявку на это в комментарии).
Мой вывод
Коллеги, нам не следует добиваться высокой согласованности внутри авторского коллектива. Пусть люди будут специалистами «каждый немного в своем» и корреляции их ответов будут умеренными (средняя попарная 0,3 даст согласованность со средним баллом остальных 9 участников на уровне 0,5 или без вычитания вклада своих ответов на уровне 0,6 со средними ответами по всем 10-ти экспертам).
А ТЕПЕРЬ РЕЗЮМЕ
Вы можете спросить: профессор Шмелев, а зачем все эти расчеты? Мой ответ: дорогой коллега, они призваны показать, что коллективный метод разработки тестов знаний дает значимый прирост в качестве тестов, если люди решают задания, созданные другими авторами, и из сырого банка заданий после этого отбрасываются все спорные задания, которые не дают согласованных ответов. Именно такой «коллективной технологии» разработки мы обучаем слушателей нашего дистанционного зимнего практикума КТЗ-25, который начался только что на нашей платформе Ht-Line. По этой же технологии мы начинаем после 25 января разработку демоверсии КВАЛИМИН-ПП (теста для практикующих психологов). Уже отобраны 10 эталонных текстов (в их отборе приняли участие 31 специалист). Мы рассчитываем, что задания напишут примерно 20 вполне зрелых авторов, являющихся специалистами в разных областях прикладной психологии (психодиагностика, консультирование, неврачебная психотерапия, оргконсалтинг и т.п.).
P.S.
Вплоть до 26 января мы еще принимаем запоздалые заявки от тех, кто хочет «вскочить на подножку уходящего поезда». См. страницу для самозаписи на проект:

Добавить комментарий для Ирина Отменить ответ