Какие «недодумки» демонстрирует DeepSeek как партнер по разработке тестов знаний?

Ни для кого не секрет, что разработчики тестовых заданий в настоящее время приступили к активному использованию ИИ. Это прежде всего такие LLM-системы как ChatGPT, DeepSeek, YandexGPT. Впрочем, если кто-то получил опыт работы с другими БЯМ-системами, напишите об этом в комментарии, пожалуйста.

На днях я, пожалуй, впервые для себя плотно поработал с DeepSeek в качестве «партнера» — в работе по обновлению нашего банка заданий по истории России. Дело в том, что за много лет проведения этого теста знаний (прежде всего в разнообразных тест-конкурсах от РСВ, начиная с конкурса ЛР-2017) мы уже здорово «истоптали поляну». Создана без малого 1 тысяча заданий по поводу примерно 100 ключевых событий и имен в истории России. Почему 100? — А потому, что больше наше граждане ничего не помнят 🙁 Все задания за пределами этих ключевых событий оказываются слишком трудными для взрослых людей, которые давно забыли школьную программу: на них дают правильные ответы заведомо меньше 50% участников, а опыт показывает, что трудность заданий надо поддерживать примерно на уровне ППО=70% (где ППО — это «Процент Правильных Ответов»). Иначе большинство участников чувствует повышенный дискомфорт и появляется слишком много всяческих жалоб, заявлений и придирок к самым мелким и даже мнимым недостаткам в заданиях. Вот пример типичного диалога с нашей службой поддержки:

— Ваши задания слишком трудные!

— Пожалуйста, приведите пример.

— Вот пример: Вы пишите «Петр I», и ваша латинская «палочка» на моем экране плохо видна. А надо писать «Петр Первый».

Поэтому приходится с каждым годом все больше труда и изобретательности прикладывать к тому, чтобы выискивать легкие задания — причем по поводу одних и тех же событий и имен придумывать новые формулировки — в новом ракурсе, в новом аспекте. Вот в этом деле, конечно, лингвистические ИИ-системы могут оказать и уже оказывают большую помощь. Например, вместо «Кто был первым правителем русского государства»? по поводу этого же события возникает такой вопрос: «А какой город Рюрик избрал для себя в качестве своей резиденции — первой столицы русского государства?».

Интересно, что для многих вопросов, которые «сочиняет» DeepSeek система приводит аргументацию, указывая на точную локализацию события во времени и в пространстве. Иногда даже выбор дистракторов (ложных ответов) система комментирует, чтобы обосновать, что задание получится в самом деле легким: мол, мало кто ошибется, если в качестве ответа-дистрактора основателем первого русского государства назвать… Владимира Ленина 🙂 Да, да, буквально и такие бывают «перлы» в плане поиска легких дистракторов — главное, чтобы Рюрика с Лениным люди не путали 🙂

Таким образом… какие проблемы в работе с DS у меня возникли и как их приходилось преодолевать?

Неточный поиск заданий, оптимальных по трудности. Если запрос сформулировать слишком в общем виде, то DS дает, пожалуй, слишком легкие задания — такие, на которые будет более 90% правильных ответов. Мы это еще не измерили, но поверьте моему опыту, я на глазок вижу, что определить год Великой Октябрьской революции для нашей аудитории не составит никакого труда. Мы такой вопрос даже никогда не задавали, потому что… «это и ежу понятно». Тем более, если предлагаются такие дистракторы (в качестве других знаменитых дат из Русской истории): 1242 (Ледовое побоище), 1380 (Куликовская битва), 1941 (начало ВОВ). Приходится максимально конкретизировать запрос! Например, просить DS находить альтернативные события в рамках какой-то более узкой эпохи. Например, формулировать веер ответов только из событий, связанных с разными этапами русской революции. Тогда дистрактором для 1917 года станет 1905 год хотя бы.

Я просил саму систему DS давать оценку ППО в своих заданиях: «Сколько, по вашему, процентов правильных ответов даст на это ваше задание взрослое образованное население РФ?» Ну и что получается? — Не всегда убедительный результат. Например, очень популярную дату Куликовской битвы 1380 DS вначале назвал слишком трудной (оценил ППО ниже 50%), но затем вдруг в другой ситуации предложил эту же дату в перечне «самых известных дат знаменитых сражений, которые знают более половины Россиян» (цитирую здесь DS): 1242, 1380, 1709, 1812…

Вывод такой: увы, система DS в разном контексте выполняет поиск информации в разных доступных ей пластах Интернета, так что в одном случае может правильно грубо оценить трудности заданий, а в другом — с ошибкой. Во втором случае контекст крутится вокруг слова «сражения-битвы» и это приводит уже к другому результату (!). Использование DS не отменяет необходимости проведения пилотного исследования (на маленькой апробационной выборке) с целью измерения реальной трудности заданий.

2. Плохой подбор дистракторов. При формулировании дистракторов (ложных ответов) система DS совершает частенько очень знакомую ошибку — такую, которую часто у нас совершают новички (начинающие авторы без специального опыта): все дистракторы оказываются настолько далеки от правильного ответа (причем по одному какому-то ключевом признаку могут быть далеки), что респондент-испытуемый может легко определить правильный ответ МЕТОДОМ ИСКЛЮЧЕНИЯ — ему достаточно знать, что все остальные ответы неправильные. Например, в качестве дистракторов к правильному ответу «Антон Деникин» (а вопрос звучал про «лидеров белогвардейского движения») DS привел мне только одних большевиков: Дзержинского, Троцкого и Ворошилова (?!). Ну как Вам еще пояснить, что это довольно грубая ошибка? — Ну тогда решите сами прямо сейчас такое псевдозадание насчет политической карты Африки:

Какая страна находится в Африке?
а) Либерия,
б) Великобритания,
в) Франция,
г) Германия

Понятно, что испытуемый может ничего не знать ни про Либерию, ни вообще про страны в Африке, а знать только ключевые страны Европы, чтобы указать правильный ответ.

3. Неполное и неоднозначное описание ключевых событий. DS опирается на «шаблонное короткое название» ключевых событий в русской истории — то самое частотное название, которые он чаще всего обнаруживает в русскоязычном сегменте Интернета. Например, DS называет в ряду других событий (которые надо упорядочить по хронологии) такое событие как «Крымская война». Да, это краткое шаблонное название все профессиональные историки будут понимать однозначно: речь идет о войне 1953-1856 гг. Но… мы там знаем по своему многолетнему опыту (опыту проведения данного теста на массовой мотивированной аудитории), какие тут будут придирки! Будут обязательно настоящие вопли такого рода:

«Да у Вас нет вообще в этом задании правильного ответа! В истории России было столько разных войн за Крым в разные эпохи! Не только в 19 веке, но и раньше, и позже. У Вас даже ничего не сказано в вопросе, кто с кем воевал. А за Крым сражались не только русские войска, а еще до появления там регулярных русских войск, там появлялись… древние греки, скифы, печенеги, генуэзцы, татары, турки, запорожцы и так далее! К тому же во времена Николая I сражения с англо-французской коалицией проходили не только в Крыму, но и на нашем Дальнем Востоке. Ведь это была фактически нулевая по счету мировая война между Россией и Европой — война на разных континентах!».

Увы, это так. Приходится иногда формулировки событий за системой DS внимательно «подчищать». Например, необходимо написать так: «Крымская война в эпоху Николая Первого». Или так: «Крымская война между Россией и англо-французской коалицией». А что значит «иногда»? — Это означает, что бдительность нужно проявлять ВСЕГДА — автору приходится внимательно и критически перечитывать КАЖДОЕ задание.

Ну пока на этом я остановлюсь. Хотя перечень дефектов получился заведомо неполным. Важно пояснить, что эти дефекты возникают не только в отношении истории. Тот же самый дефект номер 3 может коснуться формулировки любого «ключевого понятия» в любом тесте знаний. Например, в тесте на обществознание может пойти речь о «конституции России», но ведь в России и в СССР были только в 20 веке приняты уже 5 разных конституций (!).

* * *

На летние месяцы 2025 года мы запланировали проведения очередного нашего обучающего цикла дистанционных занятий — «Конструирование тестов знаний». Вот здесь можно кликнуть и почитать программу курсов:

КТЗ-25

В рамках этого цикла у нас запланирован новый вебинар: «Как использовать ИИ при разработке тестов знаний». Приглашаем поучаствовать в этом вебинаре не только платных слушателей школы, но и тех авторов, которую уже имеют опыт использования ИИ и готовы выступить с коротким сообщением на таком вебинаре — поделиться своим опытом. Авторы, пишите мне в комментарии к этой статье (или на почту, или вТГ) ваши заявки! На этом вебинаре я буду делиться с коллегами своими формулировками запросов к DS — такими, которые оказались удачными, да и такими, которые оказались неудачными тоже.

P.S.

Кто-то может подумать, что перечисленные дефекты имеются только у системы DS , а вот в системе «Яндекс-нейро» их нет вовсе (более привычная и доступная нашим согражданам в РФ), будто Яндекс — более надежный и проверенный партнер. Ну… тогда только взгляните, как отвечает Яндекс на следующий запрос:

Ну почему же только три?! — А как же конституция развитого социализма, принятая 7 октября 1977 года?! Она была названа еще «брежневской» — по имени Генсекретаря ЦК КПСС в те годы (лидеры страны). Я отчетливо помню, что даже дата празднования дня конституции (был такой нерабочий день) была перенесена с 5 декабря (день сталинской конституции) на 7 октября (день брежневской).

Добавить комментарий Отменить ответ

вроде принимал участие, но себя не увидел в рейтинге

👍

Добрый день, Александр Георгиевич. Мне бы хотелось получить получить ссылку на видеозапись «Профвечера с Александром Шмелевым», а также файл со…

Александр Георгиевич, как всё равно специально организованное семантическое коверкание нравственных понятий — это постоянный предмет моей полемики с практиками. Интересно…

Александр Георгиевич, здраствуйте! Благодарю вас за интересный вебинар и статью. Очень хотелось бы получить файл со стенограммой диалогов с Дипсик.

Скажите честно, Владимир Александрович, Вы когда-нибудь выполняли тесты на понимание текстов? Впрочем, если Вы сдавали экзамен в ГАИ-ГИБДД на знание…

Какие «недодумки» демонстрирует DeepSeek как партнер по разработке тестов знаний?

Добавить комментарий Отменить ответ

Актуальный опрос

Ваши вопросы

Рубрики

Последние комментарии:

Облако меток