Здравствуйте, коллеги. В ходе моей работы по подготовке научной статьи насчет низкой (ничтожной) прогностичности «зодиакальных психотипов» я столкнулся с рядом курьезных фактов, о которых захотелось Вам рассказать отдельно. Начну с цитирования моего диалог с нейронкой Perplexity. Я и с китайскими DeepSeek, и QWEN тоже продолжаю консультироваться, но именно Perplexity по поводу этого курьезного случая дает наиболее острое опровержение.
Запрос от АГШ:
В одном из процитированных Вами источников я нашел следующую информацию:
Illinois-based Allstate Insurance said its analysis of car accidents related to astrology found Virgos were the most likely to crash vehicles. The company said its comparison of 2010 claims data against the revised astrological calendar found Virgos were involved in 211,650 collisions last year, 700 percent more than the 26,833 crashes involving Scorpios, the safest drivers on the zodiac calendar.
Прошу найти какой-либо комментарий по поводу этих данных со стороны грамотных исследователей (социологов или психологов) в области статистики.
Ответ от Perplexity:

На аналогичный мой запрос DeepSeek использовал забавный термин «инфотейнмент» (аналоги термина «энтертейнмент», обозначающий, как известно, сферу развлечений). Цитирую ответ от DeepSeek с сокращениями:
====================
Информация, которую вы нашли, действительно циркулировала в СМИ примерно в 2011-2012 годах и принадлежала страховой компании Allstate (точнее, ее канадскому филиалу). Это был типичный пример «инфотеймента» — развлекательного контента, призванного привлечь внимание к бренду.
С точки зрения серьезных исследователей, социологов и статистиков, эта «статистика» вызывает абсолютно предсказуемую и уничтожающую критику. Вот основные аргументы, которые они приводят:
Самая главная ошибка. Для сравнения рисков по знакам зодиака необходимо учитывать общее количество водителей каждого знака на дорогах. Если, например, в популяции (или среди клиентов Allstate) Девы (Virgos) составляют непропорционально большую долю, то и абсолютное число аварий с их участием будет выше, даже если их индивидуальный риск такой же, как у других. Представленные цифры (211,650 vs 26,833) — это сырые абсолютные числа, а не стандартизированные по размеру группы коэффициенты (например, аварийность на 1000 водителей). Это делает сравнение бессмысленны
======================
Ну понятно, думаю, многим. Тут получился явный казус, во многом схожий с «феноменом бермудского треугольника», о котором я уже писал. В этом треугольнике аварий происходит примерно в 10 раз больше, чем на произвольном участке мирового океана аналогичной площади. Но не потому, что тут особые условия (и тем более магические, непостижимые современной наукой), а потому, что больше судов проплывает в этом районе и больше самолетов пролетает (!). Надо сравнивать не только числители в формуле КД, но и учитывать сами знаменатели, то есть, наконец, вспомнить, что такое ПРОПОРЦИИ — вспомнить даже не из курса статистики, а из курса элементарной математики, физики и химии в средней школе. Мало того, что в клетке А стоит значение, которое в 10 раз больше, чем B, но надо проверить, насколько доля cобытий А во множестве А+С больше доли событий B во множества B+D. Напомним, что такое события C и D в случае с «бермудским треугольником». Это благополучное проследование судна через данный участок мирового океана (!).
Если в бермудском треугольнике проплывает в 10 раз больше кораблей, то КД=А/(A+C)-B/(B+D) = 0 даже в том случае, если А/B равняется 10.

Таблица 1. Гипотетические данные ЧТС, разоблачающие «феномен Бермудского треугольника».
Точно также получается, когда «дев» у нас оказывается в наблюдаемой выборке в 7 раз больше, чем «скорпионов». Хотя никакой связи на самом деле нет, но ведь девы попадают в аварию в 7 раз чаще (A/B = 7), поэтому, игнорируя нижнюю строчку ЧТС, авторы сенсаций публикуют только данные, которые содержатся в верхней строчке, и …добиваются своего: люди начинают кликать на их сообщения.
В 20 веке, казалось бы, было выполнено такое множество экспериментов, опровергающих астрология, что казалось бы проблема исчерпана вовсе — ну хотя бы исчерпана для тех людей, у которых сложилась научная картина мира в головах. Но в 21 веке началась новая технологическая эпоха. Появился интернет, и появилась возможность собирать быстро огромные массивы данных, привлекая информацию уже не о десятках и сотнях людей (их судьбоносных событиях, их психологических профилях), но уже о десятках и сотнях ТЫСЯЧ людей (!). И тут в эту область с новым энтузиастом опять ворвались «шутники», а также искренние поклонники астрологии из числа «невежественных журналистов» (таких, которые никогда не учили никакой математической статистики и не умеют правильно группировать и анализировать собранные данные).
Чаще всего сенсации пробиваются в «желтую прессу» (а на самом деле теперь это социальные сети, чаты и форумы) именно в таком виде, в каком мы видели псевдосеансацию об особой аварийности у людей, родившихся под знаком «Девы» (Virgos).
Но иногда все-таки рядом с сенсацией можно добраться до необходимой полной таблицы с первичными числовыми значениями, которые позволяют нам произвести более квалифицированные расчеты, чем это делают «журналисты-дилетанты». Вот, например,они сообщают, что летние зодиакальные типы «раки» и «львы» чаще становятся медиа-знаменитостями, а зимние знаки «водолей» и «рыбы» — гораздо реже. Взята выборка из 570 знаменитостей и начали смотреть, сколько среди них людей, родившихся в разные «зодиакальные периоды» (периоды солнечного цикла). Обнаружено, что среди них доля «раков» и «львов» на 50% больше, чем доля «водолеев» и «рыб» (!!). Казалось бы, сенсация, да!! Ведь 50% — это очень много. Для людей, которые не подозревают, что проценты — это очень неоднозначная мера и часто обманчивая мера для регистрации различий, это выглядит в самом деле как сенсация. Но для тех, кто грамотный в статистике, понятно, что проценты можно посчитать совершенно по-разному, если подставить в знаменатель совершенно разные числа (!).
СОВЕТ ЧИТАТЕЛЮ: когда Вы слышите информацию о процентах, то сразу же задавайте вопрос, а что было в знаменателе-то (?!). К своему удивлению Вы обнаружите, что примерно половина авторов сенсаций не могут дать точного ответа на этот вопрос, так как не считают, что это … важный вопрос, на который им самим надо было обращать особое внимание (!).
Давайте приведем полную табличку данных (спасибо, что она оказалось доступной) и разоблачим еще одну псевдосенсацию.

Таблица 2. Полная таблица частот попадания знаменитостей в определенный «зодиакальный период» и ее анализ с помощью статистического критериям Хи-квадрат.
Как видим в таблице 1, для непредвзятого анализа требуется вычислить ожидаемое значение для каждой строчки — ожидаемую частоту попадания в «зодиакальный период» на фоне нулевой гипотезы об отсутствии связей (о наличии равномерного распределения — одинаковой частоты в каждой из 12 клеточек таблицы). Это число равно 570/12 = 47.5. Ну и… мы сразу же на глазок видим, что только очень многие знаки не дают никаких существенных отклонений от теоретического ожидаемого значения (!). То есть, если суммировать нормированные квадраты отклонений по всем 12 строчкам (как это сделано в последнем столбце), то получится сумма, равное 11, 26, что ниже критических значений Хи-квадрат для 11 степеней свободы (меньше 19,7 и тем более меньше 24,7).
Почему же все-таки в головах у некоторых горе-аналитиков сенсация возникает? — А потому, что они выхватывают из общего эксперимента неправомерно только «интересующих их выборку наблюдений» — только 4 случая вместо всех 12 (!), только частоты для «раков», «львов», «водолеев» и «рыб» (!). И в этом случае получается такая таблица 3:

Таблица 3. Неправомерно выхваченная из общего контекста исследования сокращенная таблица частот только для 4х знаков.
Как видим, частота 121 в самом деле почти в 1.5 раза больше, чем 81, так что для данного случае якобы получается, что вычисленная сумма нормированных квадратов отклонений равна 7,49 и оказывается выше граничного значения 6,63, то есть выявляется якобы значимое статистическое различие в пользу «летних месяцев».
Но … таким авторам как бы невдомек, что они применяют в таком случае известную порочную стратегию «фишинга» (то есть стратегию «рыбной ловли» случайных связей — выхватывают значимые связи из большое количества проанализированных случаев) и… объявляют эти случайные связи «научным фактом» (!). При этом статистический «навык» (беру в кавычках,так как это псевдонавык) работает как бы вслепую — без применения логики вероятностного мышления.
В самом деле ответьте сами себе на такую несложную вероятностную задачку. Если Вы регистрируете корреляции между знаками Зодиака (их 12) и, например, списком из 10 профессий (выбранных людьми, рожденными в определенный «зодиакальный период»), то с какой вероятностью Вы обнаружите хотя бы одну корреляцию, значимую на уровне вероятностиошибки p<0,05 ? Давайте выполним несложные подсчеты. Сколько всего парных корреляций подсчитает в этом случае компьютерная статистическая программа (вроде SPSS)? — Умножим 12 на 10 и получаем 120, так ведь? Ну и сколько будет среди них таких коэффициентов, которые достигнут уровня значимости p<0,05? Для этого умножаем 120 на 0,05 и получаем, разумеется, 6 совершенно случайных коэффициентов, которые ТОЛЬКО КАЖУТСЯ значимыми (!). Ну а если мы анализируем не 10 профессий, а 100 профессий? — Ну,конечно, тогда мы получим в 10 раз больше якобы «значимых связей», то есть уже не 6, а 60. Вот и покажется нам, что астрология предсказывает выбор профессии! А значит вместо выполнения трудоемких тестов на профориентацию (и последующих бесед с опытным консультантом) надо только посмотреть на дату рождения и… все тут!
Но коллеги, уже давно, еще в 20 веке настоящие специалисты по статистике вскрыли и описали буквально все подобные статистические артефакты. Разработана целая «кухня», целая система методов борьбы с получением таких артефактов. Одни из этих методов являются более сложными и трудоемкими (как, например, метод расщепления выборки пополам — split half), другие — более простыми и легкими поправками. Одна из легких поправок — это так называемая «поправка Бонферрони». Она интересна даже не сама по себе, а прежде всего потому, что Бонферрони показал всем, какая именно логика вероятностного мышления должна работать, чтобы не обманывать самих себя с помощью «фишинговых», то есть ложных корреляций.

Добавить комментарий