Искусство статистики. Как находить ответы в данных Шпигельхалтер Дэвид
Четвертый принцип ASA звучит вполне безобидно.
4. Правильный вывод требует полной отчетности и прозрачности.
Самое очевидное – необходимо четко указать, сколько проверок фактически проведено. Если подчеркивается самый значимый результат, то можно сделать какую-то поправку (например, методом Бонферрони). Но проблемы с выборочной отчетностью могут быть намного тоньше, как мы увидим в следующей главе. Только зная план исследования и то, что было на самом деле сделано, можно избежать проблем с P-значениями.
Вы запланировали исследование, собрали данные, провели анализ и получили «значимый» результат. Обязательно ли это должно быть важным открытием? Пятый принцип ASA просит вас быть не слишком самонадеянным.
5. P-значение или статистическая значимость не измеряет величину эффекта или важность результата.
Наш следующий пример показывает, что (особенно в случае больших выборок) мы можем быть достаточно уверены в наличии связи, но при этом не сильно впечатляться ее важностью.
Почему поступление в университет повышает риск развития опухоли мозга?
Мы рассматривали этот вопрос в главе 4. Сделав поправку в регрессионном анализе на семейное положение и уровень дохода, шведские ученые обнаружили относительное повышение риска на 19 % между низким (нчальная школа) и более высоким (университетский диплом) уровнем образования, с 95-процентным доверительным интервалом от 7 до 33 %. Интересно, что в работе не указывалось никаких P-значений, однако в силу того что 95-процентный интервал для относительного риска не включает 1, можно заключить, что P < 0,05.
К этому моменту читатель уже должен иметь наготове список потенциальных вопросов к такому выводу, однако авторы упредили их, обнародовав одновременно с полученными результатами следующее:
• вывод о причинно-следственной связи невозможен;
• никакие поправки относительно факторов, потенциально влияющих на образ жизни (например, потребление алкоголя), не вносились;
• люди с более высоким экономическим статусом обычно чаще обращаются за медицинской помощью, поэтому может возникнуть так называемая предвзятость отчетности.
Но одна важная характеристика все же не была упомянута: небольшая величина видимой связи. Повышение риска на 19 % между низким и высоким уровнем образования гораздо ниже, чем для многих видов рака. В статье сообщалось, что в группе из более чем 2 миллионов человек старше 18 лет было диагностировано 3715 опухолей головного мозга (примерно 1 на 600). Следовательно, если мы, как в главе 1, переведем относительные риски в абсолютные, то получим такие расчеты:
• мы можем ожидать, что среди примерно 3 тысяч человек с минимальным уровнем образования будет диагностировано пять опухолей (если базовый риск 1 на 600);
• а среди примерно 3 тысяч человек с максимальным уровнем образования – шесть опухолей (относительное увеличение на 19 %).
Такой расчет формирует несколько иное восприятие результатов и весьма обнадеживает. Столь небольшой повышенный риск развития редкого вида рака может оказаться статистически значимым только при изучении огромного количества людей: в нашем случае – свыше двух миллионов.
Поэтому из этого научного исследования можно извлечь два важных урока:
• «большие данные» способны легко привести к статистически значимым, но не имеющим практической значимости результатам;
• не следует беспокоиться, что учеба в вузе приведет к развитию опухоли головного мозга.
Последний принцип ASA довольно тонкий.
6. Само по себе P-значение не дает надежного подтверждения модели или гипотезы. Например, P-значение, близкое к 0,05, взятое само по себе, предлагает лишь слабое свидетельство против нулевой гипотезы.
Это утверждение, частично основанное на «байесовской» аргументации, описанной в следующей главе, побудило группу известных статистиков выдвинуть предложение изменить стандартное пороговое значение для «открытия» нового эффекта на P < 0,005[211].
Какой эффект это может дать? Если на рис. 10.5 мы изменим уровень значимости с 0,05 (1 на 20) на 0,005 (1 на 200), то вместо 45 ложноположительных «открытий» получим только 4,5. Это уменьшит общее количество открытий до 84,5, и всего лишь 4,5 из них (5 %) будут ложными. Выглядит как значительное улучшение по сравнению с 36 %, не так ли?
Исходная идея Фишера для проверки гипотез оказалось очень полезной для практического использования и предотвращения необоснованных научных заявлений. Однако статистики часто жаловались на готовность некоторых исследователей перейти от P-значений, полученных в плохо спланированных экспериментах, к уверенным обобщающим выводам: своего рода алхимия для превращения неопределенности в определенность, механически применяющая статистические критерии к разделению результатов на «значимые» и «незначимые». В главе 12 мы рассмотрим некоторые из печальных последствий такого поведения, но сначала обратимся к альтернативному подходу к статистическим выводам, который полностью отвергает саму идею проверки значимости нулевой гипотезы.
Итак, еще одно расширяющее кругозор требование статистической науки: будет полезно, если вы сможете (временно) забыть все, что узнали из этой и предыдущих глав.
Выводы
• Проверки нулевых гипотез – предположений о статистических моделях – составляют основную часть статистической практики.
• P-значение – это мера несовместимости между наблюдаемыми данными и нулевой гипотезой: формально это вероятность наблюдения в эксперименте настолько же экстремального результата, если нулевая гипотеза верна.
• Традиционно для утверждений о статистической значимости используются пороговые значения 0,05 и 0,01.
• При проведении множественных проверок (например, по различным подмножествам данных или различным характеристикам) такие пороги требуют корректировки.
• Существует точное соответствие между доверительными интервалами и P-значениями: например, если 95-процентный интервал не включает 0, то мы можем отвергнуть нулевую гипотезу о 0 при P < 0,05.
• Теория Неймана – Пирсона определяет альтернативную гипотезу и фиксирует вероятности ошибок первого и второго рода для двух возможных типов ошибок при проверке гипотезы.
• Для последовательного анализа разработаны отдельные формы проверки гипотез.
• P-значения часто интерпретируются неправильно, в частности они не выражают вероятность того, что нулевая гипотеза верна, равно как и незначимый результат не означает, что нулевая гипотеза верна.
Глава 11. Учимся на опыте – байесовский путь
Я совсем не уверен, что «доверие» – это не злоупотребление доверием.
Артур Боули[137], 1934 год
Сначала я должен сделать признание от имени всего статистического сообщества. Формальная основа для обучения на данных несколько запутанна. Несмотря на многочисленные попытки создать единую теорию статистических выводов, ни одна версия так и не была полностью принята. Неудивительно, что математики не любят преподавать статистику.
Мы уже познакомились с конкурирующими идеями Фишера и Неймана – Пирсона. Пришло время исследовать третий, байесовский подход к работе. Хотя он получил известность только в последнее пятидесятилетие, его базовые принципы восходят к далекому прошлому, фактически к преподобному Томасу Байесу, пресвитерианскому священнику и математику из Танбридж-Уэллса, занимавшемуся философией и теорией вероятностей[213].
Хорошая новость состоит в том, что байесовский подход открывает новые возможности для создания сложных данных. Плохая – он означает, что вам придется отложить в сторону почти все, что вы узнали из этой и других книг об оценивании, доверительных интервалах, P-значениях, проверке гипотез и так далее.
Первым крупным вкладом Томаса Байеса в науку было использование вероятности как выражения недостатка наших знаний о мире или, что одно и то же, нашего незнания о происходящем в данный момент. Он показал, что вероятность может использоваться не только для будущих событий, подверженных случайности, – стохастической неопределенности, если пользоваться термином, введенным в главе 8, но и для реальных событий, хорошо известных некоторым людям, просто мы этого пока не знаем, то есть для эпистемической неопределенности.
Если задуматься, то мы окружены эпистемической неопределенностью в отношении вещей, которые определены, но нам пока неизвестны. Игроки ставят на следующую карту, мы покупаем билеты мгновенной лотереи, обсуждаем пол будущего ребенка, ломаем голову над детективом, спорим о количестве тигров, оставшихся в дикой природе, и получаем оценки возможного числа мигрантов или безработных. Все это объективно существующие факты или числа, просто мы их не знаем. Снова подчеркну, что с байесовской точки зрения для представления нашего личного незнания этих фактов и чисел удобно использовать вероятности. Мы можем даже подумать о присвоении вероятностей альтернативным научным теориям, но этот вопрос более спорный.
Конечно, эти вероятности будут зависеть от наших нынешних знаний: вспомните пример из главы 8, где вероятность выпадения орла или решки зависит от того, посмотрели мы на монету или нет. Байесовские вероятности с необходимостью субъективны – они зависят от наших отношений с окружающим миром, а не являются свойствами самого мира. Такие вероятности должны меняться по мере получения нами новой информации.
Это приводит нас ко второму крупному вкладу Байеса – результату, который позволяет постоянно пересматривать текущие вероятности в свете новых доказательств. Он известен как теорема Байеса и фактически предоставляет формальный механизм обучения на опыте – блестящее достижение для малоизвестного священника из маленького английского курортного городка[214].
Наследие Байеса обеспечивает фундаментальное понимание того, что данные не говорят сами за себя – центральную роль здесь играет наше внешнее знание и наши суждения. Это может показаться несовместимым с научным процессом, тем не менее наши фоновые знания и понимание всегда были частью извлечения информации из данных, разница лишь в том, что в байесовском подходе они обрабатываются формальным математическим образом.
О выводах из работы Байеса рьяно спорили многие статистики и философы, возражающие против идеи, что субъективное суждение играет в статистике какую-либо роль. Поэтому будет справедливо, если я проясню собственную позицию: меня познакомили с субъективистской байесовской школой статистических рассуждений в начале моей карьеры[215], и она до сих пор кажется мне наиболее удовлетворительным подходом.
У вас в кармане три монеты: на одной два орла, на другой две решки, третья обычная. Вы наугад вытаскиваете монету, подбрасываете ее, и выпадает орел. Какова вероятность, что на другой стороне монеты тоже орел?
Это классическая задача с эпистемической неопределенностью: как только монета падает после подбрасывания, никакой случайности не остается и любое высказывание о вероятности – всего лишь выражение вашего нынешнего личного незнания о другой стороне монеты.
Многие бы решили, что ответ – 1/2, поскольку монета либо обычная, либо с двумя орлами, и вероятность выбрать одну из них одинакова. Существует много способов это проверить, но проще всего использовать идею с ожидаемыми количествами, описанную в главе 8.
На рис. 11.1 показано, чего можно ожидать, если проделать такой эксперимент шесть раз. В среднем каждая монета будет выбрана дважды, и каждая из сторон выпадет по разу. Орел выпадает в трех случаях, причем в двух на второй стороне также будет орел. Поэтому вероятность того, что на второй стороне монеты тоже орел, равна 2/3, а не 1/2. По сути, выпадение орла повышает вероятность выбора монеты с двумя орлами, ведь у такой монеты есть два варианта упасть орлом вверх, а у симметричной – только один.
Рис. 11.1
Дерево ожидаемых количеств для задачи с тремя монетами, показывающее, чего можно ожидать в случае шести экспериментов
Если этот результат не кажется вам интуитивно понятным, то следующий пример удивит вас еще больше.
Предположим, что точность некой проверки на допинг в спорте – 95 %, то есть правильно будут определены 95 % тех, кто принимает допинг, и 95 % тех, кто не принимает. Допустим, что 1 из 50 атлетов действительно принимает допинг. Если тест спортсмена показал положительный результат, то какова вероятность, что он точно допингист?
Этот тип потенциально сложной задачи опять же лучше всего решать с помощью ожидаемых количеств, аналогично проверке женщин на рак молочной железы из главы 8 и ситуации с высокой долей неверных результатов в научных публикациях из главы 10.
Дерево на рис. 11.2 начинается с 1000 спортсменов, из которых 20 употребляли допинг, а 980 нет. Все допингисты, кроме одного, выявлены (95 % от 20 = 19), однако положительные тесты также оказались у 49 атлетов, не употреблявших допинг (95 % от 980 = 931). Следовательно, в общей сложности мы можем ожидать 19 + 49 = 68 положительных тестов, из которых только 19 действительно отражают допинг. Поэтому вероятность, что атлет с положительным допинг-тестом истинный допингист, составляет всего 19/68 = 28 %, а оставшиеся 72 % будут ложными обвинениями. Итак, хотя объявлено, что точность тестирования на допинг 95 %, большинство людей с положительным допинг-тестом на самом деле будут невиновными. Нетрудно представить все проблемы, которые этот парадокс может вызвать в реальной жизни, когда спортсменов незаслуженно клеймят за проваленный допинг-тест.
Рис. 11.2
Дерево ожидаемых количеств для задачи о допинге, показывающее, чего можно ожидать при проверке 1000 спортсменов, когда допинг принимает 1 из 50, а «точность» тестирования составляет 95 %
Один из способов осмыслить этот процесс – «поменять порядок» в дереве, сначала поставив тестирование, а затем раскрыв истину. Это показано на рис. 11.3.
Рис. 11.3
«Обращенное» дерево ожидаемых количеств для задачи о допинге, перестроенное так, чтобы сначала шли результаты тестов, а затем истинное положение вещей
Это «обращенное» дерево дает в точности те же числа, но учитывает временной порядок, в котором мы получаем информацию (тестирование допинг), а не порядок по фактической временной шкале (допинг тестирование). Это «обращение» как раз и есть тем, что делает теорема Байеса; на самом деле байесовское мышление до 1950-х именовалось «обратной вероятностью».
Пример со спортивным допингом показывает, насколько легко спутать вероятность наличия допинга при условии положительного теста (28 %) с вероятностью положительного теста при условии наличия допинга (95 %). Мы уже сталкивались со случаями, когда вероятность события А при условии, что произошло событие В, путали с вероятностью события В при условии, что произошло событие А:
• неправильная интерпретация P-значений, когда вероятность какого-то факта при условии нулевой гипотезы смешивается с вероятностью нулевой гипотезы при условии этого факта;
• ошибка прокурора в судебных разбирательствах, когда вероятность факта при условии невиновности путается с вероятностью невиновности при условии такого факта.
Разумный наблюдатель может подумать, что формальное байесовское мышление внесло бы ясность и строгость в работу с доказательствами в судебных разбирательствах, а потому точно удивится, узнав, что британские суды фактически запрещают теорему Байеса. Прежде чем объяснить, почему, нам нужно рассмотреть статистическую величину, которая в суде разрешена, – отношение правдоподобия.
Отношение шансов и отношение правдоподобия
Пример с допингом демонстрирует логические шаги, позволяющие добраться до той величины, которая действительно важна при принятии решения: среди спортсменов с положительным тестом доля реальных допингистов 19/68. Дерево ожидаемых количеств показывает, что эта величина зависит от трех ключевых чисел: доли атлетов, принимающих допинг (1/50, или 20 человек из 1000 в нашем дереве), доли допингистов, которые тест определяет правильно (95 %, или 19/20 в дереве), и доли честных атлетов с ложноположительным результатом теста (5 %, или 49/980 в дереве).
С помощью дерева ожидаемых количеств анализ становится вполне интуитивно понятным, хотя теорема Байеса также предоставляет удобную формулу для выражения в вероятностях. Но сначала мы должны вернуться к идее шансов, введенной в главе 1, хотя опытные игроки, по крайней мере в Британии, прекрасно с ней знакомы. Шансы на какое-то событие – это вероятность того, что оно произойдет, деленная на вероятность того, что оно не произойдет. Например, если мы бросаем игральную кость, то шансы на выпадение шестерки – 1 к 5. На самом дле вероятность выпадения шестерки равна 1/6, а вероятность выпадения нешестерки – 5/6; поэтому шансы на выпадение шестерки равны 1/6: 5/6 = 1/5[216] (обычно именуется «один к пяти» или «пять против одного», если вы используете британский метод выражения шансов в азартных играх).
Теперь нам нужно ввести идею отношения правдоподобия – понятия, ставшего критически важным при выражении силы судебных доказательств в уголовном судопроизводстве. Судьи и адвокаты постепенно учатся понимать отношения правдоподобия, которые фактически сравнивают относительную поддержку, предоставляемую неким фактом (свидетельством, доказательством) для двух конкурирующих гипотез, назовем их А и В, часто означающих виновность и невиновность. С технической точки зрения отношение правдоподобия – это вероятность факта при условии гипотезы А, деленная на вероятность факта при условии гипотезы В.
Давайте посмотрим, как это работает в случае с пробой на допинг, когда судебный факт – это положительный результат теста, гипотеза А – спортсмен принимал допинг, а гипотеза В – не принимал. Мы приняли, что 95 % допингистов сдают положительный тест, значит, вероятность такого факта при условии гипотезы А равна 0,95. Мы знаем, что 5 % атлетов, не принимающих допинг, сдают положительный тест, поэтому вероятность такого факта при условии гипотезы В составляет 0,05. Следовательно, отношение правдоподобия равно 0,95/0,05 = 19, то есть положительный результат теста в 19 раз более вероятен, когда спортсмен виновен, чем когда невиновен. На первый взгляд это может показаться довольно веским доказательством, но вскоре мы увидим отношения правдоподобия, составляющие миллионы и миллиарды.
Давайте соединим все это в теореме Байеса, которая просто говорит, что
начальные шансы какой-то гипотезы отношение правдоподобия = конечные шансы для этой гипотезы[217].
В примере с допингом начальные шансы гипотезы «спортсмен принимал допинг» составляют 1 к 49, а отношение правдоподобия равно 19, поэтому теорема Байеса гласит, что конечные шансы равны
1/49 19 = 19/49.
Шансы 19 к 49 можно преобразовать в вероятность 19/(19 + 49) = 28 %. Таким образом, вероятность, которую мы получили более простым путем из дерева ожидаемых количеств, можно вывести и из теоремы Байеса.
На более формальном языке начальные шансы именуются априорными, а конечные – апостериорными[218]. Формулу можно применить еще раз, и тогда апостериорные шансы после первого факта станут априорными перед учетом второго, независимого, факта. При объединении всех этапов процесс эквивалентен умножению независимых отношений правдоподобия и формированию общего составного отношения правдоподобия.
Теорема Байеса выглядит обманчиво простой, но на самом деле в ней заключен чрезвычайно мощный способ получения информации из данных.
Отношения правдоподобия и судебная экспертиза
В субботу 25 августа 2012 года археологи начали раскопки под автостоянкой в Лестере в поисках останков Ричарда III. Через несколько часов был найден первый скелет. Какова вероятность, что он принадлежит Ричарду III?
Согласно популярному мнению, распространению которого активно способствовал сторонник Тюдоров Уильям Шекспир, Ричард III (последний король из династии Йорков) был злобным горбуном. И хотя это довольно спорная (впоследствии опровергнутая) точка зрения, доподлинно известно, что он был убит в битве при Босворте 22 августа 1485 года в возрасте 32 лет, что фактически положило конец войне Алой и Белой розы. Тело его было после смерти изувечено и захоронено в монастыре Грейфрайерс в Лестере, который впоследствии был разрушен, а через какое-то время на его месте построили автостоянку.
С учетом только предоставленной информации мы можем предположить, что скелет принадлежит Ричарду III, если истинны все нижеперечисленные условия:
• он действительно похоронен в монастыре Грейфрайерс;
• его тело не было выкопано, перемещено или уничтожено за следующие 527 лет;
• первый обнаруженный скелет действительно принадлежит Ричарду.
Предположим с изрядной долей пессимизма, что история о его похоронах правдива с вероятностью 50 % и что вероятность того, что скелет по-прежнему находится в месте захоронения в Грейфрайерсе, тоже 50 %. Представьте, что в указанном месте похоронено еще 100 тел (археологи хорошо знали, где копать, поскольку сообщалось, что Ричард похоронен в хоре монастыря). Тогда вероятность того, что все вышеуказанные события подлинны, равна 1/2 1/2 1/100 = 1/400. Это довольно низкая вероятность того, что найденный скелет – Ричард III; исследователи, которые первоначально проводили анализ, приняли «скептическую» априорную вероятность равной 1/40, так что мы гораздо скептичнее[219].
Однако детально исследовав скелет, археологи получили несколько примечательных результатов криминалистических экспертиз: 1) данные радиоуглеродного анализа костей (который дал 95-процентную вероятность, что они датируются периодом с 1456 по 1536 год); 2) подтверждение, что это был мужчина в возрасте около 30 лет с признаками сколиоза (искривления позвоночника); 3) доказательства того, что тело было изувечено после смерти. Генетический анализ с участием известных потомков его близких родственников (сам Ричард детей не имел) показал общую митохондриальную ДНК (через его мать). Связь по мужской Y-хромосоме не подтвердилась, но это можно легко объяснить разрывом в мужской линии из-за неправильно определенного отцовства.
Ценность каждого из фактов-доказательств можно выразить через их отношения правдоподобия, которые в данном случае определяются как
отношение правдоподобия = вероятность факта при условии, что это скелет Ричарда III / вероятность факта при условии, что это скелет НЕ Ричарда III.
В табл. 11.1 показаны отдельные отношения правдоподобия для каждого из фактов-доказательств, при этом исследователи были осторожны и намеренно занижали оценки в сторону наименьших отношений правдоподобия, то есть не в пользу того, что это скелет Ричарда III. Но если мы предположим независимость всех результатов, это даст нам право перемножить все эти отношения и получить общую оценку силы всех фактов-доказательств: значение достигнет 6,5 миллиона, что означает «крайне сильное подтверждение». Словесные формулировки, приведенные в табл. 11.1, взяты из шкалы, рекомендованной для использования в суде (см. табл. 11.2)[220].
Таблица 11.1
Отношения правдоподобия для отдельных фактов-доказательств в отношении скелета, найденного в Лестере. Сравниваются гипотезы, это скелет Ричарда III или нет. Объединенное отношение правдоподобия получается путем перемножения отдельных отношений правдоподобия и достигает 6,5 миллиона
Таблица 11.2
Рекомендуемые словесные интерпретации для отношений правдоподобия при предоставлении результатов криминалистической экспертизы в суде
Насколько убедительны эти доказательства? Вспомните, что, прежде чем перейти к вычислениям отношений правдоподобия, мы сделали консервативную оценку 1/400, что это скелет Ричарда III. Это соответствует примерным начальным шансам 1 к 400. Тогда по теореме Байеса мы получаем для апостериорных шансов число 6,7 миллиона / 400 = 16 750. Таким образом, даже будучи предельно осторожными с оценкой априорных шансов и отношения правдоподобия, мы можем сказать, что шансы на то, что это скелет короля Ричарда, составляют примерно 16 750 против 1.
Поскольку исследователи брали число 40, а не 400, то полученные ими шансы составили примерно 167 000 против 1, то есть они нашли Ричарда III с вероятность 0,999994. Это было сочтено достаточным доказательством для торжественного перезахоронения скелета в соборе Лестера.
В судебных делах отношения правдоподобия обычно прилагаются к данным ДНК при обнаружении какой-то степени «совпадения» между ДНК подозреваемого и следами, найденными на месте преступления. Две конкурирующие гипотезы в этом случае таковы: следы ДНК оставил подозреваемый либо это сделал кто-то другой. Следовательно, отношение правдоподобия можно записать так:
отношение правдоподобия = вероятность совпадения ДНК при условии, что следы оставил подозреваемый / вероятность совпадения ДНК при условии, что следы оставил кто-то другой.
Число в числителе обычно принимается равным 1, а в знаменателе считается вероятностью того, что случайно выбранный из совокупности человек обеспечит случайное совпадение ДНК, – это называется вероятностью случайного совпадения. Типичные отношения правдоподобия для подтверждений по ДНК могут составлять миллионы и миллиарды, хотя точные величины можно оспаривать, например в случае затруднений из-за наличия в следах ДНК нескольких разных людей.
В британских судах разрешены отдельные отношения правдоподобия, но их нельзя перемножать, как в случае с Ричардом III, поскольку считается, что процедура объединения отдельных доказательств возложена на жюри присяжных[221]. Юридическая система, по-видимому, еще не готова принять научную логику.
Жульничает ли архиепископ Кентерберийский при игре в покер?
Мало кто знает, что известный экономист Джон Кейнс, изучая теорию вероятностей, придумал мысленный эксперимент, демонстрирующий важность учета начальных шансов при оценке последствий. В этом упражнении он просил представить, что вы играете в покер с архиепископом Кентерберийским, который в первом круге сдает себе роял-флеш[222]. Следует ли нам подозревать его в жульничестве?
Отношение правдоподобия для этого события равно:
отношение правдоподобия = вероятность комбинации роял-флеш при условии, что архиепископ жульничает / вероятность комбинации роял-флеш при условии, что архиепископу просто повезло.
Будем считать, что числитель равен единице, а вероятность в знаменателе можно вычислить как 1 / 72 000[223]. Тогда отношение правдоподобия составит 72 000, что, согласно стандартам из табл. 11.2, означает «очень сильное подтверждение», что архиепископ жульничает. Но должны ли мы делать этот вывод? Как говорит теорема Байеса, апостериорные шансы равны произведению отношения правдоподобия на априорные шансы. Кажется разумным предположить, что (по крайней мере, пока мы не начали играть) шансы на то, что архиепископ не жульничает, крайне высоки, возможно, миллион против 1, учитывая его высокий духовный сан[224]. Поэтому произведение таких шансов и отношения правдоподобия даст нам 72 000 / 1 000 000, то есть примерно 7 к 100, что соответствует вероятности 7/107, или 7 %, что он жульничает. Таким образом, на этом этапе мы можем себе позволить дать ему кредит доверия (чего не сделали бы по отношению к человеку, с которым, скажем, только что столкнулись в пабе). И, возможно, нам надо держать ухо востро во время игры с архиепископом!
Байесовские статистические выводы
Теорема Байеса, даже если она и не разрешена в британских судах, – это научно корректный способ менять наше мнение на основании новых фактов. Ожидаемые количества делают байесовский анализ достаточно простым для несложных ситуаций, где есть всего две гипотезы, например, заболел человек или не заболел, совершил преступление или не совершил. Однако все усложняется, когда мы хотим применить эти же идеи к выводам относительно неизвестных величин, которые могут принимать целый диапазон значений, таких как параметры в статистических моделях.
Оригинальная работа преподобного Томаса Байеса, опубликованная в 1763 году, давала ответ на один очень простой вопрос: если известно, что нечто произошло или не произошло определенное количество раз, то какова вероятность, что это произойдет в следующий раз?[225] Например, если канцелярскую кнопку подбросили 20 раз и она 15 раз упала острием вверх, а 5 раз – острием вниз, то чему равна вероятность ее падения острием вверх в следующий раз? Возможно, вы подумаете, что ответ очевиден: 15 / 20 = 75 %. Однако ответ преподобного был бы другим – 16 / 22 (73 %). Как бы он к нему пришел?
Байес использовал метафору бильярдного стола[226], который от вас скрыт. Предположим, на стол случайно брошен белый шар; его положение на столе отмечается линией, после чего белый шар убирают. Затем на стол случайным образом бросают несколько красных шаров, но вам сообщают только их число слева и справа от линии. Как думаете, где может проходить линия и чему, по-вашему, равна вероятность того, что следующий красный шар будет слева от линии?
Допустим, после того как было брошено пять красных шаров, вам сказали, что три шара приземлились слева от линии, где лежал белый шар, а три – справа, как на рис. 11.4(a). Байес показал, что наше представление о положении линии должно описываться вероятностным распределением, представленным на рис. 11.4(b), – математические рассуждения тут довольно сложные и приведены в примечании[227]. Оценка положения пунктирной линии, указывающей, куда упал белый шар, – 3/7 длины стола, что является средним (математическим ожиданием) для этого распределения.
Рис. 11.4
«Бильярдный» стол Байеса. (a) На стол бросают белый шар и его конечное положение отмечают пунктирной линией. Затем на стол бросают пять красных шаров – их положение обозначено темными точками. (b) Наблюдатель не видит стола, но ему говорят, что два красных шара приземлились слева от линии, а три – справа. Кривая отображает вероятностное распределение положения пунктирной линии (белого шара) для наблюдателя, наложенное на стол. Среднее значение кривой равно 3/7, и это также текущая вероятность для наблюдателя, что следующий красный шар окажется слева от линии
Значение 3/7 может показаться странным, поскольку интуитивная оценка – 2/5 (доля красных шаров, оказавшихся слева от линии)[228]. Однако Байес показал, что в такой ситуации следует оценивать положение по формуле
количество красных шаров, лежащих слева, +1 / общее количество красных шаров +2.
Это, в частности, означает, что, перед тем как бросать красные шары, мы можем оценить положение белого шара как (0 + 1) / (0 + 2) = 1/2, в то время как интуитивный подход подсказывает, что нельзя дать никакого ответа, так как пока нет никаких данных. В сущности, Байес использует информацию о том, как изначально была проведена линия, ведь мы знаем, что она определялась случайным броском белого шара. Эта первоначальная информация играет ту же роль, что и известная частотность случаев, используемая при маммографии или проверке на допинг, – она называется априорной информацией и влияет на наши окончательные выводы. Фактически, учитывая, что вышеприведенная формула добавляет один шар к числу красных шаров слева от линии и два шара к общему числу красных шаров, мы можем считать это эквивалентным тому, что вы уже бросили два «воображаемых» красных шара – по одному с каждой стороны от пунктирной линии.
Обратите внимание, что если ни один из пяти шаров не попадает слева от пунктирной линии, то мы оцениваем его положение не как 0/5, а как 1/7, что выглядит более осмысленно. Байесовская оценка не может быть 0 или 1, она всегда ближе к 1/2, чем простая доля: при таком «сжатии» оценки всегда стягиваются к центру исходного распределения, в нашем случае к 1/2.
Байесовский анализ берет знание о положении пунктирной линии, чтобы определить его априорное распределение, добавляет новые факты, используя понятие правдоподобия, и делает заключение об апостериорном распределении, выражающем наши текущие знания об этой неизвестной величине. Например, с помощью компьютера можно вычислить, что промежуток от 0,12 до 0,78 содержит 95 % вероятности на рис. 11.4(b), поэтому мы можем с 95-процентной уверенностью сказать, что линия, отмечающая положение белого шара, лежит между этими граничными значениями. Чем больше красных шаров будут бросать на стол и сообщать об их положении относительно пунктирной линии, тем уже будет такой доверительный интервал, постепенно сходясь к правильному ответу.
Основное расхождение в отношении байесовского анализа – источник априорного распределения. В примере со столом белый шар бросается наугад, поэтому любой согласится, что априорное распределение – это равномерное распределение от 0 до 1. Когда знание такого рода недоступно, предположения об априорном распределении приходится делать с помощью субъективных суждений, исторических данных или определения объективного априорного распределения, чтобы данные могли говорить сами за себя без добавления субъективных суждений.
Пожалуй, в этом заключена самая важная идея – что не существует никакого «истинного» априорного распределения и любой анализ должен включать анализ чувствительности к ряду альтернативных гипотез, охватывающих целый ряд возможных мнений.
Как лучше анализировать предвыборные опросы?
Мы видели, как байесовский анализ обеспечивает формальный механизм использования имеющихся знаний для более реалистичных выводов о конкретной, стоящей перед нами задаче. Эти идеи можно (буквально) перенести на другой уровень, поскольку многоуровневое, или иерархическое, моделирование одновременно анализирует различные отдельные величины: мощность таких моделей отражена в успехах предвыборных опросов.
Мы знаем, что в идеале опросы должны основываться на больших случайных репрезентативных выборках, однако их формирование обходится все дороже, а люди все чаще отказываются участвовать в опросах. Поэтому сегодня компании, занимающиеся опросами, по большей части полагаются на онлайн-панели[229]. Поскольку, как известно, они не являются репрезентативными группами, впоследствии используется сложное статистическое моделирование, которое выясняет, какими могли бы быть ответы, если бы компании обеспечили надлежащую случайную выборку. Здесь на ум может прийти старое предупреждение о невозможности сделать шелковый кошелек из свиного уха[230].
Ситуация усугубляется еще больше, когда дело доходит до предвыборных опросов, поскольку политические взгляды по стране распределяются неравномерно и заявления об общей картине на национальном уровне нужно делать на основе объединения результатов по многим различным штатам или избирательным округам. В идеале выводы следует делать на местном уровне, однако люди в онлайн-панели сильно неслучайным образом разбросаны по этим локальным областям, а значит, для такого локального анализа имеется весьма ограниченный объем данных.
Байесовский ответ на эту проблему – многоуровневая регрессия и постстратификация (MRP). Основная идея – разбить всех потенциальных избирателей на маленькие «ячейки», состоящие из однородной группы людей, например жителей одной области, людей одного возраста, пола, сходных политических взглядов и прочих измеримых характеристик. Для оценки числа людей в каждой ячейке можно использовать имеющиеся демографические данные; предполагается, что все ее члены голосуют за определенную партию с равной вероятностью. Проблема в том, чтобы выяснить, какова эта вероятность, когда наши неслучайные данные могут означать, что у нас в конкретной ячейке всего несколько человек, а возможно, и ни одного.
Первый шаг – построение регрессионной модели для вероятности голосования определенным образом при данных характеристиках ячейки, поэтому наша задача сводится к оцениванию коэффициентов уравнения регрессии. Но их по-прежнему слишком много для надежной оценки с помощью стандартных методов, вот тут и приходят на помощь байесовские идеи. Коэффициенты для различных областей предполагаются сходными – своего рода промежуточная точка между предположением, что они в точности одинаковы, и предположением, что они совершенно не связаны.
Можно показать, что это предположение эквивалентно тому, что все эти неизвестные величины извлечены из одного и того же априорного распределения, и это позволяет нам смещать многие отдельные, довольно неточные оценки ближе друг к другу, что в итоге приводит к более уверенным выводам, на которые не так сильно влияет несколько странных наблюдений. Сделав такие более надежные оценки поведения при голосовании внутри каждой из тысяч ячеек, можно объединить все результаты и спрогнозировать, как проголосует вся страна.
На президентских выборах в США в 2016 году опросы, основанные на многоуровневой регрессии и постстратификации, правильно определили победителя в 50 случаях из 51 (50 штатов и округ Колумбия), исходя из ответов всего 9485 человек за несколько недель до выборов, и ошиблись только для Мичигана. Аналогичные хорошие прогнозы были сделаны и для выборов 2017 года в Соединенном Королевстве, где компания YouGov опросила 50 тысяч человек, не заботясь о репрезентативности выборки, а затем с помощью метода MRP предсказала подвешенный парламент[231], где консерваторы получат 42 % голосов, что в действительности и произошло. А вот опросы, использовавшие более традиционные методы, с треском провалились[232].
Так можем ли мы сделать пресловутый шелковый кошелек из подходящего неслучайного свиного уха? MRP не панацея – если большое количество респондентов систематически дают недостоверные ответы и тем самым не представляют свою «ячейку», то никакой сложный статистический анализ не компенсирует этой ошибки. Однако, по-видимому, байесовское моделирование полезно использовать для каждого отдельного участка голосования и, как мы увидим позже, это на удивление эффективно в экзитполах, проводимых в день голосования.
Байесовское «сглаживание» может добавить точность очень скудным данным, и такие методы все чаще применяются, например, для моделирования распространения болезней во времени и пространстве. Байесовское обучение сейчас рассматривается как фундаментальный процесс осознания человеком окружающей обстановки, когда у нас есть априорные ожидания того, что мы увидим в каком-то контексте, а далее нужно обращать внимание только на неожиданные изменения в нашем видении, которые затем используются для обновления наших текущих представлений. Эта идея лежит в основе так называемого байесовского мозга[233]. Те же самые процедуры обучения были реализованы в самоуправляемых автомобилях, которые имеют вероятностную «ментальную карту» окружающей местности, постоянно обновляющуюся по мере распознавания светофоров, людей, других машин и так далее. «По сути, робот-автомобиль “думает” о себе как о вероятностном пузырьке, путешествующем по байесовской дороге»[234].
Эти проблемы касаются оценки величин, описывающих мир, однако использование байесовских методов для оценки научных гипотез более спорно. Как и при проверке гипотез методом Неймана – Пирсона, нам сначала нужно сформулировать две конкурирующие гипотезы. Нулевая гипотеза H0 обычно означает отсутствие чего-либо, например отсутствие бозона Хиггса или эффекта от какого-то метода лечения. Альтернативная гипотеза H1 утверждает, что нечто важное существует.
Идеи, лежащие в основе проверки байесовских гипотез, по сути, те же, что и в судебных разбирательствах, когда нулевая гипотеза обычно означает невиновность, а альтернативная – вину, и мы каждым фактом-доказательством выражаем поддержку той или иной гипотезы в виде отношения правдоподобия. Для проверки научных гипотез точным эквивалентом отношения правдоподобия служит коэффициент Байеса, с той лишь разницей, что научные гипотезы обычно содержат неизвестные параметры, например реальный эффект при альтернативной гипотезе. Коэффициент Байеса можно получить только посредством усреднения по отношению к априорному распределению неизвестных параметров, что делает именно априорное распределение критически важным. Это самая спорная часть байесовского анализа. Поэтому попытки заменить стандартные проверки значимости байесовскими коэффициентами (в частности, в психологии) стали источником серьезных споров; при этом критики указывают, что за любым байесовским коэффициентом скрываются предположительные априорные распределения для любых неизвестных параметров в обеих – нулевой и альтернативной – гипотезах.
Роберт Касс и Адриан Рафтери – два известных байесовских статистика – предложили широко используемую шкалу для байесовских коэффициентов (табл. 11.3). Обратите внимание на ее контраст со шкалой из табл. 11.2 для словесных интерпретаций отношения правдоподобия, применяемых в юриспруденции, где для объявления какого-то факта «очень сильным подтверждением» отношение правдоподобия должно быть 10 000, в отличие от научных гипотез, для которых нужен байесовский коэффициент больше 150. Возможно, это отражает необходимость установить вину на уровне «вне разумных сомнений», в то время как о научных открытиях заявляют на основании более слабых доказательств, многие из которых опровергаются в ходе дальнейших исследований.
Таблица 11.3
Шкала Касса и Рафтери для интерпретации коэффициентов Байеса в пользу какой-либо гипотезы[235]
В главе о проверке гипотез говорилось, что P-значение 0,05 эквивалентно только «слабому подтверждению». Частично такое утверждение основано на коэффициентах Байеса: можно показать, что P = 0,05 соответствует (при некоторых разумных априорных условиях при альтернативной гипотезе) коэффициентам Байеса, лежащим между 2,4 и 3,4, что, согласно табл. 11.3, будет «слабым подтверждением». Как мы узнали из главы 10, это привело к предложению понизить пороговый уровень P-значения для объявления об «открытии» до 0,005.
В отличие от проверки значимости нулевой гипотезы, коэффициенты Байеса обращаются с обеими гипотезами симметрично и поэтому могут активно поддерживать нулевую гипотезу. И при готовности поставить в гипотезы априорные вероятности мы могли бы даже вычислить апостериорные вероятности для альтернативных теорий об устройстве мира.
Предположим, что мы, основываясь исключительно на теоретических соображениях, оценили бы вероятность существования бозона Хиггса в 50 %, то есть шансы на его существование – 1:1. Данные, рассмотренные в предыдущей главе, дали P-значение, примерно равное 1 / 3 500 000. Можно вычислить, что это приводит к коэффициенту Байеса 80 000 в пользу существования бозона Хиггса, что считается очень сильным подтверждением даже по юридической шкале.
Соединив это значение коэффициента и априорные шансы 1:1, мы получим апостериорные шансы 80 000:1, или вероятность 0,99999 существования бозона Хиггса. Однако ни юридическое, ни научное сообщество не одобряют подобный анализ, даже если его использовать для идентификации останков Ричарда III.
Идеологическая битва
В этой книге мы перешли от неформального изучения данных путем знакомства с характеристиками выборки (статистиками) к использованию вероятностных моделей для получения доверительных интервалов, P-значений и так далее. Эти стандартные математические инструменты, с которыми сражались поколения учащихся, известны как «классические» или «частотные» методы, поскольку они основаны на свойствах больших выборок.
Альтернативный байесовский подход базируется на совершенно иных принципах. Как мы видели, внешние факты о неизвестных величинах, выраженные в виде априорного распределения в сочетании с вероятностной моделью для данных (правдоподобие) дают итоговое апостериорное распределение, которое становится основой для всех заключений.
Если мы всерьез принимаем такую статистическую философию, выборочные свойства становятся неактуальными. И, потратив годы на изучение того, что 95-процентный доверительный интервал не означает, что истинное значение лежит в нем с вероятностью 95 %[236], бедный студент теперь должен все это забыть: байесовский 95-процентный интервал неопределенности означает в точности последнее.
Однако дискуссии о «правильном» способе статистических выводов еще сложнее, чем простые споры между «частотниками» и «байесовцами». Как и политические движения, каждая школа делится на несколько фракций, которые нередко конфликтуют друг с другом.
В 1930-е годы в научных кругах вспыхнула трехсторонняя схватка. Площадкой для спора стало Королевское статистическое общество, которое тогда (как и сейчас) тщательно протоколировало и публиковало дискуссии о работах, представленных на его заседаниях. Когда в 1934 году Ежи Нейман предложил теорию доверительных интервалов, Артур Боули, ярый сторонник байесовского подхода, тогда известного как обратная вероятность, отмечал: «Я совсем не уверен, что “доверие” – это не “злоупотребление доверием”». А затем предложил байесовский подход: «Действительно ли это продвигает нас дальше?.. Действительно ли ведет нас к тому, что нам необходимо, – к шансам, что во Вселенной, где мы берем выборки, эта доля находится в… определенных границах? Я думаю, что нет». Издевательское связывание доверительных интервалов со злоупотреблением доверием в последующие десятилетия продолжилось.
В следующем, 1935 году началась открытая война между двумя небайесовскими лагерями – Рональдом Фишером с одной стороны и Ежи Нейманом и Эгоном Пирсоном – с другой. Подход Фишера базировался на оценивании с использованием функции правдоподобия, выражающей относительное подтверждение для различных значений параметра, которое давали данные, а проверка гипотез основывалась на P-значениях. Напротив, подход Неймана – Пирсона, известный как «индуктивное поведение», в значительной степени фокусировался на принятии решений: если вы решаете, что истинный ответ находится в 95-процентном доверительном интервале, то будете правы 95 % времени и должны контролировать ошибки первого и второго рода при проверке гипотез. Ученые даже предлагали «принимать» нулевую гипотезу, если она включала 95-процентный доверительный интервал, – концепция, которая Фишеру казалась кощунством (и впоследствии была отвергнута статистическим сообществом).
Сначала Фишер обвинил Неймана «в ряде заблуждений, выявленных в его статье». Тогда на защиту Неймана встал Пирсон, сказав, что, «хотя он знает о распространенной вере в непогрешимость профессора Фишера, он должен в первую очередь просить позволения усомниться в мудрости обвинений какого-нибудь коллеги в некомпетентности, если при этом не продемонстрированы успехи в овладении предметом спора». Желчные дискуссии между Фишером и Нейманом длились десятилетиями.
Борьба за идеологическое лидерство в статистике продолжилась и после Второй мировой войны, но со временем более классические небайесовские школы стали применять прагматичное сочетание подходов: эксперименты в целом разрабатывались с использованием теории ошибок первого и второго рода по Нейману – Пирсону, а их анализ проводился с фишеровской точки зрения – с P-значениями в качестве меры подтверждения. Как мы видели в контексте клинических испытаний, этот странный сплав, похоже, неплохо себя проявил, и в итоге выдающийся (байесовский) статистик Джером Корнфилд заметил: «Парадокс состоит в том, что, несмотря ни на что, возникла прочная конструкция непреходящей ценности, которой не хватает всего лишь надежного логического фундамента, на котором она, как изначально предполагалось, должна быть построена»[237].
Предполагаемые преимущества традиционных статистических методов перед байесовским подходом включают явное отделение фактов в данных от субъективных факторов, общую простоту вычислений; распространенность и установившиеся критерии «значимости»; доступность программного обеспечения; существование робастных методов, при которых нет нужды делать сильные предположения о форме распределения. В то же время сторонники байесовской теории утверждают, что сама возможность использовать внешние и даже явно субъективные элементы – это то, что позволяет делать более мощные выводы и прогнозы.
Статистическое сообщество долгое время было втянуто в злобные споры об основах предмета, но сейчас объявлено перемирие и нормой стал более универсальный подход, когда методы выбираются в соответствии с практическими потребностями, а не идеологическими сертификатами, выданными школами Фишера, Неймана – Пирсона или Байеса. Это выглядит разумным и прагматичным компромиссом в дискуссии, которая нестатистикам может показаться довольной запутанной. Я думаю, что разумные статистики в целом придут к сходным заключениям, несмотря на расхождения в отношении фундаментальных основ. Проблемы, возникающие в статистике, обычно появляются не из-за различной философии, лежащей в основе используемых методов. Чаще их причина – не лучший проект эксперимента, данные со смещением, неправильные предположения и – возможно, самое важное – отсутствие надлежащей научной практики. И в следующей главе мы рассмотрим эту темную сторону статистики[238].
Выводы
• Байесовские методы объединяют свидетельства, полученные из данных (выраженные в виде правдоподобия), с первоначальными представлениями (априорным распределением) и выдают апостериорное вероятностное распределение для неизвестной величины.
• Теорема Байеса для двух конкурирующих гипотез может быть сформулирована так: апостериорные шансы = априорные шансы отношение правдоподобия.
• Отношение правдоподобия выражает относительную поддержку обеих гипотез, которую дает какой-либо факт-свидетельство, и иногда используется в качестве характеристики при результатах судебной экспертизы в уголовных разбирательствах.
• Когда априорное распределение появляется из какого-нибудь физического процесса создания выборки, байесовские методы не вызывают споров. Однако в целом необходима определенная степень суждения.
• Иерархические модели позволяют проводить несколько небольших анализов по отдельным группам, где, как предполагается, параметры будут общими.
• Коэффициенты Байеса эквивалентны отношениям правдоподобия для научных гипотез и представляют собой спорную замену проверки значимости нулевой гипотезы.
• У теории статистических выводов долгая история споров, но вопросы качества данных и научной надежности гораздо важнее.
Глава 12. Когда дела идут не так
Существует ли экстрасенсорное восприятие (ЭСВ)?
В 2011 году выдающийся американский социальный психолог Дэрил Бем опубликовал в известном психологическом журнале важную статью, описывающую следующий эксперимент. Перед экраном компьютера с двумя шторками усадили сто человек, которые выбирали, какая из них – левая или правая – скрывает какое-то изображение. Затем шторки «открывались», чтобы проверить правильность выбора, и все повторялось для серии из 36 изображений. Подвох был в том, что участники не знали главного: положение картинки определялось наугад после того, как испытуемый делал выбор, поэтому любое превышение числа правильных выборов над тем, что можно было бы ожидать при выборе наугад, приписывалось умению предвидеть, где появится картинка.
Бем сообщал, что вместо ожидаемой доли успехов 50 % (при нулевой гипотезе об отсутствии предвидения) участники правильно выбирали в 53 % случаев, когда показывали эротическое изображение (P = 0,01). В статье описывались результаты еще восьми экспериментов по предвидению, проводившихся в течение 10 лет и включавших свыше 1000 участников. Автор наблюдал статистически значимые результаты в пользу предвидения в восьми из девяти исследований. Можно ли считать это убедительным доказательством существования экстрасенсорного восприятия?
Надеюсь, эта книга проиллюстрировала некоторые способы приложения статистики к решению реальных проблем, при этом практики пользуются этими методами умело и осторожно, помня об ограничениях и потенциальных ловушках. Однако реальный мир не всегда достоин восхищения. Пришло время посмотреть, что происходит, когда наука и искусство статистики не столь хороши. А затем я расскажу, как была воспринята и оценена статья Бема.
Существует причина, почему сегодня так много внимания уделяется ненадлежащей статистической практике: то, в чем ее обвиняют, известно как кризис воспроизводимости в науке.
В главе 10 мы упоминали о сделанном в 2005 году печально известном заявлении Джона Иоаннидиса, что большинство опубликованных результатов исследований ложны. С тех пор многие ученые утверждают, что в опубликованной научной литературе наблюдается фундаментальная нехватка достоверности. Ученые не могут воспроизвести эксперименты, выполненные их коллегами, а это наводит на мысль, что оригинальные исследования не так надежны, как считалось ранее. Несмотря на то что изначально эти обвинения сосредоточились на медицине и биологии, впоследствии они распространились на психологию и другие социальные науки, хотя фактическая процентная доля преувеличенных или ложных утверждений оспаривается.
Исходное заявление Иоаннидиса основывалось на теоретической модели, но в качестве альтернативного подхода можно взять прошлые исследования и попробовать повторить их, то есть провести аналогичные эксперименты и посмотреть, дадут ли они сходные результаты. Был инициирован запуск крупного совместного проекта «Воспроизводимость»[239], в рамках которого проверялись результаты 100 психологических исследований, но с большим размером выборок, чтобы точно обнаружить эффект, если он существует. Хотя в 97 из 100 исходных исследований сообщалось о статистически значимых результатах, в повторных экспериментах они подтвердились только в 36 % случаев[240].
К сожалению, это почти везде преподносилось как то, что оставшиеся 64 % «значимых» исследований оказались ложными заявлениями. Однако здесь мы попадаем в ловушку строгого разделения исследований на значимые и незначимые. Выдающийся американский статистик и блогер Эндрю Гельман заявлял, что «различие между значимым и незначимым само по себе не может считаться статистически значимым»[241]. Фактически только у 23 % исходных и повторных исследований результаты значимо отличались друг от друга, и это, возможно, более удачная оценка для доли оригинальных экспериментов с преувеличенными или ложными заявлениями.
Вместо того чтобы определять «открытие» в терминах значимости или незначимости, лучше сосредоточиться на размерах оцениваемых эффектов. Проект «Воспроизводимость» установил, что эффект в повторных экспериментах в среднем имел ту же направленность, что и в исходных, но был примерно вдвое меньше по величине. Это указывает на важное смещение в научной литературе: исследование, обнаружившее нечто «большое», скорее приведет к серьезной публикации. По аналогии с регрессией к среднему это можно назвать «регрессией к нулю»: первоначальные преувеличенные оценки эффекта позднее уменьшаются в сторону нулевой гипотезы.
Кризис воспроизводимости – сложная проблема, которая коренится в чрезмерном давлении на исследователей: им ужно делать «открытия» и публиковаться в престижных научных журналах, а это зависит от получения статистически значимых результатов. Нельзя винить ни одно учреждение и ни одну профессию. При обсуждении проверки гипотез мы уже показали, что даже при идеальной статистической практике редкость истинных и существенных эффектов означает, что среди результатов, объявленных «значимыми», немалую долю неизбежно будут составлять ложноположительные (см. рис. 10.5). Впрочем, как мы видим, статистическая практика далека от совершенства.
На каждом этапе цикла PPDAC работа может быть сделана плохо.
Прежде всего мы можем взяться за проблему, которую просто нельзя решить с помощью имеющейся информации. Например, при попытке выяснить, почему уровень подростковой беременности в Соединенном Королевстве за последнее десятилетие так резко упал, никакие наблюдаемые данные не дадут объяснения[242].
Далее могут возникнуть неувязки и с планированием.
• Использование удобной и недорогой, но не репрезентативной выборки (например, при телефонных опросах перед выборами).
• Наводящие вопросы при опросе или вводящие в заблуждение формулировки (например: «Как думаете, сколько вы можете сэкономить на покупках в интернете?»).
• Неспособность провести честное сравнение (скажем, оценивать эффект гомеопатии, наблюдая только принимающих ее добровольцев).
• Разработка исследования, которое слишком мало и обладает низкой мощностью, а значит, вы обнаружите меньше истинных альтернативных гипотез.
• Неспособность собрать данные о потенциальных возмущающих факторах, отсутствие слепых рандомизированных испытаний и так далее.
Как выразился Рональд Фишер, «чтобы проконсультироваться со статистиком после окончания эксперимента, часто достаточно попросить его провести посмертное вскрытие. Возможно, он скажет, от чего умер эксперимент»[243],[244].
Типичные проблемы на этапе сбора данных – чрезмерное количество тех, кто отказался отвечать на вопросы, выбывание участников из исследования, набор испытуемых медленнее ожидаемого, обеспечение эффективного кодирования данных. Все эти проблемы надо предусмотреть и устранить в режиме тестирования.
Простейший досадный промах на этапе анализа – обычная ошибка. Многие из нас ошибались при кодировании или создании электронных таблиц, но, вероятно, не с такими последствиями, как в следующих примерах:
• Выдающиеся экономисты Кармен Рейнхарт и Кеннет Рогофф в 2010 году опубликовали работу, которая сильно повлияла на меры жесткой экономии. Позже один аспирант обнаружил, что из основного анализа по недосмотру были исключены пять стран – из-за простой ошибки в электронной таблице[245],[246].
• Программист крупной инвестиционной компании AXA Rosenberg неправильно запрограммировал статистическую модель, из-за чего некоторые из вычисленных элементов рисков были уменьшены в десять тысяч раз, что привело к убыткам клиентов в 217 миллионов долларов. В 2011 году Комиссия по ценным бумагам и биржам США (SEC) оштрафовала AXA Rosenberg на эту сумму плюс дополнительные 25 миллионов долларов пени. Итоговый штраф компании за несообщение клиентам об ошибке в модели рисков составил 242 миллиона[247].
Расчеты могут быть верными с точки зрения математики, но при этом использовать некорректные статистические методы. Вот некоторые популярные примеры неправильных методов.
• Провести кластерное рандомизированное испытание, при котором для какого-либо конкретного вмешательства целые группы людей распределить случайным образом, а потом анализировать результаты так, как будто случайно распределялись отдельные люди.
• Измерить две группы на исходном уровне и после вмешательства, а потом заявить, что группы различны, если одна значимо отличается от исходного уровня, а изменения во второй незначимы. Правильная процедура в этом случае – провести статистическую проверку того, отличаются ли группы одна от другой (проверка взаимодействия).
• Истолковать «незначимость» как «отсутствие эффекта». Например, в исследовании связи между употреблением алкоголя и смертностью, упомянутом в главе 10, мужчины в возрасте 50–64 лет, употреблявшие 15–20 стандартных доз в неделю, продемонстрировали значительное уменьшение риска смертности, в то время как снижение для мужчин, пьющих чуть меньше или чуть больше, незначимо отличалось от нуля. В работе это было заявлено как важное отличие, но доверительные интервалы показали, что разница между этими группами несущественна. Еще раз заметим: разница между значимым и незначимым не обязательно значима.
Что касается этапа заключений, то здесь, пожалуй, самая вопиющая практика – проведение множества статистических проверок с последующим обнародованием только наиболее значимых результатов, которые выдаются за типичные. Мы видели, как сильно это повышает шансы найти значимость – вплоть до «оживления» мертвой рыбы. Это все равно что смотреть по телевизору только забитые командой голы и в упор не видеть тех, которые она пропускает: при такой избирательной отчетности невозможно получить истинное представление о матче.
Избирательная отчетность начинает переходить границы между простой некомпетентностью и нарушением научной этики, и есть тревожные подтверждения того, что это не редкость. В США даже был вынесен обвинительный приговор за избирательное сообщение о значимых результатах в одном анализе для подмножеств. Скотт Харконен возглавлял компанию InterMune, занимавшуюся клиническими испытаниями нового препарата от идиопатического легочного фиброза. Испытание в целом не выявило никакой пользы, но у небольшой группы пациентов (с легкой и умеренной степенью заболевания) отмечалось значительное снижение смертности. Харконен выпустил для инвесторов пресс-релиз с указанием этого результата и добавил, что, по его мнению, такое исследование может привести к увеличению объемов продаж. Хотя это и не была заведомая ложь, жюри присяжных в 2009 году осудило его за мошенничество с использованием электронных средств коммуникации, а конкретно – за намерение обмануть инвесторов. Государство требовало 10-летнего заключения и штрафа в 20 тысяч долларов, однако Харконена приговорили к шести месяцам домашнего ареста и трем годам условно. Последующее клиническое испытание не выявило никакой пользы от лекарства для указанного подмножества больных[248].
Нарушения в статистике могут быть сознательными или нет. Они даже намеренно использовались, чтобы показать недостатки научного рецензирования и публикации. Йоханнес Боханнон из немецкого института диеты и здоровья провел исследование, в котором людей разделили на три группы: 1) придерживающихся обычной диеты; 2) низкоуглеводной; 3) низкоуглеводной с добавлением шоколада. После ряда измерений, проводившихся в течение трех недель, было сделано заключение, что потеря веса в группе людей, диета которых включала шоколад, превышает потерю веса в группе с низкоуглеводной диетой на 10 % (P = 0,04). Этот «значимый» результат предоставили в один журнал, который назвал его «выдающимся» и сообщил, что за 600 евро «он может быть опубликован в нашем основном журнале». После публикации пресс-релиза Институтом диеты и здоровья в СМИ появились многочисленные статьи под заголовками наподобие «Шоколад ускоряет потерю веса».
Но потом выяснилось, что все это было преднамеренным обманом. Йоханнес Боханнон оказался журналистом Джоном Боханноном, Института диеты и здоровья вообще не существовало; правда, данные исследования оказались несфабрикованными. Однако в каждой группе было всего по пять испытуемых, тесты проводились многократно, но сообщили только о существенных различиях.
Авторы этой сфальсифицированной работы сразу же признались в обмане. Однако далеко не все статистические махинации осуществляются с благими намерениями указать таким способом на слабые места экспертной оценки.
Преднамеренный обман
Умышленная фабрикация данных действительно практикуется, но считается, что достаточно редко. Проверка анонимных самоотчетов показала, что 2 % ученых признались в фальсификации данных, в то время как Национальный научный фонд и Отдел по обеспечению добросовестности в исследованиях сталкиваются с довольно небольшим числом заведомо нечестных действий, хотя обнаруженное количество наверняка занижено[249].
Кажется вполне логичным, чтобы мошенничество в статистике выявила сама статистика. Ури Симонсон, психолог из Пенсильванского университета, проверял статистические данные, описывающие предположительно рандомизированные испытания, которые должны демонстрировать типичный случайный разброс, но оказывались либо неправдоподобно похожими, либо неправдоподобно различными. Например, он заметил, что в одном отчете все три стандартных отклонения составили 25,11, хотя предполагалось, что их вычисляли для трех разных групп по 15 человек. Симонсон получил исходные данные и показал с помощью моделирования, что шансы получить такие одинаковые стандартные отклонения исчезающе малы, после чего исследователь, ответственный за этот отчет, был снят с должности[250].
Британский психолог Сирил Берт, известный своим исследованием наследственности IQ, был посмертно обвинен в мошенничестве, когда выяснилось, что коэффициенты корреляции, которые он приводил для IQ разлученных близнецов, практически не менялись со временем, несмотря на постоянное увеличение группы близнецов: коэффициент был равен 0,770 в 1943 году, 0,771 в 1955-м и 0,771 в 1966-м. Психолога обвинили в подтасовке данных, но поскольку все его записи были после его смерти сожжены, вопрос до сих пор остается спорным. Некоторые утверждают, что тут просто закралась ошибка, ведь обман слишком очевиден, вряд ли ученый мог его совершить.
Все было бы гораздо проще, если бы единственными проблемами статистики – пусть даже серьезными – были только некомпетентность и нечестность. Мы могли бы обучать, проверять, воспроизводить, открывать данные для проверки и так далее, об этом мы поговорим в последней главе, посвященной правильным методам работы. Но, увы, существует более масштабная и тонкая проблема, и именно она, по мнению некоторых, и есть главный фактор кризиса воспроизводимости.
«Сомнительные исследовательские практики»
Даже если данные подлинные, анализ произведен правильно, а статистика и соответствующее P-значение корректны, могут возникнуть затруднения с интерпретацией полученных результатов, если мы точно не знаем, исходя из чего исследователи сделали такие выводы.
Мы видели какие проблемы возникают, когда исследователи сообщают только о значимых результатах, но, возможно, более важен тот сознательный или неосознанный набор мелких решений, которые принимает исследователь в зависимости от того, что, как ему кажется, показывают данные. Такие поправки могут касаться изменения структуры эксперимента; решения о прекращении сбора данных; того, какие данные нужно исключить, какие коэффициенты подправить, какие группы выделить, на каких характеристиках сосредоточиться, на какие группы разделить непрерывные переменные, как обработать недостающие данные, и так далее. Симонсон называет такие решения «степенями свободы исследователя», в то время как Эндрю Гельман описывает их более поэтично – «сад расходящихся тропок». Все эти ухищрения увеличивают шансы на получение статистической значимости и все подпадают под общее название «сомнительной исследовательской практики».
Важно различать поисковые и подтверждающие исследования. Поисковые эксперименты – как раз то, о чем говорит их название: это гибкие исследования с целью рассмотреть многие возможности и выдвинуть гипотезы для последующей проверки с помощью более формальных подтверждающих экспериментов. В поисковых исследованиях можно применять самые разные настройки, но подтверждающие исследования нужно проводить в соответствии с заранее установленным и предпочтительно публичным протоколом. Любой может использовать P-значения, чтобы охарактеризовать силу доказательств для своих выводов, но эти P-значения надо четко различать и по-разному интерпретировать.
Действия, направленные на получение статистически значимых результатов, известны как P-хакинг[251], и хотя самый очевидный метод – выполнить несколько проверок, а опубликовать только наиболее значимый результат, есть гораздо более тонкие способы, позволяющие исследователям реализовать свои «степени свободы».
