Искусство статистики. Как находить ответы в данных Шпигельхалтер Дэвид
Можно ли доверять погрешностям?
Перед всеобщими выборами в Соединенном Королевстве в июне 2017 года публиковались многочисленные опросы общественного мнения с участием в каждом примерно 1000 респондентов. Если бы это были идеально случайные опросы, где участники давали бы правдивые ответы, то максимальная погрешность составила бы ±3 % и разброс результатов опросов относительно их среднего значения находился бы в этом диапазоне, поскольку предполагалось, что выборка каждый раз берется из одной и той же генеральной совокупности. Однако рис. 9.3, основанный на диаграмме, использованной «Би-би-си», показывает, что рассеяние было намного больше. А значит, погрешности не могли быть верными.
Рис. 9.3
Способ визуализации данных социологических опросов, проведенных «Би-би-си» перед всеобщими выборами в Великобритании 2017 года[182]. Линия тренда – это медиана предыдущих семи опросов. В каждом опросе, как правило, участвовали 1000 человек, поэтому максимальная погрешность предполагалась ±3 %. Однако разбросы у разных опросов значительно превосходят эту величину. Данные приведены только для двух партий – Консервативной и Лейбористской
Мы уже знаем много причин, почему опросы бывают неточными, не считая неизбежной (поддающейся количественному определению) погрешности из-за случайного разброса. В этом случае вину за излишнее рассеяние можно возложить на методы составления выборки, в частности на телефонные (причем в основном с использованием стационарных телефонов) опросы с очень низким коэффициентом ответов, вероятно, от 10 до 20 %. Я лично придерживаюсь эвристического правила, что для учета допущенных в опросе систематических ошибок заявленную погрешность нужно удвоить.
Мы не можем ожидать полной точности от предвыборных опросов, но могли бы ожидать большего от ученых, занимающихся измерением физических констант, например скорости света. Однако долгая история заявляемых погрешностей в таких экспериментах впоследствии оказалась безнадежно подпорченной: в первой половине XX века интервалы неопределенности вокруг оценок скорости света не включали значение, принятое сейчас.
В результате организациям, занимающимся метрологией (наукой об измерениях), пришлось указать, что погрешности всегда должны базироваться на двух компонентах:
• Тип А: стандартные статистические показатели, обсуждаемые в этой главе, которые при увеличении числа измерений предположительно станут снижаться.
• Тип В: систематические ошибки, которые, как ожидается, не уменьшатся при увеличении числа наблюдений и должны обрабатываться с использованием нестатистических средств, таких как экспертные суждения или внешние свидетельства.
Эти идеи должны пробудить в нас некоторое смирение в отношении статистических методов, которые мы можем применить к отдельному источнику данных. При наличии фундаментальных проблем со способом сбора данных никакие умные методы не помогут устранить такие ошибки, и нам нужно использовать знания и опыт, чтобы скорректировать свои заключения.
Что происходит, когда у нас есть все возможные данные?
Вполне естественно использовать теорию вероятностей для определения погрешностей в результатах опроса, поскольку его участники рандомно выбираются из более крупной совокупности, поэтому понятно, как в генерирование данных проникает случайность. Но давайте снова зададимся вопросом: а если наши статистические данные полные, то есть учитывают все, что произошло? Например, ежегодно некая страна учитывает все убийства. Если предположить, что в подсчетах нет ошибок (и согласовать определение термина «убийство»), то это будет просто описательная статистика без погрешностей.
Но, допустим, мы хотим сделать заявление о каких-то существующих тенденциях, скажем «количество убийств в Соединенном Королевстве растет». Например, Национальная статистическая служба Великобритании сообщила, что с апреля 2014 года по март 2015-го совершено 497 убийств и 557 в следующем таком же периоде. Конечно, число убийств возросло, но мы знаем, что оно меняется из года в год без видимых причин. Так есть ли здесь реальное изменение годового уровня убийств? Мы хотим сделать заключение об этом неизвестном количестве, поэтому нам нужна вероятностная модель для наблюдаемых величин.
К счастью, в предыдущей главе мы видели, что ежедневные количества убийств ведут себя как случайные наблюдения с распределением Пуассона – словно взятые из какой-то метафорической совокупности альтернативных возможных историй. В свою очередь, это означает, что общее число убийств за год можно рассматривать как одно наблюдение с пуассоновским распределением со средним значением m, равным (гипотетическому) «истинному» годовому уровню. Нас интересует, меняется ли это m от года к году.
Среднеквадратичное (стандартное) отклонение у распределения Пуассона – это корень из m, то есть m; такова же стандартная ошибка нашей оценки. Это позволяет нам определить доверительный интервал, если мы будем знать m. Но мы его не знаем (в этом-то и суть проблемы). У нас есть период 2014–2015 годы, когда было совершено 497 убийств; это наша оценка для за этот год. С ее помощью можно найти стандартное отклонение: оно равно Это дает погрешность ± 1,96 22,3± ± 43,7. В итоге мы получаем приблизительный доверительный интервал для: 4± ± 43,7, то есть от 453,3 до 540,7. Мы можем быть уверены на%5 %, что «истинный» уровень убийств за это время находится между 453 и 541.
На рис. 9.4 отображено наблюдаемое число убийств в Англии и Уэльсе с 1998 по 2016 год, а также 95-процентные доверительные интервалы для «истинного» уровня. Ясно, что, несмотря на неизбежные разбросы между ежегодными числами, доверительные интервалы показывают, что нужно весьма осторожно делать заключения о временных трендах. Например, 95-процентный интервал за 2015–2017 годы для числа 557 простирается от 511 до 603, то есть с существенным перекрытием с доверительным интервалом для предыдущего года.
Рис. 9.4
Число ежегодных убийств в Англии и Уэльсе между 1998 и 2016 годами, а также 95-процентные доверительные интервалы для «истинного» уровня убийств[183]
Итак, как же нам решить, произошло реальное изменение риска стать жертвой убийства или наблюдаемые изменения можно просто отнести к неизбежным случайным отклонениям? Если бы доверительные интервалы не перекрывались, то мы могли бы быть уверены, по крайней мере на 95 %, что изменение реально. Однако это довольно строгий критерий, и нам действительно следует построить 95-процентный интервал для изменения уровня убийств. Если такой интервал будет включать в себя 0, то мы не можем быть уверены в реальности изменения.
Между числом убийств за 2014–2015 и 2015–2016 годы произошло увеличение на 557–477 = 60. Оказывается, 95-процентный доверительный интервал для этого наблюдаемого изменения простирается от – 4 до +124. Это включает 0 (правда, едва-едва). Формально это означает, что мы не можем с 95-процентной уверенностью заключить, что истинный уровень изменился, но, поскольку нулевое значение находится на самом краю доверительного интервала, было бы неразумно утверждать, что изменений вовсе нет.
У доверительных интервалов вокруг числа убийств на рис. 9.4 совершенно иная природа по сравнению с погрешностями, скажем, для безработицы. Последние выражают нашу эпистемическую неопределенность в отношении фактического числа безработных, в то время как интервалы вокруг числа убийств не выражают неопределенности для их фактического количества (мы полагаем, что они подсчитаны верно), а относятся к истинным рискам убийств в обществе. Эти два вида интервалов могут похоже выглядеть и даже использовать одинаковую математику, однако их интерпретации принципиально разнятся.
В этой главе содержался довольно сложный материал, что неудивительно: фактически в ней заложен весь формальный фундамент для статистических выводов, основанных на вероятностном моделировании. Но усилия того стоят, поскольку теперь мы можем использовать эту конструкцию для выхода за рамки простых описаний и оценок характеристик мира и понимания того, как статистическое моделирование может нам помочь ответить на важные вопросы о реальном мироустройстве и таким образом обеспечить прочную основу для научных открытий.
Выводы
• Теорию вероятностей можно использовать для получения распределения для выборочных статистик, из которых могут быть выведены формулы для доверительных интервалов.
• 95-процентный доверительный интервал определяется так: если мы проведем большое количество независимых экспериментов, для которых верны определенные предположения, то в 95 % этих испытаний построенный доверительный интервал будет содержать истинное значение параметра. Нельзя утверждать, что какой-то интервал с вероятностью 95 % содержит истинное значение.
• Из центральной предельной теоремы следует, что для больших выборок выборочное среднее и некоторые другие статистики имеют приблизительно нормальное распределение.
• Погрешности обычно не включают систематическую ошибку, вызванную не стохастическими причинами, – для ее оценивания нужны внешние знания и рассуждения.
• Доверительные интервалы можно вычислять, даже если мы наблюдаем все данные. Они отражают неопределенность параметров базовой метафорической совокупности.
Глава 10. Отвечаем на вопросы и заявляем об открытиях
Рождается ли мальчиков больше, чем девочек?
Врач Джон Арбетнот, ставший в 1705 году придворным лекарем королевы Анны, задался целью ответить на этот вопрос и проанализировал данные об обрядах крещения, проведенных в Лондоне за 82 года – с 1629 по 1710 год. Результаты его исследования приведены на рис. 10.1 в виде соотношения полов, то есть числа родившихся мальчиков на 100 родившихся девочек.
Рис. 10.1/strong>
Данные о соотношении полов (число мальчиков на 100 девочек) при обряде крещения в Лондоне между 1629 и 1710 годами, опубликованные Джоном Арбетнотом в 1710 году. Сплошная линия отображает равное число мальчиков и девочек; эта кривая построена по эмпирическим данным. Ежегодно мальчиков было окрещено больше, чем девочек
Арбетнот обнаружил, что ежегодно было окрещено больше мальчиков, чем девочек, причем соотношение колебалось от 101 до 116 и в целом составляло 107. Но он хотел вывести более общий закон, поэтому предположил, что если бы на самом деле никакой разницы между истинной долей мальчиков и девочек не было, то каждый год вероятность того, что мальчиков рождалось бы больше, чем девочек, а девочек рождалось бы больше, чем мальчиков, составила бы 50 на 50, то есть так же, как при подбрасывании монеты.
Но если предположить, что мальчики рождаются так же часто, как и девочки, и 82 года подряд наблюдается их избыток, то это все равно что 82 раза подбросить симметричную монету и каждый раз получить орла. Вероятность этого события составляет 1/282. Это очень маленькое число, с 24 нулями после запятой. Если бы мы наблюдали 82 выпадения орла в реальном эксперименте, то уверенно бы заявили, что монета нечестная. Точно так же и Арбетнот заключил, что некая сила заставляет рождаться больше мальчиков в целях компенсации повышенной смертности мужского пола: «Чтобы восстановить эти Потери, предусмотрительная Природа по промыслу мудрого Творца рождает больше Мужчин, чем Женщин; и это почти постоянное соотношение»[184].
Впоследствии данные Арбетнота не раз перепроверялись. И хотя в них могут быть ошибки подсчета и учтены только англиканские[185] обряды крещения, тем не менее его основной вывод по-прежнему верен: считается, что «естественное» соотношение полов – около 105, то есть на каждые 20 девочек рождается 21 мальчик. Название опубликованного им труда служит прямым статистическим подтверждением сверхъестественного вмешательства: «Аргумент в пользу Божественного провидения, извлеченный из постоянной регулярности, наблюдаемой при рождении обоих полов». И хотя Арбетнот тогда об этом не знал, он вошел в историю как человек, который выполнил первую проверку статистической значимости.
Пожалуй, мы подошли к самой важной части цикла решения проблем, где мы ищем ответы на конкретные вопросы о том, как устроен мир. Например:
1. Соответствует ли ежедневное число убийств в Соединенном Королевстве распределению Пуассона?
2. Изменился ли уровень безработицы в Соединенном Королевстве за последний квартал?
3. Снижает ли употребление статинов риск инфарктов и инсультов у людей вроде меня?
4. Связан ли рост матерей с ростом их сыновей, если учитывать рост отцов?
5. Существует ли бозон Хиггса?
Этот список показывает, что можно задавать самые разные вопросы – от преходящих до вечных.
1. Убийства и распределение Пуассона: общее правило, которое не представляет особого интереса для общества, но помогает ответить, произошли ли изменения в реальном уровне преступности.
2. Изменения в уровне безработицы: специфический вопрос, относящийся к конкретному времени и конкретному месту.
3. Статины: научное утверждение, но относящееся к конкретной группе.
4. Рост матерей: возможно, представляет научный интерес.
5. Бозон Хиггса: может изменить основные представления о физических законах Вселенной.
У нас есть данные, которые могут помочь ответить на некоторые из этих вопросов. Мы уже строили графики и делали какие-то неформальные заключения для подходящих статистических моделей. Однако сейчас мы подошли к составляющей этапа анализа цикла PPDAC, известной как проверка гипотез.
Гипотезу можно определить как предлагаемое объяснение явления. Это не абсолютная истина, а временное рабочее предположение, которое, возможно, лучше всего представлять как подозреваемого в уголовном деле.
При обсуждении регрессии в главе 5 мы столкнулись с утверждением, что
наблюдение = детерминистская модель + остаточная ошибка.
Оно отражает идею, что статистические модели – это математические представления наших наблюдений, где сочетаются детерминистский и стохастический компоненты. Стохастический компонент отражает непредсказуемость, или случайную «ошибку», обычно выраженную в терминах какого-нибудь вероятностного распределения. В рамках статистики гипотезой считается какое-то конкретное предположение об одном из компонентов статистической модели, носящее смысловой оттенок «рабочей версии», а не «истины».
Зачем нужно формально тестировать нулевые гипотезы?
Открытия ценятся не только учеными – восторг от обнаружения чего-то нового универсален и настолько соблазнителен, что у нас есть врожденная склонность ощущать, будто мы нашли что-то новое, даже когда на самом деле этого нет. Ранее для описания способности видеть закономерности и связи там, где их не существует, мы использовали термин апофения; даже было высказано предположение, что такая склонность обеспечивает определенное эволюционное преимущество – те наши предки, которые, заслышав шорох в кустах, тут же убегали, не дожидаясь момента, чтобы выяснить, действительно ли там тигр, выживали с большей вероятностью.
Однако такое отношение может быть приемлемым для охотников-собирателей, но не для науки, ведь когда наши утверждения остаются всего лишь плодом нашего воображения, подрывается сама суть научного процесса. Должен существовать способ защитить нас от ложных открытий, и проверка гипотез претендует на эту роль.
Центральной здесь становится идея нулевой гипотезы: это упрощенная форма статистической модели, с которой мы будем работать, пока не получим достаточное количество аргументов против нее. Для вышеуказанных вопросов нулевыми гипотезами могут быть:
1. Ежедневное количество убийств в Соединенном Королевстве имеет распределение Пуассона.
2. Уровень безработицы в Соединенном Королевстве за последний квартал не изменился.
3. Статины не уменьшают риск инфарктов и инсультов у людей вроде меня.
4. Рост матерей не влияет на рост сыновей, если учесть рост отцов.
5. Бозона Хиггса не существует.
Нулевая гипотеза – это то, что мы готовы принять, пока не докажем обратное. Она безжалостно негативна в своем отрицании прогресса и перемен. Но это не означает, что на самом деле мы верим в ее безусловную правильность: ясно, что ни одна из вышеперечисленных гипотез не может быть в точности верной (за исключением, возможно, несуществования бозона Хиггса). Поэтому мы никогда не можем заявить, что нулевая гипотеза фактически доказана. Как говорил великий британский статистик Рональд Фишер, «нулевая гипотеза в ходе экспериментов никогда не доказывается, но, возможно, опровергается. Можно сказать, что любой эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу»[186].
Весьма хороша аналогия с уголовным судопроизводством в английской правовой системе: подсудимого можно признать виновным, но никого нельзя признать невиновным просто потому, что не доказана его вина. Точно так же мы можем что-то найти, что способно опровергнуть нулевую гипотезу, но если у нас недостаточно доказательств, это вовсе не значит, что мы можем считать ее истинной. Это всего лишь рабочее предположение, пока не найдется что-нибудь получше.
Скрестите руки на груди. У вас сверху левая или правая рука? Согласно исследованиям, примерно у половины людей сверху правая рука и у половины – левая. Но связано ли это с тем, мужчина вы или женщина?
Хотя это не самый насущный научный вопрос, который я исследовал, когда преподавал в Африканском институте математических наук[187] в 2013 году, он был прекрасным упражнением для аудитории, а мне действительно хотелось узнать ответ[188]. Я получил данные по 54 аспирантам со всей Африки. Табл. 10.1 показывает общее распределение ответов по полу и положению правой или левой руки сверху. Такой тип таблицы в статистике называется таблицей сопряженности, или факторной таблицей.
Таблица 10.1
Таблица сопряженности полов и положения рук при скрещивании для 54 аспирантов
В целом большинство кладут сверху правую руку (32/54 = 59 %). Однако у женщин доля таких «праворуких» (9/14 = 64 %) выше, чем у мужчин (23/40 = 57 %): наблюдаемая разница между долями составляет 64–57 = 7 %. В этом случае нулевая гипотеза состоит в том, что между скрещиванием рук и полом нет никакой связи, а потому наблюдаемая разница в долях между полами должна равняться 0 %. Ключевой вопрос: может ли наблюдаемое отклонение в 7 % считаться достаточно большим, чтобы противостоять нулевой гипотезе?
Чтобы ответить на этот вопрос, нужно знать, какой разницы в долях мы можем ожидать просто вследствие случайного разброса при справедливости нулевой гипотезы, то есть независимости скрещивания рук и пола. Более формально: совместима ли наблюдаемая разница 7 % с нулевой гипотезой?[189]
Это сложная, но важная идея. Когда Арбетнот проверял свою нулевую гипотезу, согласно которой мальчики и девочки рождаются равновероятно, он смог легко выяснить, что наблюдаемые данные ни в малейшей степени не совместимы с нулевой гипотезой – шансы, что по чистой случайности мальчики будут численно превосходить девочек 82 года подряд, ничтожно малы. В более сложных ситуациях выяснить, совместимы ли данные с нулевой гипотезой, не так просто. Однако приведенный ниже тест перестановки отображает мощную процедуру, позволяющую избежать сложной математики.
Представьте, что все 54 человека выстроились в ряд, сначала 14 женщин, а затем 40 мужчин, и каждому присвоен номер от 1 до 54. Допустим, у каждого есть билет, указывающий, какая рука у него при скрещивании сверху – левая или правая. А теперь вообразите, что все эти билеты смешали в шляпе и раздали присутствующим наугад. Это пример того, каких результатов можно ожидать, если бы нулевая гипотеза была верна, ведь при случайной раздаче скрещивание рук и пол никак не связаны.
Но даже при случайном распределении доля «держащих сверху правую руку» не будет в точности совпадать для мужчин и женщин (просто из-за чистой случайности), и мы можем вычислить наблюдаемую разницу в долях для этой случайной раздачи билетов. Затем мы могли бы повторить процесс, скажем 1000 раз, и посмотреть, какое распределение будет у этой разницы. Результаты приведены на рис. 10.2(a): показан разброс наблюдаемых разниц – некоторые в пользу мужчин, некоторые в пользу женщин – с центром в нуле. Фактически наблюдаемая разница находится недалеко от центра распределения.
Рис. 10.2
Эмпирическое распределение разницы между долями женщин и мужчин, которые при скрещивании рук кладут сверху правую руку: (a) для 1000 случайных перестановок, (b) для всех равновероятно возможных перестановок по отношению к скрещиванию рук. Наблюдаемое различие в пропорциях (7 %) обозначено вертикальной пунктирной линией
В качестве альтернативы (при наличии времени) можно взять все возможные перестановки билетов, не ограничиваясь моделированием 1000 симуляций. Каждая перестановка даст какую-то наблюдаемую разницу в долях «праворуких» у мужчин и женщин, и, нанеся на график все результаты, мы получим более гладкое распределение, чем построенное по 1000 симуляциям.
К несчастью, таких перестановок масса, и даже если вычислять их со скоростью миллион в секунду, на это уйдет число лет с 57 нулями[190]. К счастью, нам незачем производить эти вычисления, поскольку распределение для наблюдаемой разницы в таких долях при нулевой гипотезе можно найти теоретически: оно представлено на рис. 10.2(b) и основано на так называемом гипергеометрическом распределении.
Рис. 10.2 показывает, что реально наблюдаемая разница в долях «праворуких» мужчин и женщин (7 % в пользу женщин) лежит достаточно близко к центру распределения для разниц, которых можно было бы ожидать, если бы никакой связи вообще не было. Нам нужна мера, характеризующая, насколько близко к центру лежит наблюдаемое значение, и одна из таких характеристик – это площадь хвоста распределения. Например, площадь части фигуры, расположенной справа от вертикальной пунктирной линии, составляет 0,45, или 45 %.
Это число именуется P-значением[191] и считается одним из самых полезных понятий в статистике, а потому заслуживает строгого определения: P-значение – это вероятность получить результат, по крайней мере такой же или более экстремальный, чем наблюдаемый, если нулевая гипотеза (и все другие предположения моделирования) на самом деле верна.
Но тут есть важный нюанс, что мы подразумеваем под «экстремальным» результатом? Наше P-значение 0,45 одностороннее, так как указывает, насколько вероятно получить в эксперименте не меньшую разницу в пользу только женщин, если нулевая гипотеза верна. Это P-значение используется при так называемых односторонних критериях. Но ведь большая разница в пользу мужчин тоже заставила бы нас сомневаться в справедливости нулевой гипотезы. Поэтому мы должны также вычислить вероятность получить отклонение не меньше 7 % в обоих направлениях. Так появляются двусторонние P-значения, соответствующие двусторонним критериям. Общая площадь двух частей фигуры, отдаленных от центра-нуля больше чем на 7 %, равна примерно 0,89, а поскольку это значение близко к единице, следовательно, наблюдаемое значение находится близко к центру нулевого распределения. Конечно, на рис. 10.2 это видно и так, но, учитывая, что подобные гистограммы доступны не всегда, нам нужно число, формально выражающее «экстремальность» наших данных.
Арбетнот предоставил первый зафиксированный пример такой процедуры: при нулевой гипотезе (когда девочки и мальчики рождаются с равной вероятностью) вероятность того, что 82 года подряд мальчики будут рождаться чаще девочек, равна 1/282. Но так определяется «экстремальность» только в терминах превосходства мальчиков. А поскольку мы можем сомневаться и в нулевой гипотезе, что 82 года подряд девочки будут рождаться чаще мальчиков, то должны удвоить это число, чтобы получить экстремальный результат в обоих направлениях. Поэтому число 1/282 можно считать первым установленным двусторонним P-значением, хотя этот термин появился только через 250 лет.
Кстати, моя небольшая выборка не выявила никакой связи между полом и скрещиванием рук, да и другие, более научные исследования не обнаружили взаимосвязи между поведением при скрещивании рук, полом, леворукостью и остальными признаками.
Статистическая значимость
Идея статистической значимости проста: когда P-значение достаточно мало, мы говорим, что результаты статистически значимы. Этот термин был популяризирован Рональдом Фишером в 1920-х годах и, несмотря на критику, которую мы рассмотрим позже, продолжает играть в статистике важную роль.
Рональд Фишер был незаурядным, но трудным человеком. Незаурядным потому, что его считают пионером в двух областях – генетике и статистике. А трудным, поскольку, имея весьма скверный характер, мог крайне негативно отзываться о тех, кто (по его мнению) оспаривал его идеи; к тому же его репутации сильно повредила поддержка евгеники и критика доказательств связи между курением и раком легких. И хотя его личная репутация пострадала в результате обнаружения его финансовых связей с табачной промышленностью, на научной репутации ученого это никак не сказалось, так как его идеи неизменно находят новое применение при анализе больших массивов данных.
Как упоминалось в главе 4, Фишер развил идею рандомизации для сельскохозяйственных испытаний во время работы на опытной сельскохозяйственной станции в Ротамстеде. Потом он продемонстрировал идеи рандомизации в своем знаменитом тесте с дегустацией чая, в ходе которого некая женщина (по имени Мюриэль Бристоль) заявила, что может по вкусу определить, добавляли в чашку молоко до или после чая.
В четыре чашки налили сначала чай, а затем молоко, а в четыре – сначала молоко, а потом чай. Все восемь чашек в случайном порядке выставили в ряд и сообщили Мюриэль, что здесь по четыре чашки каждого вида наливания. Говорят, она правильно определила все чашки. Если считать нулевой гипотезой то, что Мюриэль просто угадывала, то с помощью гипергеометрического распределения нетрудно показать, что вероятность этого равна 1/70 1,4 %[192]. Такое P-значение считается маленьким[193], а потому результат можно объявить статистически значимым подтверждением того, что Мюриэль не угадывала, а действительно умела различать, в какой последовательности доливали молоко.
Подводя итог, мы действуем следующим образом.
1. Ставим вопрос в терминах нулевой гипотезы, которую хотим проверить. Обычно она обозначается H0.
2. Выбираем какую-нибудь статистику критерия, которая, если ее величина будет достаточно экстремальной, позволит нам поставить под сомнение нулевую гипотезу (часто большие значения такой статистики указывают на несовместимость с нулевой гипотезой).
3. Создаем выборочное распределение этой статистики при условии, что нулевая гипотеза верна.
4. Проверяем, находится ли наблюдаемая величина в хвостах этого распределения, что определяем с помощью P-значения: какова вероятность наблюдаемого экстремального распределения в случае, если верна нулевая гипотеза. Численно эта вероятность представляет собой площадь части распределения, лежащей правее наблюдаемой величины.
5. Аккуратно подходим к определению, что такое «экстремальная» величина, – например, если с нулевой гипотезой несовместимы и большие положительные, и большие отрицательные значения статистики критерия, то P-значение должно это учитывать.
6. Объявляем результат статистически значимым, если P-значение меньше некоторой критической пороговой величины.
Рональд Фишер использовал в качестве удобных порогов значимости P < 0,05 и P < 0,01 и составил таблицы критических значений статистики критерия, которые нужно превзойти, чтобы получить такие уровни значимости. Ввиду популярности этих таблиц числа 0,05 и 0,01 стали общепринятыми, хотя сейчас рекомендуется указывать точные P-значения. Важно подчеркнуть, что точное P-значение зависит не только от истинности нулевой гипотезы, но и ото всех других допущений, лежащих в основе статистической модели, например отсутствия систематической ошибки, независимости наблюдений и так далее.
Весь этот процесс известен как проверка значимости нулевой гипотезы (NHST – Null Hypothesis Significance Testing), и, как мы увидим далее, он стал источником серьезных разногласий. Но сначала посмотрим, как идеи Фишера работают на практике.
Использование теории вероятностей
Пожалуй, самый сложный в проверке значимости нулевой гипотезы третий шаг – определение распределения выбранной статистики при нулевой гипотезе. Мы всегда можем вернуться к методам компьютерного моделирования (как с тестом перестановки для данных о скрещивании рук на груди), однако намного удобнее работать с хвостами статистического критерия непосредственно с помощью теории вероятностей, как это делали Арбетнот (в простейшем случае) и Фишер (применивший гипергеометрическое распределение в эксперименте с чашками).
Часто мы используем приближения (аппроксимации), разработанные пионерами статистики. Например, около 1900 года Карл Пирсон разработал несколько критериев для проверки зависимости для таблиц сопряженности (таких как табл. 10.1). Из этого вырос классический критерий согласия 2 (хи-квадрат).
Эти проверки включают вычисление ожидаемого числа событий, попадающих в каждую ячейку таблицы при условии справедливости нулевой гипотезы (отсутствие зависимости), после чего статистика хи-квадрат измеряет общее расхождение между наблюдаемыми и ожидаемыми значениями. В табл. 10.2 приведены ожидаемые значения в ячейках таблицы при условии нулевой гипотезы: например, ожидаемое количество женщин, кладущих сверху левую руку, равно общему числу женщин (14), умноженному на долю всех «леворуких» (22/54), и составляет 5,7.
Таблица 10.2
Наблюдаемое и ожидаемое (в скобках) число людей, кладущих сверху правую или левую руку, в зависимости от пола. Ожидаемые количества вычислены при нулевой гипотезе, согласно которой скрещивание рук не зависит от пола
Из табл. 10.2 видно, что наблюдаемое и ожидаемое число довольно близки, то есть реальные данные соответствуют тому, что мы могли бы ожидать при нулевой гипотезе. Статистика хи-квадрат – это общая мера расхождения между наблюдаемыми и ожидаемыми значениями (ее формула приводится в глоссарии), в данном случае она равна 0,02. Соответствующее P-значение (есть в таблицах или программах) составляет 0,90, что не противоречит нулевой гипотезе. Обнадеживает то, что оно фактически то же, что и «точный» критерий, основанный на гипергеометрическом распределении.
Разработка и использование статистических критериев и P-значений традиционно составляют значительную часть стандартного курса статистики и, к сожалению, обеспечивают этой области репутацию места, где в основном следует брать нужную формулу и использовать нужную таблицу. И хотя цель этой книги – сформировать более широкий взгляд на предмет, тем не менее полезно рассмотреть примеры, которые мы обсуждали, с точки зрения статистической значимости.
1. Соответствует ли ежедневное число убийств в Англии и Уэльсе распределению Пуассона?
На рис. 8.5 отображено наблюдаемое количество дней с различным числом убийств в Англии и Уэльсе за 2014–2016 годы. Всего за 1095 дней зафиксировано 1545 случаев убийства, в среднем – 1,41 в день. Если в качестве нулевой гипотезы принять, что убийства имеют распределение Пуассона со средним 1,41, то можно ожидать чисел, указанных в последнем столбце табл. 10.3. Используя тот же подход, что и для табл. 10.2, для расхождения между наблюдаемыми и ожидаемыми данными можно применить критерий согласия хи-квадрат (см. подробности в глоссарии).
Таблица 10.3
Наблюдаемое и ожидаемое количество дней с определенным числом случаев убийства в Англии и Уэльсе с апреля 2014 по март 2016 года. Критерий согласия хи-квадрат дает P-значение 0,96, что указывает на отсутствие расхождений с нулевой гипотезой о распределении Пуассона
Наблюдаемое P-значение 0,96 не значимо, поэтому нет оснований отклонять нулевую гипотезу (на самом деле согласие настолько хорошее, что это почти подозрительно). Конечно, нам не стоит предполагать, что нулевая гипотеза однозначно истинна, но было бы разумно использовать ее в качестве исходного предположения, например, при оценке изменения уровня убийств, описанного в главе 9.
2. Изменился ли уровень безработицы в Великобритании в недавнем прошлом?
В главе 7 мы показали, что квартальное изменение уровня безработицы на 3000 имело погрешность ±77 000 (то есть ±2 стандартные ошибки). Это означает, что 95-процентный доверительный интервал простирается от – 80 000 до +74 000 и явносодержит 0, соответствующий отсутствию изменения уровня безработицы. Но то, что 95-процентный доверительный интервал включает 0, логически эквивалентно тому, что оценка –3000 отклоняется от 0 меньше чем на 2 стандартные ошибки, а значит, такое изменение не отличается значимо от 0.
Это обнаруживает принципиальное сходство между проверкой гипотез и доверительными интервалами:
• двустороннее P-значение меньше 0,05, если 95-процентный доверительный интервал не включает нулевую гипотезу (обычно 0);
• 95-процентный доверительный интервал – это набор нулевых гипотез, которые не отвергаются при P < 0,05.
Эта тесная связь между проверкой гипотез и доверительными интервалами должна помешать людям неправильно интерпретировать результаты, которые статистически значимо не отличаются от 0, – это означает не то, что нулевая гипотеза действительно верна, а то, что доверительный интервал для истинного значения содержит 0. К сожалению, как мы увидим далее, этот урок часто игнорируется.
3. Снижает ли употребление статинов риск инфарктов и инсультов у людей вроде меня?
Табл. 10.4 воспроизводит результаты исследования по защите сердца (HPS), ранее представленные в табл. 4.1, но с добавлением столбцов, демонстрирующих степень уверенности в улучшении показателей. Между стандартными ошибками, доверительными интервалами и P-значениями существует тесная связь. Доверительные интервалы для снижения риска – это, грубо говоря, оценка ±2 стандартные ошибки (обратите внимание, что в исследовании по защите сердца относительные уменьшения округляются до целых чисел). Доверительные интервалы легко исключают нулевую гипотезу 0 %, соответствующую отсутствию воздействия статина, а P-значения ничтожно малы – фактически P-значение для 27 % снижения риска инфаркта составляет 1 на 3 миллиона. Это следствие масштабности исследования.
Таблица 10.4
Результаты исследования по защите сердца, показывающие оцениваемые относительные эффекты, их стандартные ошибки, доверительные интервалы и P-значения при проверке нулевой гипотезы «эффект приема отсутствует»
Можно использовать и другие статистики, например разницу в абсолютных рисках, но все они должны давать близкие P-значения. Специалисты, проводившие HPS, сосредоточились на пропорциональном снижении, поскольку оно почти постоянно в отдельных подгруппах и поэтому обеспечивает хорошую единую меру. Существует несколько способов расчета доверительных интервалов, но они дают лишь небольшие расхождения.
4. Связан ли рост матерей с ростом их сыновей, если учитывать рост отцов?
В главе 5 мы продемонстрировали множественную линейную регрессию, с ростом сыновей в качестве зависимой переменной (переменной отклика) и ростом отца и матери в качестве независимых (объясняющих) переменных. Коэффициенты регрессии приведены в табл. 5.3, но без указания, можно ли их считать значимо отличными от 0. Чтобы проиллюстрировать, как эти результаты появляются в статистических программах, табл. 10.5 воспроизводит результаты работы популярной (бесплатной) программы R.
Таблица 10.5
Выдаваемый программой R результат для множественной линейной регрессии по данным Гальтона. Переменная отклика – рост сыновей, объясняющие переменные – рост матерей и отцов; t-значение – это оценка, деленная на стандартную ошибку. Столбец Pr(> |t|) представляет двустороннее P-значение; вероятность получения какого-то большего t-значения (положительного или отрицательного) при нулевой гипотезе, что истинное значение 0. Обозначение «2 e – 16» означает, что P-значение меньше 0,0000000000000002 (то есть 15 нулей). Под таблицей дана расшифровка звездочек в терминах P-значений
Обозначения уровня значимости: ***= 0,001 **= 0,01 *= 0,05
Как и в табл. 5.3, отсекаемый отрезок – это средний рост сыновей, а коэффициенты (в столбце оценок) – ожидаемое изменение роста при отклонении роста матери и отца на один дюйм от среднего роста матерей и отцов. Стандартная ошибка рассчитывается по известной формуле и явно мала по сравнению с величиной коэффициентов.
Основное внимание сосредоточено на t-значении, также известном как t-статистика, поскольку именно оно указывает на то, можно ли считать связь между объясняющей переменной и переменной отклика статистически значимой. Это частный случай так называемого t-критерия Стьюдента. Стьюдент – псевдоним Уильяма Госсета, разработавшего этот метод в 1908 году для оценки качества пива пивоваренной компании «Гиннесс», которая хотела сохранить анонимность своих сотрудников. Для получения t-значения оценка делится на стандартную ошибку (это можно проверить для чисел в табл. 10.5), поэтому его можно интерпретировать как отклонение оценки от нуля, выраженное в стандартных ошибках. Учитывая t-значение и размер выборки, программа может выдать точное P-значение; для больших выборок t-значения больше 2 или меньше –2 соответствуют P < 0,05, хотя для меньших размеров выборок эти пороговые значения будут больше. Программа R использует простую систему звездочек для P-значений – от одной, означающей P < 0,05, до трех, означающих P < 0,001. В табл. 10.5 t-значения настолько велики, что P-значения исчезающе малы.
В главе 6 мы показали, что алгоритм может выиграть конкурс прогнозов с очень незначительным преимуществом. Например, при прогнозе выживания для тестового набора данных о «Титанике» простое дерево классификации дало наилучший показатель Бриера (среднеквадратичная ошибка прогноза) 0,139, что лишь чуть-чуть отличается от величины 0,142 у усредненной нейронной сети (см. табл. 6.4). Вполне резонно спросить, действительно ли эта крохотная разница –0,003 статистически значима или все можно объяснить случайными отклонениями?
Это несложно проверить, t-статистика составляет –0,54, а двустороннее P-значение равно 0,59[194]. Поэтому достаточно веских оснований для утверждений, что дерево классификации – наилучший алгоритм, нет! Для конкурсов вроде устраиваемых Kaggle подобный анализ не считается тривиальным, но важно помнить, что статус победителя зависит от выбора тестового набора.
Исследователи тратят свои жизни на тщательное изучение результатов работы компьютерных программ наподобие представленных в табл. 10.5 в надежде увидеть мерцающие звезды, указывающие на существенный результат, который они могут получить и затем включить в следующую научную статью. Но, как мы видим, такой навязчивый поиск статистической значимости довольно легко приводит к заблуждениям.
Опасность выполнения нескольких проверок на значимость
Стандартные пороговые значения для «значимости» P < 0,05 и P < 0,01 Рональд Фишер выбрал для своих таблиц весьма произвольно, поскольку в те времена вычислять точные P-значения без механических и электрических калькуляторов было невозможно. Но что произойдет, если провести много проверок на значимость, каждый раз наблюдая, не превышает ли наше P-значение величину 0,05?
Предположим, что лекарство на самом деле не помогает, тогда нулевая гипотеза истинна. Проведя одно клиническое испытание, мы назовем результат статистически значимым, если P-значение меньше 0,05. Поскольку препарат неэффективен, такая вероятность составляет 0,05, или 5 %, что, собственно, и есть определением P-значения. Это будет считаться ложноположительным результатом, так как мы (неправильно) решим, что лекарство помогает. Если мы проведем два испытания и посмотрим на результаты, то вероятность получить хотя бы один значимый, то есть ложноположительный, результат близка к 0,10, или 10 %[195]. При увеличении количества испытаний шансы на получение хотя бы одного ложноположительного результата быстро растут: если провести десять испытаний бесполезных препаратов, вероятность получить хотя бы один значимый результат при P < 0,05 достигает 40 %. Такая ситуация известна как проблема множественной проверки гипотез, она возникает всякий раз, когда проверок выполняется много, а сообщается о самом значимом результате.
Еще одна проблема возникает, когда исследователи делят данные на много подклассов, проверяют гипотезу на каждом из них, а затем рассматривают самые значимые результаты. Классический пример – эксперимент, проведенный авторитетными исследователями в 2009 году, в котором испытуемому показывали серию фотографий людей с различными эмоциями на лице и проводили сканирование мозга (функциональную магнитно-резонансную томографию, фМРТ), чтобы посмотреть, какая его зона даст значимый отклик, приняв P < 0,001.
Изюминка заключалась в том, что «испытуемым» был двухкилограммовый атлантический лосось, который «не был жив на момент сканирования». Из 8064 участков мозга этой крупной мертвой рыбины 16 продемонстрировали статистически значимый отклик на фотографии. Ученые не стали утверждать, что мертвый лосось обладает уникальными умениями, а сделали верный вывод[196], что проблема в многократном тестировании – более 8 тысяч проверок обязательно приведут к ложноположительному результату[197]. Даже при строгом критерии P < 0,001 мы бы ожидали 8 значимых результатов по чистой случайности.
Один из способов обойти эту проблему – потребовать очень маленькое P-значение для уровня значимости, и здесь проще всего применить поправку Бонферрони[198], то есть использовать пороговое значение 0,05/n, где n – число проведенных тестов. Таким образом, проверки для каждого участка мозга лосося можно выполнять, требуя P-значение, равное 0,05/8000 = 0,00000625, или 1 на 160 000. Этот метод стал стандартным при поиске в геноме человека участков, связанных с болезнями: поскольку существует примерно 1 000 000 участков для генов, прежде чем заявлять об открытии, положено потребовать значение P меньше 0,05/1000000 = 1 на 20 миллионов.
Таким образом, при одновременной проверке большого количества гипотез (например, в области исследований мозга или геномике) метод Бонферрони позволяет решать, значимы ли наиболее экстремальные результаты. Также разработаны несложные методы, слегка смягчающие критерий Бонферрони для второго по экстремальности результата, третьего и так далее. Так контролируется общая доля «открытий», которые оказываются ложными, – так называемый уровень ложноположительных результатов.
Еще один способ избежать ложноположительных результатов – потребовать воспроизведения первоначального исследования, с проведением повторного эксперимента в других условиях, но с тем же протоколом. Чтобы американское Управление по санитарному надзору за качеством пищевых продуктов и медикаментов одобрило новый препарат, необходимо провести два независимых клинических испытания, причем в каждом должна быть показана клиническая польза с уровнем значимости P < 0,05. Это означает, что вероятность одобрить неэффективный препарат составляет всего 0,05 0,05 = 0,0025, или 1 на 400.
5. Существует ли бозон Хиггса?
На протяжении XX века физики разрабатывали стандартную модель, предназначенную для объяснения сил, действующих на субатомном уровне. Но одна часть модели оставалась недоказанной теорией – «поле Хиггса», которое объясняет наличие масс у частиц-переносчиков слабого взаимодействия. Квантом такого поля должна была стать гипотетическая частица – так называемый бозон Хиггса. В 2012 году исследователи из ЦЕРН[199] заявили о его открытии, как о результате «пять сигма»[200]. Однако мало кто понимал, что это показывало уровень статистической значимости.
Когда ученые построили график появления определенных событий для различных уровней энергии, оказалось, что кривая имеет четко выраженный «горб» именно в том месте, где его и следовало ожидать, если бы бозон Хиггса существовал. Важно то, что критерий согласия хи-квадрат дает P-значение меньше 1 на 3,5 миллиона при нулевой гипотезе, что бозона Хиггса не существует и горб был просто результатом случайного отклонения. Но почему об открытии сообщалось как о «пяти сигма»?
В теоретической физике стандартом считается объявление об открытии в терминах «сигм», где результат «два сигма» означает наблюдение, которое на две стандартные ошибки отклонилось от нулевой гипотезы (вспомните, что мы использовали греческую букву сигма () для обозначения среднеквадратичного отклонения в генеральной совокупности): «сигмы» в теоретической физике точно соответствуют t-значению в результатах работы компьютерной программы для множественной линейной регрессии, показанных в табл. 10.5. Наблюдение, которое в соответствии с критерием хи-квадрат давало двустороннее P-значение 1 на 3,5 миллиона, отличалось бы от нулевой гипотезы на пять стандартных ошибок. Поэтому об открытии бозона Хиггса объявили как о результате уровня пять сигма.
Команда из ЦЕРН не хотела объявлять о своем «открытии» до тех пор, пока P-значение не стало крайне малым. Во-первых, им нужно было учесть тот факт, что проверки значимости выполнялись для всех уровней энергии, а не только однократно в итоговой проверке по методу хи-квадрат – в физике такой эффект при многократном тестировании известен как Look-elsewhere effect[201]. Во-вторых, они хотели быть уверены, что любая попытка воспроизвести результат даст тот же вывод. Было бы слишком неловко делать ложные заявления о законах физики.
Что касается ответа на вопрос, поставленный в начале этого раздела, то сейчас разумнее предположить, что бозон Хиггса существует. Это утверждение становится новой нулевой гипотезой, пока, возможно, не появится более глубокая теория.
Теория Неймана – Пирсона
Почему для исследования по защите сердца понадобилось больше 20 тысяч участников?
Исследование по защите сердца было масштабным, но его размер не определялся произвольным образом. При планировании испытания исследователи должны были указать, сколько людей нужно включить в группу, употребляющую статины или плацебо, причем требовалось серьезное статистическое обоснование, чтобы оправдать стоимость такого эксперимента. План опирался на идеи, развитые Ежи Нейманом и Эгоном Пирсоном, которых мы уже упоминали как разработчиков понятия доверительных интервалов.
Идею P-значений и проверок значимости Рональд Фишер внедрил в 1920-х годах как способ проверки разумности какой-то конкретной гипотезы. Если наблюдается маленькое P-значение, то либо случилось нечто удивительное, либо нулевая гипотеза ложна: чем меньше P-значение, тем обоснованнее утверждение, что она неверна. Эта методика задумывалась как довольно неформальная процедура, но разработанная Нейманом и Пирсоном в 1930-х теория индуктивного поведения попыталась поставить ее на более строгий математический фундамент.
Конструкция ученых требовала указывать не только нулевую, но и альтернативную гипотезу, которая предоставляла более сложное объяснение данных. Затем они рассматривали возможные решения после проверки – либо отвергнуть нулевую гипотезу в пользу альтернативы, либо не отвергать[202]. Это приводило к вероятности появления двух видов ошибок – ошибки первого рода, возникающей, когда мы отклоняем истинную нулевую гипотезу, и ошибки второго рода – когда принимаем неверную нулевую гипотезу. Строгая юридическая аналогия проиллюстрироваа в табл. 10.6: ошибка первого рода – это осудить невиновного человека, а ошибка второго рода – признать кого-то невиновным, тогда как на самом деле он совершил преступление.
Таблица 10.6
Возможные результаты проверки гипотезы, по аналогии с судебным разбирательством
Нейман и Пирсон предложили при планировании эксперимента выбирать две величины, которые вместе определяют, насколько масштабным он должен быть. Во-первых, следует заранее зафиксировать значение для вероятности ошибки первого рода (при условии, что нулевая гипотеза верна), скажем 0,05; это называется размером критерия и, как правило, обозначается буквой (альфа). Во-вторых, нужно заранее определить вероятность ошибки второго рода (при условии, что альтернативная гипотеза верна); она традиционно обозначается (бета). На самом деле исследователи обычно работают с величиной 1 – , которая именуется мощностью критерия и представляет собой вероятность отклонить нулевую гипотезу в пользу альтернативной, когда последняя верна. Другими словами, мощность в каком-нибудь эксперименте – это вероятность, что будет правильно обнаружен реальный эффект.
Налицо тесная связь между размером и P-значением Фишера. Если в качестве пороговой величины, при которой результаты считаются значимыми, взять число , то результаты, которые заставят нас отказаться от нулевой гипотезы, будут в точности теми же, для которых P < . Поэтому можно рассматривать как пороговый уровень значимости: = 0,05 означает, что мы отвергнем нулевую гипотезу для всех P-значений меньше 0,05.
Существуют формулы для размера и мощности при различных видах экспериментов, и каждая зависит от размера выборки. Но если у выборки фиксированный размер, то компромисс неизбежен: чтобы увеличить мощность, мы можем ослабить порог для «значимости» и тем самым с большей вероятностью идентифицировать истинный эффект, однако это означает увеличение вероятности ошибки первого рода (размера). В юридической аналогии мы можем ослабить критерии для осуждения (например, снизив требования для стандарта доказывания «вне разумных сомнений»), что в результате приведет к большему количеству правильно осужденных преступников, но, увы, и к большему количеству невинно осужденных.
Теория Неймана – Пирсона берет начало в процессах контроля качества на производстве, но в настоящее время широко используется при проверке новых методов лечения. Перед началом рандомизированного клинического исследования в протоколе указывается нулевая (лечение неэффективно) и альтернативная (как правило, эффект одновременно правдоподобен и важен) гипотезы. Затем исследователи устанавливают размер и мощность критерия, нередко выбирая = 0,05 и 1 – = 0,80. Это означает, что для объявления результата значимым организаторы эксперимента требуют, чтобы P-значение было меньше 0,05, и с 80-процентной вероятностью достигнут этого, если лечение на самом деле эффективно. Вместе эти два числа позволяют оценить необходимое количество участников эксперимента.
Если исследователи хотят провести какое-то определяющее клиническое испытание, им нужно быть строже. Например, исследование по защите сердца пришло к выводу, что
если холестериноснижающая терапия за 5 лет сокращает смертность от сердечно-сосудистых заболеваний примерно на 25 %, а смертность от всех причин – на 15 %, то исследование именно такого размера имеет прекрасные шансы для демонстрации подобных эффектов на убедительных уровнях статистической значимости (то есть мощность > 90 %, p < 0,01).
Другими словами, если истинный эффект лечения составляет 25-процентное снижение смертности от сердечно-сосудистых заболеваний и 15-процентное – от всех причин (альтернативные гипотезы), то исследование имеет мощность примерно 90 %, а размер = 1 %. Такие требования диктуют размер выборки свыше 20 000. Фактически, как показывает табл. 10.4, итоговые результаты дают 13-процентное уменьшение смертности от всех причин, что весьма близко к тому, что планировалось.
Идея о необходимости достаточно большой выборки для выявления правдоподобной альтернативной гипотезы прочно укоренилась при планировании медицинских испытаний. Однако исследования в психологии и нейробиологии часто используют размер выборок, определяемый удобством или традицией, и он может ограничиваться всего 20 объектами для каждого исследуемого состояния. В слишком маленьких исследованиях верные и интересные альтернативные гипотезы можно просто пропустить, поэтому сейчас наконец признали, что и в других областях исследований нужно задуматься о мощности проводимых экспериментов.
Как мы увидим в следующей главе, Нейман и Пирсон вели яростные, порой оскорбительные споры с Фишером по поводу правильного метода проверки гипотез, и этот конфликт так и не разрешился принятием какого-то единого «правильного» подхода. Как показывает исследование по защите сердца, клинические испытания, как правило, разрабатываются по теории Неймана – Пирсона, однако, строго говоря, размер и мощность не имеют значения, когда эксперимент уже фактически проведен. В этот момент испытания анализируются с помощью доверительных интервалов, демонстрирующих правдоподобные значения для эффектов лечения, а фишеровские P-значения показывают степень свидетельств против нулевой гипотезы. Таким образом, некая странная смесь идей Фишера и Неймана – Пирсона оказалась на удивление эффективной.
Можно ли было поймать Гарольда Шипмана раньше?
Из введения мы узнали, что доктор Гарольд Шипман за двадцать лет убил более двухсот пациентов, прежде чем был разоблачен. Семьи его жертв, естественно, очень взволновало то, что ему удавалось так долго совершать преступления, не вызывая подозрений, поэтому последовавшее общественное расследование должно было установить, существовал ли шанс заподозрить его раньше. До начала расследования подсчитали количество свидетельств о смерти, подписанных Шипманом для его пациентов с 1977 года, а затем сравнили это число с тем, которого можно было бы ожидать, исходя из возраста всех пациентов Шипмана и уровней смертности у других врачей, практикующих в данном районе. При проведении таких сравнений учитываются местные условия, например изменения температуры воздуха или вспышки гриппа. На рис. 10.3 представлены результаты, полученные путем вычитания ожидаемого количества из наблюдаемого числа свидетельств о смерти, выданных Шипманом с 1977 года до своего ареста в 1998 году. Эту разницу можно называть его «избыточной» смертностью.
Рис. 10.3
Совокупное количество свидетельств о смерти, подписанных Шипманом для пациентов 65 лет и старше, с вычетом числа ожидаемых смертей (с учетом возраста пациентов)
К 1998 году его избыточная смертность для людей в возрасте 65 лет и старше составила 174 женщины и 49 мужчин. Это почти точное количество пожилых людей, которые в ходе расследования были признаны его жертвами, что показывает поразительную точность этого чисто статистического анализа, куда не входили сведения о конкретных случаях[203].
Предположим, в какой-то вымышленной истории некто год за годом отслеживал смерти пациентов Шипмана и производил вычисления, необходимые для составления рис. 10.3. В какой момент ему следовало бить тревогу? Например, такой человек мог бы проводить проверку значимости в конце каждого года. У большого количества людей малая вероятность такого события, как смерть, поэтому можно считать, что количество смертей, подобно количеству убийств, имеет распределение Пуассона, а значит, нулевая гипотеза будет состоять в том, что совокупное число наблюдаемых смертей соответствует распределению Пуассона со средним значением, которое определяется числом ожидаемых смертей.
Если бы это было сделано с общим числом смертей для мужчин и женщин, которые показаны на рис. 10.3, то уже в 1979 году то есть всего через три года наблюдений, появилось бы одностороннее P-значение 0,004, отражающее разницу между наблюдаемыми 40 смертями и ожидаемыми 25,3[204]. Результаты могли бы быть объявлены статистически значимыми, и Шипман был бы разоблачен.
Однако существуют две причины, по которым такая статистическая процедура была бы крайне неуместна для отслеживания уровня смертности пациентов у врачей общей практики. Во-первых, если у нас нет веской причины подозревать именно Шипмана и наблюдать только за ним, то нам придется вычислять P-значения для всех семейных врачей в Соединенном Королевстве, а на тот момент их было около 25 тысяч. Но по примеру с мертвым лососем мы знаем, что при проведении достаточно большого количества проверок мы обязательно получим ложные сигналы. Если при пороге 0,05 протестировать 25 тысяч врачей, то каждый двадцатый из совершенно невинных докторов (то есть 1300 человек) покажет «статистически высокий уровень» при каждой проведенной проверке, а значит, в отношении него нужно вести расследование, что абсолютно абсурдно. А вот Шипман, наоборот, имел шанс потеряться среди всех этих ложноположительных случаев.
Альтернативой может считаться метод Бонферрони, то есть требование, чтобы P-значение равнялось 0,05/25 000, или 1 на 500 000. В этом случае Шипман был бы пойман в 1984 году, когда при ожидаемом количестве 59,2 у него было 105 смертей, то есть на 46 больше.
Но даже это не будет надежной процедурой для всех врачей в стране. Вторая проблема заключается в проведении повторных проверок на значимость, поскольку ежегодно добавляются новые данные и производится очередная проверка. Существует один замечательный, но сложный теоретический результат, именуемый очаровательным термином «закон повторного логарифма», который показывает, что, выполняя такое повторное тестирование, даже при справедливости нулевой гипотезы, мы определенно отвергнем ее при любом выбранном уровне значимости.
Это настораживает, потому что означает, что при долгосрочной проверке какого-нибудь доктора в итоге мы гарантированно посчитаем, что нашли доказательства избыточной смертности, хотя в реальности его пациенты не подвергаются никакому излишнему риску. К счастью, существуют статистические методы для решения проблемы последовательного тестирования, изначально разработанные во время Второй мировой войны группой статистиков, которая не имела ничего общего со здравоохранением, а трудилась над задачами контроля качества при производстве вооружения и других военных материалов.
Изделия, сходящие с производственной линии, проверяли на соответствие стандарту, а весь процесс контролировался посредством постепенно накапливавшегося общего количества отклонений от стандарта – ровно так же, как при отслеживании избыточной смертности. Ученые поняли, что из закона повторного логарифма следует, что повторное тестирование всегда приводит к предупреждению, что промышленный процесс вышел из-под контроля, даже если на самом деле все функционирует нормально. Независимо друг от друга статистики из США и Соединенного Королевства разработали метод, известный как последовательный критерий отношения вероятностей (ПКОВ), представляющий собой статистику, которая отслеживает накапливающуюся информацию об отклонениях и может быть в любой момент сопоставлена с простыми пороговыми значениями. Как только один из этих порогов преодолевается, срабатывает сигнал тревоги и производственная линия исследуется[205]. Эти методы позволили создать более эффективные промышленные процессы, а позже были адаптированы к использованию в так называемых последовательных клинических испытаниях, при которых накапливаемые результаты регулярно отслеживаются, чтобы понять, не пересечен ли порог, указывающий на полезное лечение.
Я был одним из команды разработчиков варианта ПКОВ, который можно применить к данным о Шипмане. Рис. 10.4 отображает картину для мужчин и женщин в случае, когда в качестве альтернативной гипотезы выступает предположение, что смертность у Шипмана вдвое больше, чем у его коллег. У этого критерия есть пороговые значения, которые контролируют вероятность ошибки первого (альфа) и второго (бета) рода для значений 1 из 100, 1 из 10 000 и 1 из 1 000 000: ошибка первого рода – это общая вероятность того, что статистика пересечет пороговое значение в какой-нибудь точке, если бы у Шипмана был ожидаемый уровень смертности, а ошибка второго рода – общая вероятность статистики не пересечь пороговое значение в какой-нибудь точке, если бы у Шипмана был удвоенный ожидаемый уровень смертности[206].
Рис. 10.4
Статистика для последовательного критерия отношения вероятностей (ПКОВ) для обнаружения удвоения риска смертности: пациенты в возрасте >64 лет, умершие дома / на приеме. Прямые линии отображают пороговые значения «сигнала тревоги» для показанных общих величин ошибок первого (альфа) и второго (бета) рода – предполагается, что они совпадают. Если смотреть на линию для женщин, видно, что Шипман пересек бы внешний порог в 1985 году
Поскольку насчитывается около 25 тысяч семейных врачей, разумно взять пороговое P-значение 0,05/25 000, или 1 на 500 000. Для одних только женщин Шипман преодолел бы более строгий порог = 0,000001, или 1 на миллион, в 1985 году, а суммарно для женщин и мужчин – в 1984-м. Поэтому последовательный критерий забил бы тревогу в тот же момент, что и примитивный повторяемый тест значимости.
Мы пришли к выводу, что если бы кто-то занимался таким отслеживанием и на Шипмана в 1984 году завели бы уголовное дело и осудили, то тем самым спасли бы примерно 175 жизней. И все исключительно с помощью применения простой процедуры статистического мониторинга.
После этого была запущена система наблюдения для врачей, которая немедленно выявила врача с еще более высоким уровнем смертности, чем у Шипмана! Расследование показало, что он работал в городке на южном побережье, где было много домов престарелых и множество стариков, и сознательно помогал многим пациентам оставаться дома до смерти, не настаивая на госпитализации в последние дни жизни. Было бы несправедливо осуждать этого доктора за выдачу большого числа свидетельств о смерти. Урок заключается в том, что, хотя статистические системы способны обнаружить выбросы, они не могут предложить их объяснения, поэтому нужно тщательно разбираться в каждом из них, чтобы избежать ложных обвинений. Еще одна причина быть осторожными с алгоритмами.
Что может быть не так с P-значениями?
Рональд Фишер развил идею P-значения как меры совместимости данных с какой-то предварительно сформулированной гипотезой. Таким образом, если вы вычислите P-значение и оно будет маленьким, это означает, что если ваша гипотеза верна, а значение статистики получилось крайне большим или малым, то это маловероятно; стало быть, либо произошло нечто удивительное, либо ваша исходная гипотеза неверна. Такая логика довольно запутанна, но мы видели, насколько полезной может быть эта базовая идея. Так что же может пойти не так?
Оказывается, многое. Фишер описывал ситуации, как в первых примерах этой главы, – с одним набором данных, одной характеристикой результата и одной проверкой совместимости. Но за последние несколько десятилетий P-значения существенно распространились в научной литературе – одно исследование насчитало 30 тысяч t-статистик и соответствующих P-значений всего лишь за три года публикации в восемнадцати журналах по психологии и нейробиологии[207].
Итак, давайте посмотрим, что можно ожидать при, скажем, 1000 исследований, каждое с размером 5 % () и мощностью 80 % (1 – ), хотя заметим, что на практике у большинства исследований мощность значительно ниже 80 %. Да, в реальном мире эксперименты проводятся в надежде сделать открытие, тем не менее нужно признать, что большинство нулевы гипотез верны (хотя бы приблизительно). Итак, предположим, что только 10 % проверенных нулевых гипотез на самом деле ложны: при испытаниях новых препаратов даже это число, вероятно, завышено – процент успехов здесь весьма низкий. Тогда, аналогично описанной в главе 8 схеме, рис. 10.5 показывает, чего мы можем ожидать при 1000 исследований.
Рис. 10.5
Ожидаемые количества для результатов 1000 проверок гипотез с размером 5 % (вероятность ошибки первого рода, ) и мощностью 80 % (1 – , при вероятности ошибки второго рода ). Только 10 % (100) нулевых гипотез ложны, и мы правильно обнаружим 80 % из них (80). Из 900 нулевых гипотез, которые истинны, мы неправильно отвергнем 5 % (45). В целом из 125 «открытий» ложными окажутся 36 % (45)
Получается, что можно ожидать заявления о 125 «открытиях», из которых 45 ложноположительные: иными словами, 36 % (больше трети) отклоненных нулевых гипотез («открытий») – это ложные утверждения. Столь мрачная картина усугубляется еще сильнее, если учесть, что на самом деле происходит в научной литературе, ориентированной на публикацию положительных результатов. После проведения аналогичного анализа Джон Иоаннидис, профессор школы медицины Стэнфордского университета, сделал в 2005 году свое знаменитое заявление, что «большинство публикуемых результатов исследований ложны»[208]. Мы вернемся к причинам его столь печального заключения в главе 12.
Поскольку все эти ложные открытия основаны на P-значениях, указывающих на «значимый» результат, в потоке неверных научных выводов все чаще стали винить именно их. В 2015 году один авторитетный журнал по психологии даже объявил, что запретит проверку значимости нулевой гипотезы. Наконец, в 2016 году Американской статистической ассоциации (ASA) удалось согласовать с группой статистиков шесть принципов, касающихся P-значений.
Первый принцип просто описывает, что могут делать P-значения.
1. P-значения могут указывать на то, насколько несовместимы данные с конкретной статистической моделью.
Как мы не раз видели, P-значения делают это, по сути, измеряя, насколько удивительны имеющиеся данные, при условии нулевой гипотезы, что чего-то не существует. Например, мы спрашиваем, насколько несовместимы данные с утверждением, что лекарство не работает? Такая логика может быть изощренной, но полезной.
Второй принцип помогает исправить ошибки в интерпретации P-значений.
2. P-значения не измеряют вероятность того, что изучаемая гипотеза верна или что данные получены исключительно по случайности.
В главе 8 мы очень внимательно различали соответствующие утверждения об условных вероятностях, такие как «только 10 % женщин без рака молочной железы имеют положительную маммограмму» и (ложное) «только у 10 % женщин с положительной маммограммой нет рака молочной железы». Эта ошибка известна как «ошибка прокурора», и мы видели, что есть аккуратные способы ее исправить, представив, чего можно ожидать для 1000 тестируемых женщин.
Аналогичные проблемы могут возникать с P-значениями, которые измеряют вероятность появления таких экстремальных данных при условии, что нулевая гипотеза верна, но не измеряют вероятность того, что нулевая гипотеза верна, при наличии таких данных. Это тонкое, но существенное различие.
Когда команда ЦЕРН сообщила о результате «пять сигма» для бозона Хиггса, что соответствует P-значению примерно 1 на 3,5 миллиона, «Би-би-си» правильно это интерпретировала, сказав, что это означает «вероятность примерно 1 на 3,5 миллиона, что такой сигнал появился бы при отсутствии частицы Хиггса». Однако почти во всех остальных источниках это P-значение истолковали неверно. Например, журнал Forbes писал: «Шансы на то, что это не бозон Хиггса, составляют меньше одной миллионной» – яркий пример ошибки прокурора. Типичной реакцией был текст в газете The Independent: «Вероятность, что их результат – статистическая случайность, составляет меньше одной миллионной». Это, возможно, не так явно вводит в заблуждение, как у Forbes, но все равно приписывает малую вероятность тому, что «их результат – статистическая случайность», что, по логике, то же самое, что сказать о вероятности проверяемой нулевой гипотезы. Вот почему ASA пытается подчеркнуть, что P-значение – это не «вероятность того, что данные получены исключительно случайно».
Третий принцип ASA пытается противостоять одержимости статистической значимостью.
3. Научные заключения и процесс принятия решений не должны основываться только на том, переходит ли P-значение определенный порог.
Когда Рональд Фишер начал публиковать таблицы со значениями статистик, которые соответствовали результатам P < 0,05 или P < 0,01, он вряд ли представлял, что такие довольно произвольные значения станут доминировать в научных публикациях, причем все результаты будут стремиться поделить на «значимые» и «незначимые». Отсюда уже недалеко и до того, чтобы расценивать «значимые» результаты как доказанные открытия, что создает крайне упрощенный и опасный прецедент перехода от данных прямо к заключениям – без паузы на размышление.
Губительное следствие такой дихотомии – неправильное толкование «незначимого». Незначимое P-значение подразумевает, что данные совместимы с нулевой гипотезой, но это не говорит о том, что нулевая гипотеза определенно верна. В конце концов, отсутствие прямых доказательств пребывания преступника на месте преступления еще не означает, что он невиновен. Но эта ошибка на удивление распространена.
Рассмотрим крупный научный спор о пользе алкоголя, скажем одной порции[209] в день. Как показало одно исследование, умеренное потребление алкоголя полезно только пожилым женщинам, однако тщательная проверка выявила и другие группы населения, извлекшие из него пользу, но она не была статистически значимой, поскольку доверительные интервалы вокруг оценки предполагаемой выгоды в этих группах были очень широкими. Хотя доверительные интервалы включали 0 (и потому эффект не был статистически значим), данные полностью согласовывались с высказанным ранее предположением о 10–20-процентном снижении риска смертности. Между тем The Times провозгласила, что «алкоголь не приносит никакой пользы здоровью»[210].
Подытоживая, можно сказать, что крайне неправильно интерпретировать выражение «незначимо отличается от 0» как означающее, что реальный эффект действительно равен 0, особенно в небольших исследованиях с низкой мощностью и широкими доверительными интервалами.
