Искусство статистики. Как находить ответы в данных Шпигельхалтер Дэвид
Делает ли вас прослушивание песни «Битлз» When I’m Sixty-Four моложе?
Вы можете быть вполне уверены в правильном ответе на этот вопрос. Что делает его еще более впечатляющим, учитывая, что Симонсон с коллегами ухитрились (нужно признать, довольно мудреными средствами) получить существенный положительный результат[252].
Студенты Пенсильванского университета, распределенные случайным образом, слушали композиции When I’m Sixty-Four группы «Битлз», или Kalimba, или Hot Potato группы The Wiggles. Затем испытуемых спрашивали, когда они родились, на сколько лет себя ощущают и еще задавали несколько абсолютно не относящихся к делу вопросов[253].
Симонсон с коллегами постоянно анализировали эти данные всеми способами, до которых смогли додуматься, и продолжали набирать участников, пока не обнаружили некоторую значимую связь. Это случилось после 34 испытуемых, и хотя между их возрастом и записями, которые они слушали, не было выявлено никакой связи, при сравнении только When I’m Sixty-Four и Kalimba удалось получить P < 0,05 в регрессии, учитывавшей возраст отца. Естественно, исследователи сообщили только о значимом результате, не упомянув о бесчисленном количестве манипуляций и избирательной отчетности – все это было раскрыто только в конце статьи, которая стала классической преднамеренной демонстрацией практики, получившей название «харкинг» – выдвижение гипотез после того, как известны результаты[254].
Сколько людей на самом деле участвуют в сомнительных исследовательских практиках?
В опросе 2155 американских психологов, проведенном в 2012 году[255], только 2 % признались в фальсификации данных. Но когда им задавали вопросы по списку, состоящему из десяти сомнительных исследовательских практик:
• 35 % сказали, что сообщили о неожиданном результате, как будто прогнозировали его изначально;
• 58 % признались, что продолжили собирать данные после проверки значимости полученных результатов;
• 67 % заявили, что не сообщили обо всех ответах в исследовании;
• 94 % признались, что использовали как минимум одну из вышеуказанных сомнительных исследовательских практик.
Проблемы с коммуникацией
Независимо от того, насколько хороша (или нет) статистическая работа, в какой-то момент ее нужно представить на суд аудитории – коллегам-профессионалам или широкой публике. Ученые – не единственные, кто делает заявления на основании статистических данных. Правительства, политики, благотворительные и другие общественные организации – все сражаются за наше внимание, используя цифры и науку, чтобы обеспечить «объективную» основу для своих утверждений. Технологии способствуют увеличению разнообразия источников, постоянно расширяется общение в социальных сетях, но средств контроля их надежности у нас немного.
На рис. 12.1 представлен сильно упрощенный процесс поступления к нам статистических доказательств[256]. Он начинается с первоисточника данных, затем они, пройдя через лиц, принимающих решения, их пресс-службы, информационные подразделения, поступают к журналистам, которые пишут тексты, и редакторам, которые сочиняют к ним заголовки, и наконец доходят до нас – отдельных членов общества. Ошибки и искажения могут возникать на протяжении всего процесса.
Рис. 12.1
Упрощенная схема движения информационных потоков от первоисточников статистической информации до широкой публики. На каждом этапе есть фильтры, генерируемые сомнительными методами исследования, интерпретации и коммуникации, например избирательная отчетность, отсутствие контекста, преувеличение важности и так далее
Что происходит при печати?
Первый фильтр появляется при публикации статистического исследования. Многие работы вообще не издаются – либо из-за недостаточно интересных результатов, либо из-за несоответствия целям исследовательской организации: в частности, фармацевтические компании в прошлом часто обвиняли в сокрытии результатов исследований, которые их не устраивали. В итоге ценные данные оседают в «ящике стола», и создается положительное смещение для тех, которые появляются в печати. А мы не получаем необходимой информации.
Это положительное смещение усугубляется «открытиями», которые с большей вероятностью примут к печати в серьезных журналах, нежеланием публиковать повторные результаты и, конечно же, всеми сомнительными исследовательскими практиками, которые, как мы видели, могут привести к преувеличенной статистической значимости.
Пресс-служба
Еще больше потенциальных проблем возникает на следующем этапе схемы, когда научные материалы попадают в пресс-службы для освещения в СМИ. Мы уже видели, с каким энтузиазмом было воспринято исследование о социально-экономическом положении и риске опухолей головного мозга, в результате чего появился классический заголовок: «Почему поступление в университет повышает вероятность развития опухоли мозга». Эта пресс-служба не одинока в своих преувеличениях: одно исследование установило, что из 462 пресс-релизов британских университетов 2011 года
• 40 % содержали преувеличенные заявления;
• 33 % – преувеличенные утверждения о причинности;
• 36 % – преувеличенные последствия для людей на основании исследований на животных.
Та же группа обнаружила, что большинство преувеличений, появляющихся в прессе, можно отследить до выхода пресс-релиза. Несколько более обнадеживающие результаты та же команда нашла в 534 пресс-релизах от крупных биомедицинских журналов: преувеличения были в 21 % соответствующих пресс-релизов, хотя они не получили более масштабного освещения в прессе[257].
В главе 1 мы говорили, что подача чисел может влиять на их интерпретацию: например, «обезжиренный на 90 %» звучит лучше, чем «10 % жирности». Прекрасный пример изобретательного сочинительства появился, когда одно приличное, но довольно скучное исследование установило, что 10 % людей имеют ген, защищающий их от повышения кровяного давления. Отдел коммуникаций переформулировал это так: «Девять из десяти человек несут ген, который увеличивает риск развития гипертонии», и такая негативная формулировка получила широкое освещение в международной прессе[258].
Средства массовой информации
Журналистов часто винят за плохое освещение научных событий, хотя они во многом зависят от того, какую информацию им скармливают в пресс-релизах и научных статьях и как отражает их текст заголовок, позже вставленный редактором. Ведь мало кто из читателей газет понимает, что автор статьи, как правило, не имеет никакого отношения к созданию заголовков, задача которых – привлекать внимание читателей.
Основная проблема при освещении в СМИ не в откровенной неправде, а в манипуляции и преувеличении путем некорректной интерпретации «фактов»: они могут быть технически верными, но искажены тем, что мы называем «сомнительными методами интерпретации и коммуникации». Вот краткий список способов, как оживить подачу материалов по статистике в СМИ. И те, чья карьера зависит от привлечения читателей, слушателей и кликов, считают многие из этих сомнительных практик вполне оправданными.
1. Выбирать тексты, которые идут вразрез с текущим общим мнением.
2. Популяризировать тексты вне зависимости от качества исследований.
3. Не сообщать уровень неопределенности.
4. Не предоставлять контекст или сравнительные перспективы (например, долгосрочные тенденции).
5. Предполагать причинность, когда наблюдалась всего лишь связь.
6. Преувеличивать важность результатов.
7. Утверждать, что факты поддерживают какую-то установку или линию.
8. Использовать положительную или отрицательную подачу в зависимости от цели – успокоить или напугать.
9. Пренебрегать конфликтами интересов и альтернативными точками зрения.
10. Использовать яркую, но неинформативную графику.
11. Информировать только об относительных, но не об абсолютных рисках.
Последний метод практически универсален. В главе 1 мы наблюдали, насколько впечатляюще может звучать история о повышении риска развития рака кишечника при употреблении бекона, если выражать данные в относительных, а не в абсолютных рисках. Журналисты знают, что относительные риски (часто именуемые в СМИ просто «повышенными рисками» вне зависимости от величины) – это эффективный способ сделать текст более захватывающим, хотя результаты большинства биомедицинских исследований выдаются в виде относительных рисков (отношения шансов, отношения показателей или отношения рисков).
Приковывающий внимание заголовок «Почему просмотр телевизора в пьяном виде может вас убить» появился в результате эпидемиологического исследования, которое дало скорректированный относительный риск 2,5 для фатальной легочной эмболии, связанной с просмотром телевизора более пяти часов в сутки по сравнению с просмотром менее двух с половиной часов. Однако внимательный анализ абсолютного показателя в группе высокого риска (13 на 158 тысяч человеко-лет) можно истолковать как означающий, что для наступления такого события вы в среднем должны сидеть по 5 часов перед телевизором в течение 12 тысяч лет. Это несколько снижает воздействие факта[259]. Заголовок явно писался с целью привлечь внимание и в этом преуспел – я определенно счел его неотразимым.
В эпоху, когда все мы стремимся к новой информации и новым впечатлениям, неудивительно, что СМИ придают остроту текстам об исследованиях и провоцируют необычные (часто преувеличенные) заявления, выходящие за рамки серьезных статистических фактов[260]. В следующей главе мы поговорим о том, как можно улучшить ситуацию, а пока вернемся к примечательным утверждениям Дэрила Бема о предвидении.
Дэрил Бем знал, что публикует необычные утверждения, и, к его чести, активно поощрял попытки воспроизвести свои результаты и даже предоставлял для этого материалы. Однако когда другие исследователи приняли его вызов и попытались сделать то же самое, но потерпели неудачу, журнал, опубликовавший оригинальную статью Бема, отказался писать о провалившихся попытках.
Так как же Бем получал свои результаты? Иногда он корректировал проект в соответствии с данными и выделял определенные группы – например, сообщал о положительном предвидении при показе эротических картинок, а не о негативных результатах с неэротическими. Бем признавал: «Я начинаю один [эксперимент] и, если ничего не выходит, бросаю его и начинаю заново с изменениями». Некоторые из этих изменений описывались в статье, другие – нет[261],[262]. Эндрю Гельман заметил, что выводы Бема
основаны на P-значениях, которые являются утверждениями о том, как выглядели бы характеристики выборки, если бы данные были другими; однако Бем не предоставил никаких доказательств того, что его анализ был бы таким же, если бы данные были другими. В самом деле, девять исследований, описанных в его статье, основаны на разных методиках анализа данных[263].
Этот случай – классический пример использования исследователем чрезмерного количества степеней свободы. Тем не менее Бем оказал большую услугу психологии и науке в целом: его статья 2011 года стала катализатором для самоанализа в среде ученых в отношении возможных причин отсутствия достоверности в научной литературе. Даже высказывалось предположение, что весь этот процесс, как и другие исследования, описанные в главе, был намеренно спланирован Бемом, чтобы показать слабые стороны в психологических исследованиях.
Выводы
• Часть ответственности за кризис воспроизводимости в науке лежит на недобросовестных статистиках-практиках.
• Намеренная фабрикация данных – явление довольно редкое, в отличие от ошибок в статистических методах.
• Еще большую проблему представляют сомнительные исследовательские практики, которые, как правило, преувеличивают уровень статистической значимости.
• Вместо того чтобы представить статистические факты широкой публике, пресс-службы, журналисты и редакторы раздувают поток недостоверных сведений, неверно интерпретируя результаты и распространяя их.
Глава 13. Как можно улучшить статистику
В чем польза скрининговых исследований при раке яичников?
В 2015 году в Великобритании были опубликованы результаты масштабного скринингового исследования рака яичников. Оно стартовало еще в 2001 году, когда после тщательных расчетов необходимой мощности свыше 200 тысяч женщин случайным образом распределили на три группы – два вида скрининга и контрольная группа. Исследователи тщательно составили протокол, в котором в первичный анализ входило наблюдение за снижением смертности от рака яичников, оцениваемое с помощью статистического метода, предполагающего, что пропорциональное уменьшение риска будет одинаковым в течение всего периода наблюдения[264].
Когда после среднего 11-летнего периода наблюдения данные были проанализированы, установленный первичный анализ не показал статистически значимой пользы и авторы должным образом сообщили об этом незначимом результате в качестве своего основного вывода. Но тогда почему в газете Independent появился заголовок «Прорыв в определении рака яичников по анализу крови: колоссальный успех нового метода тестирования может привести к национальному скрининговому обследованию в Британии»?[265]
Мы еще вернемся к тому, правильно ли интерпретировались результаты этого масштабного и очень дорогостоящего исследования.
В предыдущей главе мы говорили о том, как плохая практика может проявиться на любом этапе создания статистических текстов. А значит, если мы хотим использовать статистику более эффективно, следует задействовать три группы людей.
1. Поставщики статистической информации: ученые, статистики, исследовательские компании, промышленность. Они могут лучше генерировать данные.
2. Коммуникаторы: научные журналы, благотворительные организации, работники пресс-служб, журналисты и редакторы. Они могут лучше подавать статистические данные.
3. Аудитория: общественность, лица, принимающие решения, и эксперты. Они могут лучше проверять статистические данные.
Давайте поочередно рассмотрим, что может делать каждая группа.
Как можно улучшить научный процесс? Широкое сотрудничество выдающихся исследователей привело к появлению «манифеста воспроизводимости», в котором говорится о совершенствовании методов исследования и обучения, содействии предварительной регистрации проектов и анализу исследований, улучшении качества отчетности о реально проделанной работе, стимулировании повторных экспериментов, развитии экспертных оценок и поощрении открытости и прозрачности[266]. Многие из этих идей отражены в Open Science Framework – программном проекте с открытым кодом, который, в частности, способствует обмену данными и предварительной регистрации исследований[267].
С учетом примеров из предыдущей главы неудивительно, что многие предложения из этого манифеста касаются статистической практики, в частности обращение к предварительно зарегистрированным исследованиям призвано оградить от поведения, описанного в предыдущей главе, когда проект, гипотезы и анализ подстраиваются под уже полученные данные. Однако можно утверждать, что полная предварительная определенность нереальна, она не дает исследователю проявить воображение, а также лишает гибкости в процессе адаптации к новым данным. Опять же ответ, похоже, заключается в строгом различии между поисковыми и подтверждающими исследованиями, при этом нужно четко сообщать ту последовательность выбора, к которой прибегли исследователи.
Предварительная определенность анализа не лишена недостатков, поскольку может ограничить исследователей каким-то одним видом анализа, который по мере поступления данных они могут счесть неподходящим. Например, группа, проводившая скрининговое исследование рака яичников, планировала включить в анализ всех рандомизированных пациентов, однако обнаружила, что если исключить из анализа «распространенные» случаи (когда рак яичников был выявлен до начала испытаний), что может показаться вполне разумным, то стратегия мультимодального скрининга продемонстрирует значимое 20-процентное снижение смертности от рака яичников (P = 0,02). Кроме того, даже если были включены все случаи безотносительно того, был или не был выявлен рак на момент начала испытания, значимое 23-процентное снижение смертности в мультимодальной группе проявилось также в период между 7 и 14 годами после рандомизации. Поэтому проблемы, которые нельзя предусмотреть (например, рандомизация людей, у которых уже есть рак, или скрининг, требующий для большей точности определенного времени), мешают тому, чтобы предварительно запланированный общий результат оказался значимым.
Авторы педантично сообщали, что их первичный анализ не показал значимого результата, и с сожалением отмечали, что «основным ограничением в испытании была наша неспособность предвидеть в своем статистическом проекте отдаленный эффект скрининга». Это не помешало некоторым СМИ интерпретировать незначимый результат как подтверждение нулевой гипотезы и сообщить, что скрининговые исследования вообще не работают. Заголовок в Independent, провозглашающий, что скрининг может спасти тысячи жизней, хотя и слишком смел, тем не менее лучше отражает результаты исследования.
Выше мы говорили о некорректном освещении СМИ содержания научных статей, основанных на статистических данные. Мы не знаем простых способов повлиять на журналистскую деятельность и СМИ – особенно сейчас, в условиях жесткой конкуренции с интернет-публикациями и социальными сетями, а также сокращения доходов от рекламы. Однако то, что статистики участвуют в составлении рекомендаций для СМИ и обучающих программ для журналистов и сотрудников пресс-служб, вселяет надежду. Хорошая новость заключается в том, что журналистика данных процветает и сотрудничество с журналистами может обогатить тексты, основанные на данных, правильным и качественным контентом и визуализацией.
Однако преобразование сухих чисел в истории сопряжено с немалым риском. Традиционно хороший рассказ строится на эмоциях, увлекательном сюжете и эффектной развязке, а наука редко может все это предоставить, поэтому возникает соблазн все сильно упростить, а эффект преувеличить. Тексты должны опираться на факты, которые помогут автору разносторонне осветить поднятую проблему. В идеале в публикации может сообщаться, что какое-то лекарство или метод решения имеет как преимущества, так и побочные эффекты, которые люди могут оценивать по-разному и, соответственно, приходить к разным выводам. Журналисты, похоже, избегают подобных текстов, однако настоящий профессионал должен уметь делать такие истории захватывающими (например, включив мнения людей с разными взглядами). Так, Кристи Ашванден[268], работающая на портале FiveThirtyEight, обсуждала статистические данные, полученные в ходе скрининговых исследований молочной железы, после чего решила отказаться от этой практики, в то время как ее подруга, располагая теми же фактами-свидетельствами, приняла противоположное решение[269]. Это подтверждает, как важно иметь собственное мнение, но при этом с уважением относиться к статистическим данным.
Мы могли бы также детальнее исследовать вопрос о наиболее оптимальной передаче статистических данных. Например, как сообщать о неуверенности в отношении наблюдений и прогнозов, не ставя под угрозу надежность информации, авторитет статистики и доверие к ней, и как адаптировать наши методы к аудитории с различными взглядами и знаниями. Это важные, требующие углубленного изучения вопросы. Кроме того, удручающий уровень статистических дискуссий во время британской кампании по Брекзиту говорит о необходимости исследовать новые способы передачи информации о том, как политические решения могут влиять на общество.
Помощь в обнаружении плохой практики
Разные люди и группы играют определенную роль в обнаружении плохой статистической практики: это рецензенты готовящихся к публикации статей; те, кто проводит систематические обзоры опубликованных доказательств; журналисты; организации, занимающиеся проверкой фактов (фактчекингом), и отдельные члены общества.
Ури Симонсон особенно настаивал на том, чтобы рецензенты строже проверяли соответствие работ требованиям журнала, побуждая авторов предоставлять убедительные доказательства надежности результатов их исследований, а в случае сомнений могли настаивать на повторении опыта и расчетов. Но при этом он предлагал рецензентам терпимее относиться к несовершенству результатов, что способствовало бы составлению правдивых отчетов[270].
Однако как человек, который ссылался на сотни научных работ, хочу сказать, что определить наличие проблемы не всегда просто. Четкие требования, безусловно, полезны, но авторы всегда могут их проигнорировать, чтобы статья выглядела убедительнее. Должен признаться, что у меня развилось особое чутье на выявление неправдивых данных и недомолвок – например, если было выполнено большое число сравнений, а сообщено только об «интересных».
Мое чутье моментально реагирует, когда результат кажется уж больно хорошим, чтобы быть правдой, скажем, когда маленькая выборка дает слишком большой эффект. Классический пример – широко известное исследование 2007 года, утверждающее, что у привлекательных людей чаще рождаются дочери. В опросе американских подростков по пятибалльной шкале оценивалась их физическая привлекательность, а через пятнадцать лет у тех, кто в подростковом возрасте был оценен как «очень привлекательный», только 44 % первенцев были мальчиками, хотя стандартная величина для всех людей – 52 % (как показал еще Арбетнот, в среднем рождается чуть больше мальчиков, чем девочек). Этот результат статистически значим, но, как указал Эндрю Гельман, эффект слишком большой, чтобы быть правдоподобным, и наблюдается только в «самой привлекательной» группе. Информация, приведенная в статье, не позволяет понять, насколько маловероятно описываемое наблюдение, – здесь требуются специальные знания[271].
Систематическая ошибка публикации
При проведении систематических обзоров, чтобы свести воедино всю имеющуюся информацию и представить текущее понимание явления, ученые просматривают огромное количество статей. Однако это занятие оказывается абсолютно бесполезным, если опирается на разбор работ, искажающих факты. Например, из-за того, что отрицательные результаты даже не пытаются публиковать и потому, что значимые результаты, полученные с применением сомнительных исследовательских практик, печатаются в избытке.
Для выявления такой систематической ошибки были разработаны специальные статистические методы. Предположим, у нас есть ряд исследований для проверки одной и той же нулевой гипотезы, скажем, что некоторое вмешательство неэффективно. Вне зависимости от реально проведенных экспериментов, если вмешательство действительно неэффективно, то можно доказать, что P-значение для проверки нулевой гипотезы имеет равномерное распределение от 0 до 1, а потому P-значения из множества исследований, проверявших гипотезу, должны распределяться равномерно. Тогда, если эффект действительно существует, P-значения должны смещаться в сторону малых значений.
Идея такой «P-кривой» – рассмотреть все указанные в исследованиях P-значения для значимых результатов теста, то есть для P < 0,05. Подозрение вызывают две вещи. Во-первых, если кластер P-значений чуть ниже 0,05, значит, какие-то результаты были искажены, для того чтобы передвинуть некоторые значения P через эту границу. Во-вторых, предположим, что эти значимые P-значения не смещены к нулю, а довольно равномерно распределены между 0 и 0,05. Тогда это в точности то, что могло возникнуть, если нулевая гипотеза верна, а нам сообщили как о значимых только о тех результатах, для которых P < 0,05 и которые в одном случае из двадцати попадают в этот диапазон по чистой случайности. Симонсон и его коллеги просмотрели опубликованные работы по психологии, поддерживавшие популярную идею, согласно которой предоставление людям излишнего выбора ведет к негативным последствиям. Анализ P-кривой указал на наличие ошибки в публикациях и отсутствие достаточно веских подтверждений этой идеи[272].
Оценивание статистических утверждений или текстов
Кем бы мы ни были – журналистами, специалистами по фактчекингу, учеными, бизнесменами, политиками, работниками общественных организаций или просто представителями общественности, мы регулярно слышим какие-то заявления, основанные на статистических фактах. И оценивание их достоверности – жизненно важный навык для современного мира.
Давайте сделаем смелое предположение, что все, кто причастен к сбору, анализу и использованию статистических данных, придерживаются этических норм, для которых доверие имеет превалирующее значение. Онора О’Нил, специалист по философии Канта и авторитет в области доверия, подчеркивала, что люди не должны стремиться к тому, чтобы им доверяли, поскольку это выбор других людей, но должны демонстрировать достоверность своей работы. О’Нил сформулировала несколько простых принципов – например, доверие требует честности, компетентности и надежности. Но она также отмечает, что требуются подтверждения достоверности, а это подразумевает прозрачность – нужно не просто сбрасывать массу данных на аудиторию, а обеспечить «разумную прозрачность»[273]. Это означает, что утверждения, основанные на данных, должны быть:
• Доступными: аудитория должна иметь доступ к информации.
• Доходчивыми: аудитория должна быть способна понять информацию.
• Поддающимися оценке: при желании аудитория должна иметь возможность проверить достоверность утверждений.
• Полезными: аудитория должна иметь возможность использовать информацию для своих нужд.
Но оценка достоверности – сложная задача. Статистики и другие специалисты тратят десятилетия, чтобы научиться взвешивать утверждения и формулировать вопросы, которые помогут выявить недостатки. Это не какой-то очередной контрольный список, с которым нужно просто свериться, здесь нужны опыт и разумная доля скептицизма. С учетом этой оговорки предлагаю набор вопросов, вобравших в себя всю мудрость, содержащуюся в этой книге. Перечисленные термины и темы либо говорят сами за себя, либо рассматривались ранее. Я нахожу этот перечень вопросов полезным, надеюсь, и вы тоже.
Десять вопросов, которые нужно задать, столкнувшись с утверждением, основанным на статистических фактах
НАСКОЛЬКО НАДЕЖНЫ ЧИСЛА?
1. Насколько тщательно проведено исследование? Например, проверьте «внутреннюю валидность», правильность проекта и формулировки вопросов, предварительную регистрацию протокола, репрезентативность выборки и обеспечение случайности при ее составлении, корректное сравнение с контрольной группой.
2. Какова статистическая неопределенность / доверительный уровень для результатов? Проверьте погрешности, доверительные интервалы, статистическую значимость, размер выборки, множественные сравнения, систематические ошибки.
3. Верна ли представленная характеристика? Проверьте правильное использование средних, разбросы, относительные и абсолютные риски.
НАСКОЛЬКО НАДЕЖЕН ИСТОЧНИК?
4. Насколько надежен источник текста? Рассмотрите вероятность искажения из-за конфликта интересов и проверьте, рецензировали ли публикацию независимые эксперты. Спросите себя: «Почему автор хочет, чтобы я услышал эту историю?»
5. Как преподносится история? Помните о способах подачи (эффект фрейминга), апеллировании к эмоциям посредством упоминания экстремальных случаев, вводящих в заблуждение графиках, гипертрофированных заголовках, громко звучащих числах.
6. О чем мне не сказали? Пожалуй, это самый важный вопрос. Подумайте о тенденциозно отобранных результатах, о пропущенной информации, которая бы противоречила изложенному в тексте, и отсутствии независимого комментария.
НАСКОЛЬКО НАДЕЖНА ИНТЕРПРЕТАЦИЯ?
7. Как это утверждение соотносится с тем, что уже известно? Взгляните на контекст, подходящие факторы сравнения, включая прошлые данные, и то, что показывали другие исследования, в идеале метаанализ.
8. Какое объяснение дано тому, что было замечено? Корреляция или причинно-следственная связь? Некорректно утверждение, что незначимый результат означает «отсутствие эффекта»? Важны регрессия к среднему, влияние возмущающих факторов, атрибуция, ошибка прокурора.
9. Насколько эта публикация актуальна для аудитории? Подумайте о возможности обобщения, являются ли испытуемые каким-то особым случаем, не проводили ли экстраполяцию с мышей на людей?
10. Важен ли заявленный эффект? Проверьте, значима ли практически величина эффекта, и особенно остерегайтесь утверждений о «повышенном риске».
Этика работы с данными
Растущая обеспокоенность потенциально неправильным использованием персональных данных (особенно при их сборе с аккаунтов в социальных сетях) сосредоточивает внимание на этических аспектах науки о данных и статистики. Хотя государственные статистики связаны официальным кодексом поведения, в целом этика при работе с данными находится на стадии разработки.
В этой книге говорилось о том, что алгоритмы, влияющие на жизнь людей, должны быть честными и прозрачными, о важности честности и воспроизводимости в науке, о требованиях к надежной коммуникации. Все это составляющие этики работы с данными, а нашумевшие истории показали, как пагубно влияет конфликт интересов и даже просто чрезмерный энтузиазм, искажая полученные данные. Можно было бы выделить многие другие важные темы: конфиденциальность и право собственности на данные, информированное согласие на их более широкое использование, юридические аспекты объяснения алгоритмов и тому подобные.
Хотя статистика может показаться сугубо технической наукой, ее всегда нужно рассматривать в контексте общества, и ее представители несут за это ответственность. В ближайшем будущем можно ожидать, что этика работы с данными станет неотъемлемой частью преподавания статистики.
Пример хорошей статистической практики
Перед всеобщими выборами 8 июня 2017 года в Великобритании большинство опросов общественного мнения предполагало, что консерваторы получат значительный перевес. Через несколько минут после окончания голосования, в 22:00, группа статистиков предсказала, что консерваторы потеряли много мест, а с ними и абсолютное большинство, поэтому парламент будет подвешенным. Это заявление было встречено с недоверием. Как они смогли сделать столь смелый прогноз и оказались ли правы?
Завершить книгу, которая была написана не для того, чтобы разоблачить недобросовестных исследователей, а для того, чтобы показать, какую пользу способно принести владение искусством и наукой работы с данными, вполне уместно ярким примером применения статистики.
Вопрос, кто выиграл выборы, сразу же после того, как они закончились, может показаться странным: в конце концов, можно посидеть ночь и подождать итогов. Но это уже стало традицией: буквально через несколько минут после окончания опросов эксперты делают прогнозы относительно результатов. Обратите внимание, что результаты уже фиксированы, просто неизвестны, так что мы имеем дело с классическим примером эпистемической неопределенности, возникающей при рассмотрении уровня безработицы и прочих величин, которые «существуют», но неизвестны.
Рассмотрим цикл PPDAC. Проблема состояла в том, чтобы дать прогноз результатов выборов в стране в течение нескольких минут после окончания голосования. Команда, в которую входили статистики Дэвид Фёрт и Джуни Куха, а также психолог Джон Кертис, разработала план проведения экзитполов, согласно которому в опросах участвовали примерно 200 респондентов, выходивших из каждого из 144 участков (из общего количества в 40 тысяч участков), причем эти участки должны были быть теми же, что и в предыдущих экзитполах. Данные включали ответы избирателей не только о том, как они проголосовали, но и как они голосовали на предыдущих выборах.
Анализ использовал ряд методов, о которых мы говорили в главе 3.
• Переход от данных к выборке. Поскольку данные собирали после ухода с участков и респонденты говорили о том, что уже сделали, а не что намереваются сделать, опыт подсказывает, что ответы будут достаточно точной характеристикой того, как люди голосовали на этих и предыдущих выборах.
• Переход от выборки к изучаемой совокупности. Репрезентативная выборка берется из числа тех, кто проголосовал на каждом участке, так что результаты, полученные от этой выборки, можно использовать для примерной оценки изменения в голосовании («качели») в этой небольшой области.
• Переход от изучаемой к целевой совокупности. Используя знания о демографии каждого избирательного участка, строится регрессионная модель, которая пытается объяснить, как доля людей, поменявших свое мнение между выборами, зависит от характеристик избирателей на этом участке. При этом такие «качели» (свинг) необязательно будут одинаковыми по всей стране, а могут меняться в разных районах – например, в зависимости от того, какое население там преобладает, сельское или городское. Затем на основании этой регрессионной модели, знания демографических характеристик населения в каждом из примерно 600 избирательных округов и количества голосов избирателей, отданных на предыдущих выборах, можно сделать прогноз голосования на этих выборах для каждого отдельного избирательного округа, хотя на большинстве избирательных участков вообще не проводился экзитпол. По сути, это процедура многоуровневой регрессии и постстратификации (MRP), описанная в главе 11.
Ограниченная выборка означает наличие у коэффициентов регрессионной модели неопределенности, которая при масштабировании до всей голосовавшей совокупности дает вероятностное распределение того, как люди голосовали, а следовательно, и вероятность для каждого кандидата получить максимальное количество голосов.
Сложив все эти данные со всех избирательных участков, мы получаем ожидаемое количество мест в парламенте, причем в каждом случае будет свой уровень неопределенности (хотя в ночь после выборов о погрешностях не сообщалось)[274].
В табл. 13.1 приведены прогнозы и конечные результаты для июньских выборов 2017 года. Предсказанное количество мест удивительно близко к реальному, ошибка максимум в четыре места для всех партий. Таблица показывает, что для трех последних выборов в Великобритании эта сложная статистическая методология имела исключительную точность. В 2015 году она предсказала колоссальные потери у либерал-демократов, оценив снижение с 57 мест до 10, и известный представитель этой партии Пэдди Эшдаун заявил в прямом телеэфире, что готов «съесть свою шляпу», если прогноз окажется правильным. На самом деле либеральные демократы получили всего 8 мест[275].
Таблица 13.1
Прогнозы числа мест, полученных каждой партией на трех последних национальных выборах в Великобритании, сделанные на основе экзитполов сразу по окончании голосования, в сравнении с фактическими результатами выборов. Прогнозы представляют собой оценки с определенными погрешностями
В ночь выборов все СМИ обнародовали только прогнозируемое количество мест для каждой партии, хотя погрешность составляла около 20 мест. В прошлом удавалось добиться несколько большей точности, возможно, просто благодаря везению статистиков. Нельзя, однако, сказать, что их удача была незаслуженной, поскольку проявилась она после использования мощных научных инструментов, высокая эффективность которых способна удивить как профессионалов, так и неосведомленных. Люди слабо представляют сложность лежащих в основе расчетов методов, а также то, что этот превосходный результат обусловлен тщательным вниманием к деталям всего цикла решения задач.
Выводы
• Поставщики статистической информации, коммуникаторы и аудитория – все играют определенную роль в улучшении способов применения статистики в обществе.
• Поставщикам данных необходимо обеспечить воспроизводимость результатов. Чтобы продемонстрировать надежность, информация должна быть доступной, доходчивой, поддающейся оценке и полезной.
• Коммуникаторы должны быть осторожны, пытаясь подогнать статистические тексты под стандартные правила повествования.
• Аудитории нужно выявлять недостоверные данные, задавая вопросы о методах подсчета, источниках информации и методах анализа и интерпретации.
• Когда вы сталкиваетесь с каким-то утверждением, основанным на статистических данных, сначала посмотрите, правдоподобно ли оно.
Глава 14. В заключение
Честно говоря, статистика может быть сложной. Хотя я в этой книге старался познакомить вас с базовыми идеями и не углубляться в технические подробности, в ходе повествования неизбежно пришлось опираться на некоторые сложные концепции. Так что поздравляю тех, кто добрался до конца.
Вместо того чтобы сводить информацию, приведенную в предыдущих главах, к короткому перечню мудрых советов, я воспользуюсь следующими десятью правилами эффективной статистической практики. Они позаимствованы у группы статистиков, которые, как и я в этой книге, старались подчеркнуть нетехнические вопросы, обычно не изучаемые в курсе статистики[276]. Я добавил свои комментарии. Эти правила вполне самоочевидны и довольно точно подытоживают вопросы, рассмотренные в книге.
1. Статистические методы должны позволять данным отвечать на научные вопросы. Спрашивайте: «Почему я это делаю?», а не фокусируйтесь на используемом методе.
2. Сигнал всегда сопровождается шумом. Именно попытки отделить их друг от друга делают эту область интересной. Случайный разброс неизбежен, а вероятностные модели полезны в качестве абстракции.
3. Планируйте, и делайте это как можно раньше. Это включает идею предварительной подготовки для подтверждающих исследований – во избежание степеней свободы исследователя.
4. Обеспечивайте подобающее качество данных. Это фундамент вашей работы.
5. Статистический анализ – это нечто большее, чем просто набор вычислений. Не используйте формулы или программы, если не понимаете, почему вы это делаете.
6. Будьте проще. Основная коммуникация должна быть максимально простой – не демонстрируйте умение строить сложные модели, если они не нужны.
7. Обеспечьте оценки для разброса. С предупреждением, что погрешности, как правило, больше заявленных.
8. Проверяйте свои исходные предположения. Если это невозможно, обязательно разъясните ситуацию.
9. При наличии возможности повторите! Или побуждайте других воспроизводить ваш опыт.
10. Обеспечьте воспроизводимость вашего анализа. Другие должны иметь доступ к вашим данным и коду.
Статистика играет важную роль в нашей жизни и постоянно меняется в ответ на увеличение объема и глубины доступных данных. Но изучение этой науки влияет не только на общество в целом, но и на его отдельных членов. Что касается меня, то написание этой книги позволило мне понять, насколько обогатилась моя жизнь благодаря статистике. Я надеюсь, что и вы ощутите то же самое – если не сейчас, то в будущем.
Глоссарий
P-значение: мера расхождения между данными и нулевой гипотезой. Пусть имеется нулевая гипотеза H0 и критерий T, большие значения которого указывают на расхождение с H0. Предположим, что мы наблюдаем некоторое значение t. Тогда (одностороннее) P-значение – это вероятность наблюдения не меньшего экстремального значения при условии истинности H0, то есть P(Tt|H0). Если о несовместимости с H0 говорят и большие, и малые значения T, то двустороннее P-значение – это вероятность наблюдения таких экстремальных значений в обоих направлениях. Часто двустороннее P-значение берут как удвоенное одностороннее P-значение, в то время как программное обеспечение R использует общую вероятность событий, где вероятность появления ниже, чем реально наблюдаемая;
ROC-кривая: для алгоритма, вырабатывающего какую-то оценку, можно выбрать конкретное пороговое значение, при превышении которого объект классифицируется как «положительный». По мере изменения порогового значения на графике формируется ROC-кривая: получающаяся чувствительность (истинно положительная доля) по оси y, а единица минус специфичность (ложноположительная доля) – по оси x;
t-статистика: статистика, используемая для проверки нулевой гипотезы, что какой-то параметр равен нулю; это отношение оценки к ее стандартной ошибке. Для больших выборок значения больше 2 или меньше –2 соответствуют двустороннему P-значению 0,05; точные P-значения можно получить из статистических программ;
Z-оценка: способ стандартизации наблюдения xi в терминах расстояния от среднего выборочного значения m, выраженного в стандартных отклонениях s, так что zi = (xi m)/s. Наблюдение с Z-оценкой 3 соответствует трем стандартным отклонениям от среднего, то есть представляет собой довольно серьезным выброс. Z-оценку можно также определять в терминах среднего всей популяции и стандартного отклонения , в этом случае zi = (xi )/;
абсолютный риск: доля людей в определенной группе, с которыми за указанный период времени произошло интересующее нас событие;
алгоритм: правил или формула, которые получают входные данные/переменные и дают на выходе некоторый результат, например прогноз, классификацию или вероятность;
анализ по назначенному лечению: принцип, согласно которому участники рандомизированных испытаний анализируются в соответствии с вмешательством, которое им назначено, вне зависимости от того, получили ли они его на самом деле;
апостериорное распределение: в байесовском анализе вероятностное распределение неизвестных параметров, определенное с учетом наблюдаемых данных по теореме Байеса;
априорное распределение: в байесовском анализе начальное вероятностное распределение для неизвестных параметров. После наблюдения каких-то данных его пересматривают, получая апостериорное распределение с помощью теоремы Байеса;
асимметричное распределение: распределение (выборки или генеральной популяции), которое несимметрично и имеет длинный левый или правый хвост. Распространено у величин со значительной неравномерностью, например доход или продажи книг. Для таких распределений величины выборочного среднего и стандартного отклонения могут вводить в заблуждение;
Байеса коэффициент: относительное подтверждение, которое дает какой-то набор данных двум альтернативным гипотезам. Для гипотез H0, H1 и данных x это отношение равно p(x|H0)/p(x|H1);
Байеса теорема: утверждение, которое показывает, как наступление события A изменяет наше априорное представление об утверждении B (априорную вероятность p(B)) и дает апостериорное представление (апостериорную вероятность p(B|A)) с помощью формулы . Ее нетрудно доказать: поскольку p(BA) = p(AB), то правило умножения для вероятностей означает, что p(B|A)p(A) = p(A|B)p(B), и деление обеих частей на p(A) дает утверждение теоремы;
байесовский подход: подход к статистическим выводам, при котором вероятность используется не только для стохастической, но и для эпистемической неопределенности в отношении неизвестных фактов. Затем с помощью теоремы Байеса можно пересмотреть представления в свете новых фактов;
Бернулли распределение: если X – случайная величина, которая принимает значение 1 с вероятностью p и значение 0 с вероятностью 1p, то X имеет распределение Бернулли. Математическое ожидание (среднее) такой величины равно p, а дисперсия составляет p(1p). Сам эксперимент с двумя исходами (успех и неудача) называется испытанием Бернулли;
бинарные (двоичные) данные: переменные, которые могут принимать два значения, часто это ответы типа «да»/«нет» на какой-нибудь вопрос. Математически их можно представить с помощью распределения Бернулли;
биномиальное распределение: если у нас есть n независимых испытаний Бернулли с одной и той же вероятностью успеха, то число успехов в n испытаниях имеет биномиальное распределение. Формально: пусть X1,…,Xn – независимые случайные величины, имеющие распределение Бернулли с вероятностью успеха p. Тогда их сумма R = X1 + X, +…+ Xn имеет биномиальное распределение, при этом , математическое ожидание (среднее) равно np, а дисперсия np(1p). Наблюдаемое отношение R/n имеет среднее p и дисперсию p(1p)/n. Поэтому величину R/n можно рассматривать как оценку для p со стандартной ошибкой ;
большие данные: становящееся все более анахроничным выражение, которое иногда характеризуется четырьмя параметрами: большим объемом данных, разнообразием источников (изображения, аккаунты в социальных сетях, транзакции), большой скоростью получения и возможной нехваткой достоверности из-за шаблонных способов сбора;
Бонферрони поправка: метод для регулирования размера критерия (ошибка первого рода) или доверительных интервалов при одновременном тестировании многих гипотез. Более точно, при проверке n гипотез при общем размере критерия (ошибка первого рода) каждую гипотезу проверяют с размером /n. Это эквивалентно тому, что для каждой оцениваемой величины указываются доверительные интервалы 100(1/n)%. Например, если вы проверяете 10 гипотез с общим 5 %, то P-значения нужно сравнивать с 0,05/10 = 0,005 и использовать 99,5-процентные доверительные интервалы;
Бриера показатель: мера точности вероятностных прогнозов, основанная на среднеквадратичной ошибке прогноза. Если p1,…,pn – это вероятности для двоичных наблюдений x1,…,xn, принимающих значение 0 и 1, то показатель Бриера – это число . По сути, это критерий среднеквадратичной ошибки, примененный к бинарным данным;
бутстрэппинг: способ генерировать доверительные интервалы и распределения тестовых статистик путем создания повторных выборок из наблюдаемых данных, а не использования вероятностной модели для соответствующей случайной величины. Бутстрэп-выборка из набора данных x1,…,xn – это выборка размера n с возвратом, так что хотя в нее попадают те величины, которые есть в исходной выборке, их доли в бутстрэп-выборке в целом будут отличаться от долей в исходной выборке;
вероятностное распределение: общий термин для математического закона, описывающего вероятность, с которой случайная величина принимает то или иное значение. Распределение величины X описывается функцией распределения F(x) = P(Xx),<x<;
вероятностный прогноз: прогноз в виде вероятностного распределения для будущего события, а не категорического суждения о том, что оно произойдет;
вероятность: формальное математическое выражение неопределенности. Обозначим P(A) вероятность события A. Тогда справедливы такие правила для вероятности[277]:
1. 0 P(A) 1, при этом вероятность невозможного события равна 0, а достоверного – 1.
2. Вероятность противоположного (дополнительного) события (которое заключается в том, что А не произошло): P() = 1 – P(A).
3. Правило сложения: если A и B – несовместные события (то есть произойти может только какое-то одно), то P(A или B) = P(A) + P(B).
4. Правило умножения: для любых событий A и B, P(A и B) = P(A|B)P(B), где P(A|B) означает вероятность события А при условии, что В произошло. А и В независимы тогда и только тогда, когда P(A|B)=P(A), то есть наступление события В не влияет на вероятность события А. В этом случае мы имеем P(A и B) = P(A)P(B) – правило умножения для независимых событий[278];
вероятность случайного совпадения: при судебной экспертизе ДНК – вероятность того, что человек, случайно выбранный из надлежащей популяции, будет соответствовать найденной ДНК в степени, которая связывает подозреваемого и преступление;
внешняя валидность: когда заключения исследования можно обобщать на целевую совокупность, которая шире, чем непосредственно исследуемая совокупность. Относится к релевантности исследования;
внутренняя валидность: когда заключения какого-либо исследования действительно касаются только изучаемой совокупности. Это относится к строгости, с котрой проведено исследование;
воздействие: фактор, влияние которого на заболевание, смерть или иной медицинский исход, представляет для нас интерес, например какой-то аспект окружающей среды или поведения;
возмущающий (искажающий) фактор: переменная, которая связана и с предикторной переменной, и с переменной отклика и может объяснить часть их видимой взаимосвязи. Например, рост и вес детей сильно коррелированы, но в основном эта взаимосвязь объясняется возрастом ребенка;
воронкообразный график: график, где наблюдениям, соответствующим отдельным элементам (учреждения, области или исследования), сопоставляется мера их точности. Часто две «воронки» указывают на то, где можно ожидать месторасположения 95 % и 99,8 % наблюдений, когда между элементами в действительности нет разницы. Если распределение наблюдений приближенно нормальное, то граничные значения для 95 % и 99,8 % примерно соответствуют ±2 и ±3 стандартным ошибкам;
выборочное среднее: см. среднее 2.
генеральная совокупность (популяция): группа, из которой, как предполагается, берутся данные в выборке и которая дает вероятностное распределение для отдельного наблюдения. При проведении измерений или наличии у вас всех возможных данных это понятие становится математической идеализацией;
глубокое обучение: метод машинного обучения, который расширяет стандартные модели искусственных нейронных сетей на множество слоев, представляющих различные уровни абстракции, например переход от отдельных пикселей изображения к распознанию объектов;
гипергеометрическое распределение: пусть имеется конечное множество из N элементов, K из которых обладают некоторым свойством. Мы выбираем n элементов без возвращения. Тогда случайная величина Y – число успехов (выбранных элементов с этим свойством) имеет гипергеометрическое распределение. Формально для k = 0,1,…,n
грамотность в работе с данными: умение понимать принципы, лежащие в основе работы с данными, выполнять базовые анализы данных, критически анализировать качества утверждений, сделанных на основе данных;
дерево классификации: форма алгоритма классификации, при котором характеристики проверяются последовательно; ответ на очередной вопрос определяет, какая характеристика проверяется следующей; процедура повторяется до итоговой классификации;
дилемма смещения – дисперсии: когда для прогноза используется обучение модели, повышение ее сложности в итоге приводит к тому, что у модели уменьшается смещение (в том смысле, что у нее возрастает потенциал для адаптации к деталям базового процесса), но увеличивается дисперсия, поскольку данных для уверенности в параметрах модели оказывается недостаточно. Чтобы избежать переобучения, нужен компромисс;
дисперсия выборочная: если имеется выборка x1,x2,…,xn со средним , то выборочная дисперсия (хотя знаменатель может быть равен n, а не n1)[279];
дисперсия: характеристика разброса случайной величины; если случайная величина X имеет математическое ожидание E(X) = , то дисперсия D(X) = E(X)2 Среднеквадратичное (стандартное) отклонение является корнем из дисперсии, так что ;
доверительный интервал: оцениваемый интервал, в котором может находиться неизвестный параметр. Например, при наличии наблюдаемого множества данных x 95-процентный доверительный интервал для среднего – это такой интервал от L(x) до U(x), когда до наблюдения данных вероятность того, что случайный интервал (L(x),U(x)) содержит , составляет 95 %. Если соединить центральную предельную теорему с тем фактом, что примерно 95 % нормального распределения отклоняется от среднего не более чем на 2 стандартных отклонения, мы получим популярное приближение, что 95-процентный доверительный интервал – это оценка в ±2 стандартные ошибки. Предположим, что мы хотим найти доверительный интервал для разности 21 между двумя параметрами 2 и 1. Если T1 – это оценка для 1 со стандартной ошибкой SE2, а T2 – это оценка для 2 со стандартной ошибкой SE2, то T2T1 представляет собой оценку для 21. Дисперсия разности между оценками равна сумме их дисперсий, и поэтому стандартная ошибка для T2T1 определяется формулой . Отсюда можно найти 95-процентный доверительный интервал для разности 21;
зависимая переменная (переменная отклика): переменная, которая представляет основной интерес, которую мы желаем спрогнозировать или объяснить;
зависимые события: когда вероятность одного события зависит от наступления другого;
закон больших чисел: общее название нескольких теорем о сходимости средних для последовательности случайных величин к истинному математическому ожиданию. На практике это означает, что выборочное среднее близко к среднему значению всей генеральной совокупности;
иерархическое моделирование: в байесовском анализе – когда параметры, определяющие число элементов (например, районов или школ), сами считаются взятыми из общего априорного распределения. Это приводит к уменьшению оценок параметров для отдельных элементов в сторону общего среднего;
индуктивное поведение: сделанное в 1930-х годах предложение Ежи Неймана и Эгона Пирсона по проверке гипотез в терминах принятия решений. От него остались идеи размера и мощности критерия, а также ошибок первого и второго рода;
индукция (индуктивное умозаключение): построение обобщающего вывода на основании частных примеров;
интерквартильный размах: мера разброса выборки или распределения; конкретно – разность между третьим и первым квартилем, то есть между 75-м и 25-м процентилем;
искусственный интеллект (ИИ): компьютерные программы, предназначенные для выполнения задачи, обычно связываемой с человеческими способностями;
исследование «случай – контроль»: ретроспективное исследование, в котором люди с заболеванием или с интересующей нас характеристикой (случаи) сопоставляются с одним или несколькими людьми, не имеющими заболевания (контрольные экземпляры), и сравниваются истории этих групп – чтобы увидеть, дают ли воздействия систематическую разницу между группами. Такая схема может оценивать только относительные риски, связанные с воздействиями;
калибровка: требование, чтобы наблюдаемые частоты событий соответствовали вероятностным прогнозам. Например, если вероятность какого-нибудь события 0,7, то оно должно происходить примерно в 70 % случаев;
качественная (категорийная) переменная: переменная, принимающая два или несколько дискретных значений, которые могут или не могут быть упорядоченными;
квартиль (генеральной совокупности): 25-й, 50-й и 75-й процентили;
комбинированные признаки: когда несколько объясняющих переменных соединяются и производят эффект, отличный от ожидаемого при их отдельном воздействии;
конструирование признаков: в машинном обучении процесс уменьшения размерности входных переменных с созданием сводных характеристик, которые содержат информацию о даннх в целом;
контрольная группа: множество людей, которые не подпадали под интересующее нас воздействие;
контрольные граничные значения: заранее определенные ограничения для случайной величины, используемые при контроле качества для отслеживания отклонений от предполагаемых стандартов; например, могут отображаться на воронкообразном графике;
контрфактуальный: относящийся к сценариям вида «что, если», где рассматривается альтернативная история событий;
коэффициент регрессии: оцениваемый параметр в статистической модели, который выражает степень взаимосвязи между объясняющей переменной и результатом во множественной регрессии. Этот коэффициент будет иметь различную интерпретацию в зависимости от того, является ли результирующая переменная непрерывной (множественная линейная регрессия), долей (логистическая регрессия), целым числом (пуассоновская регрессия) или временем выживания (регрессия Кокса);
