Искусство статистики. Как находить ответы в данных Шпигельхалтер Дэвид
Рис. 2.8
Относительный рост населения с 1951 по 2015 год в странах, население которых в 1951 году составляло не менее миллиона человек
Значительный рост населения наблюдается в Африке, но с большим разбросом и одним экстремальным случаем – Кот-Д’Ивуар. Азия тоже демонстрирует существенные различия, что отражает широкое разнообразие стран этого континента; здесь экстремальные случаи – Грузия и Япония, с одной стороны, и Саудовская Аравия – с другой (у нее самый высокий показатель относительного роста населения в мире). Рост в Европе относительно низкий.
Как и любая хорошая диаграмма, эта вызывает новые вопросы и побуждает к дальнейшим исследованиям – как с точки зрения идентификации отдельных стран, так и изучения прогнозов будущих тенденций.
Конечно же, существует множество способов представления таких сложных массивов данных, как данные ООН по народонаселению, но ни один из них нельзя считать правильным. Тем не менее Альберто Каиро определил четыре общих признака хорошей визуализации данных.
1. Содержит достоверную информацию.
2. Схема выбрана так, чтобы соответствующие закономерности были заметны.
3. Выглядит привлекательно, при этом внешний вид не мешает правдивости, ясности и глубине.
4. Когда это уместно, способ организации позволяет проводить некоторые исследования.
Для реализации четвертого признака можно, например, позволить аудитории взаимодействовать с визуализацией. Хотя это трудно реализовать в книге, следующий пример покажет силу персонализации графического представления информации.
Как менялась популярность моего имени с течением времени?
Некоторые графики настолько сложны, что невооруженным взглядом трудно заметить интересные закономерности. Посмотрите на рис. 2.9, где каждая линия показывает рейтинг популярности имен мальчиков, родившихся в Англии и Уэльсе между 1905 и 2016 годами[61]. Рисунок отображает замечательную социальную историю, хотя сам по себе всего лишь демонстрирует быстро меняющуюся моду на имена, а уплотнение линий в последние годы говорит о расширении и разнообразии списка имен после середины 1990-х.
Рис. 2.9
Скриншот интерактивной диаграммы, предоставленный Национальным статистическим управлением Великобритании, где показаны тенденции изменения популярности имен мальчиков. Мои лишенные воображения родители дали мне в 1953 году самое популярное на то время имя, но с тех пор оно вышло из моды, в отличие от Оливера. Однако в последние годы имя Дэвид снова демонстрирует некоторые признаки повышения востребованности, возможно, благодаря Дэвиду Бекхэму
Только добавив интерактивность, мы можем выделить линии, представляющие для нас интерес. Например, мне интересен тренд для имени Дэвид, которое было особенно популярно в 1920-х и 1930-х годах, возможно, потому, что Дэвидом звали принца Уэльского (будущего короля Эдуарда VIII)[62]. Но затем оно резко утратило популярность – и если в 1953 году я был одним из десятков тысяч Дэвидов, то в 2016-м этим именем назвали всего 1461 ребенка, при этом больше сорока имен оказались гораздо популярнее.
Коммуникация
В этой главе мы старались обобщить и обнародовать данные открытым неманипулятивным способом, чтобы избежать влияния на эмоции и отношение аудитории и не навязывать ей определенную точку зрения. Мы просто хотим рассказать все как есть или по крайней мере как должно быть. Хотя мы не вправе претендовать на то, что излагаем абсолютную истину, мы пытались быть максимально правдивыми.
Конечно, о такой научной объективности проще говорить, чем реализовывать на практике. Когда в 1834 году Чарльз Бэббидж, Томас Мальтус и другие ученые создали Лондонское статистическое общество (впоследствии Королевское статистическое общество), они помпезно заявили, что «статистическое общество будет считать первым важнейшим правилом своей деятельности тщательное исключение всех частных мнений из своих протоколов и публикаций и основываться исключительно на фактах, причем – насколько это вообще возможно – на тех, которые могут быть записаны в численном виде и зафиксированы в таблицах»[63]. Увы, на это ограничение никто не обращал внимания с самого начала: авторы работ стали вставлять свои мнения о данных относительно преступлений, здоровья и экономики и советовать, что с этим делать. Возможно, лучшее, что мы можем сейчас, – признать это искушение и всячески стараться держать свое мнение при себе.
Первое правило коммуникации – закрыть рот и слушать, чтобы лучше познакомиться с аудиторией, будь то политики, профессионалы или широкие массы. Мы должны понимать их неизбежные ограничения и любые возможные недоразумения и бороться с искушением казаться слишком умными или чрезмерно вдаваться в детали.
Второе правило коммуникации – знать, чего вы хотите добиться. Будем надеяться, что цель – способствовать открытым обсуждениям и принятию взвешенных решений. Однако, похоже, нелишне повторить еще раз, что цифры не говорят сами за себя: контекст, язык и графический вид способствуют коммуникации. Нужно признать, что мы рассказываем историю, а люди неизбежно станут сравнивать и выносить суждения, даже если мы всего лишь хотели информировать, а не убеждать. Все, что мы можем, – это постараться предотвратить неуместные инстинктивные реакции с помощью предупреждений или системы представления данных.
Изложение с использованием статистики
В этой главе мы ввели понятие визуализации данных. Соответствующие методы часто используются для исследователей или достаточно подготовленной аудитории благодаря арсеналу средств, выбранных исходя из их ценности, чтобы обеспечить понимание и изучение данных, а не по причине их визуальной привлекательности. Но когда мы хотим донести до аудитории важное сообщение, содержащееся в данных, мы можем применить инфографику или визуализацию, чтобы привлечь внимание людей и рассказать хорошую историю.
Сложная инфографика регулярно появляется в СМИ, однако на рис. 2.10 представлен довольно простой пример, который говорит о социальных тенденциях, объединяя ответы на три вопроса из Национального исследования сексуальных отношений и образа жизни (Natsal-3) 2010 года: в каком возрасте мужчины и женщины впервые занялись сексом, когда они начали вместе жить и завели первого ребенка[64]. Медианный возраст для каждого их этих трех событий нанесен на график в зависимости от года рождения женщин, и три точки соединены жирной вертикальной линией. Устойчивое удлинение этой линии для диапазона между 1930 и 1970 годами демонстрирует увеличение периода, когда необходима эффективная контрацепция.
Рис. 2.10
Инфографика на основании данных Национального исследования сексуальных отношений и образа жизни (Natsal-3); выводы представлены как визуально, так и словесно
Еще более продвинутой является динамическая графика, где движение используется для выявления закономерностей изменений с течением времени. Специалистом по такой методике был Ханс Рослинг, чьи выступления на конференция TED[65] и видеоролики установили новый стандарт для выступлений с применением статистики, например демонстрация взаимосвязи между изменениями благосостояния и здоровья с помощью перемещения пузырьков, отражающих прогресс в каждой стране с 1800 года до наших дней. Рослинг использовал графику, чтобы исправить ошибочное представление о различии между развитыми и слаборазвитыми странами: динамические графики показывали, что со временем почти все страны стабильно двигались по одному и тому же пути в сторону улучшения благосостояния и процветания[66],[67].
В этой главе продемонстрирован весь диапазон представления информации – от простых описаний и изображения необработанных данных до сложных примеров изложения с применением статистики. Современные вычисления делают визуализацию данных проще и гибче. А поскольку характеристики выборки могут как скрывать, так и подчеркивать существенные особенности, важно наглядное графическое представление. Тем не менее выделение сводных характеристик выборки – только первый этап в процессе изучения данных. Чтобы продвинуться дальше по этому пути, нужно обратиться к фундаментальной идее того, чего мы намерены достичь в первую очередь.
Выводы
• При анализе эмпирических распределений данных (в частности, определения среднего и разброса) применяются различные числовые характеристики.
• Часто встречаются асимметричные распределения, а некоторые показатели крайне чувствительны к выбросам.
• Сводные характеристики выборки всегда скрывают какие-то детали, поэтому нужно проявлять осторожность, чтобы не потерять важную информацию.
• Наглядно эмпирические данные можно представить в виде точечной диаграммы, диаграммы типа «ящик с усами» или гистограмм.
• Для лучшего выявления закономерностей используйте преобразования. Для обнаружения закономерностей, выбросов, сходств и кластеров используйте глаза.
• Рассматривайте пары чисел как точки на плоскости, а динамические (изменяющиеся во времени) величины – как линии на графике.
• При исследовании данных основная цель – поиск факторов, объясняющих изменчивость.
• Графика может быть интерактивной и анимированной.
• Инфографика выделяет интересные особенности и помогает читателям погружаться в повествование, но она должна использоваться с осознанием ее цели и воздействия на аудиторию.
Глава 3. Почему мы смотрим на данные? Совокупности и измерение
Сколько сексуальных партнеров у британцев на самом деле?
В предыдущей главе мы рассмотрели несколько примечательных результатов недавнего британского исследования, в рамках которого люди сообщали о количестве своих сексуальных партнеров за всю жизнь. Графические методы анализа этих ответов выявили определенные особенности, включая очень длинный хвост, склонность указывать круглые числа (например, 10 и 20) и тот факт, что мужчины называют большее число партнеров, чем женщины. Но исследователей, потративших миллионы фунтов на сбор таких данных, на самом деле интересовали не ответы конкретных респондентов (в конце концов, всем им гарантировалась полная анонимность), а общие закономерности сексуального поведения британцев, которые они на основе этих ответов хотели обнаружить.
На самом деле переход от реальных ответов, собранных в исследовании, к выводам обо всей Великобритании нельзя считать тривиальным. Было бы неправильно просто заявить, что ответы респондентов точно отражают ситуацию в стране. Опросы в СМИ о сексе, где добровольцы заполняют анкеты на сайтах, сообщая о том, чем они занимаются за закрытыми дверями, грешат этим постоянно.
Процесс перехода от сырых данных к утверждениям о поведении жителей всей страны можно разбить на несколько этапов.
1. Записанные первичные данные о числе сексуальных партнеров, которое указали участники исследования, говорят нам кое-что об…
2. Истинном количестве партнеров у людей в нашей выборке, что расскажет нам кое-что о…
3. Количестве партнеров у людей в исследуемой совокупности – тех, кто мог бы потенциально стать участником исследования. Это говорит нам кое-что о…
4. Числе сексуальных партнеров у всех британцев, которые и являются нашей целевой совокупностью.
Где самые слабые места в этой цепочке рассуждений? Переход от первоначальных данных (этап 1) к правде о нашей выборке (этап 2) означает наличие определенных предположений о том, насколько точно респонденты указали количество своих партнеров и насколько обоснованы причины для сомнений в их ответах. Мы уже наблюдали явную склонность мужчин преувеличивать, а женщин – преуменьшать количество своих связей, возможно, из-за того, что женщины не включают в них те, о которых предпочли бы забыть, из-за различных склонностей к округлению вверх или вниз, плохой памяти или просто вследствие «искажений из-за социальной приемлемости»[68].
Переход от нашей выборки (этап 2) ко всей исследуемой совокупности, пожалуй, самый сложный шаг. Прежде всего мы должны быть уверены, что участники исследования представляют собой случайную выборку из тех, кто подходит для целей такого хорошо организованного исследования, как Natsal. Но мы также должны предположить, что люди, согласившиеся участвовать, составляют репрезентативную выборку, а это непросто. Доля отвечавших респондентов составила 66 %, что на удивление хорошо, учитывая характер вопросов. Однако существуют определенные доказательства того, что процент участия тех, кто менее сексуально активен, несколько ниже, что, впрочем, в какой-то степени уравновешивается сложностью опроса членов общества с нетрадиционной сексуальной ориентацией.
Наконец, переход от исследуемой (этап 3) к целевой (этап 4) выборке упрощается, когда мы можем предположить, что потенциальные участники надлежащим образом представляют взрослое население. В случае Natsal это обеспечивается путем тщательного отбора на основании случайной выборки домохозяйств, хотя и означает, что люди из таких мест, как тюрьмы или женские монастыри, не учтены.
К тому времени, когда мы проработаем все, что может пойти не так, этого, вероятно, окажется достаточно, чтобы кто угодно скептически относился к любым общим утверждениям о сексуальном поведении страны на основании ответов респондентов. Однако весь смысл статистики – сгладить процесс на всех этапах и в конце с должным смирением сказать, что мы можем (а что не можем) узнать из этих данных.
В предыдущих главах предполагалось, что у вас есть какая-то проблема, вы получаете какие-то данные, смотрите на них и находите их сводные характеристики. Иногда ответ уже заключен в подсчете, измерении или описании. Например, если мы хотим знать, сколько людей в прошлом году обращалось в службу экстренной медицинской помощи, то данные дадут нам ответ.
Однако часто вопрос выходит за рамки обычного описания данных: мы стремимся узнать нечто большее, чем просто набор имеющихся у нас наблюдений, например, хотим делать прогнозы (что будет происходить с показателями в следующем году?) или сообщить о причинах (почему цифры растут?)
Прежде чем приступить к обобщению на основе данных, чтобы узнать что-то о мире за пределами непосредственных наблюдений, нужно задать себе вопрос: «Узнать о чем?». А это требует обращения к сложной идее индуктивного умозаключения.
Многие люди имеют некоторое смутное представление о дедукции благодаря Шерлоку Холмсу, использовавшему ее при поиске преступников[69]. В реальной жизни дедукция – это процесс применения правил логики для перехода от общего к частному. Если согласно законодательству в стране установлено правостороннее движение, то мы можем прийти к дедуктивному заключению, что в любой ситуации лучше ехать по правой стороне. Индукция работает наоборот: на основании частных случаев предпринимаются попытки сделать общие заключения. Например, мы не знаем, принято ли в каком-то сообществе целовать подруг в щеку, и пробуем это выяснить, наблюдая, целуют ли женщины друг друга один, два, три раза или не целуют вовсе. Принципиальное отличие индукции от дедукции состоит в том, что дедукция дает истинные заключения, а индукция – в общем случае нет[70].
На рис. 3.1 индуктивное умозаключение представлено в виде диаграммы, показывающей шаги, связанные с переходом от данных к конечной цели нашего исследования. Как мы увидели, данные, собранные в ходе опроса, рассказывают нам о поведении людей в выборке; эту информацию мы используем для изучения поведения людей, которые могли бы стать участниками опроса, а уже из этого делаем некоторые предварительные выводы о сексуальном поведении в масштабе страны.
Рис. 3.1
Процесс индуктивного умозаключения: каждую стрелку можно истолковать как «говорит нам кое-что о…»[71]
Конечно, было бы идеально, если бы мы могли сразу перейти от просмотра первоначальных данных к общим утверждениям о целевой совокупности. В стандартных курсах статистики предполагается, что наблюдения извлекаются совершенно случайно и непосредственно из интересующей нас совокупности.
Однако в реальной жизни так бывает редко, поэтому нам приходится рассматривать всю процедуру перехода от первичных данных к конечной цели. При этом, как мы увидели на примере с исследованием Natsal, проблемы могут возникать на каждом этапе.
Переход от данных (этап 1) к выборке (этап 2) – это проблемы измерения. Является ли то, что мы фиксируем в своих данных, точным отражением того, что нас интересует? Мы хотим, чтобы наши данные были:
• надежными – в том смысле, что у них низкая изменчивость от случая к случаю и их можно считать воспроизводимыми и точными;
• достоверными – в том смысле, что вы измеряете именно то, что хотите, без какой-либо систематической ошибки.
Например, адекватность в опросе о сексе основывается на том, что люди на один и тот же вопрос каждый раз, когда их об этом спрашивают, отвечают практически одинаково, причем вне зависимости от интервьюера, настроения респондента или его памяти. Это в какой-то степени можно проверять, задавая в начале и в конце специальные вопросы. Качество исследования также требует, чтобы участники описывали свою сексуальную активность честно, а не систематически преувеличивая или преуменьшая свой опыт. Это довольно строгие требования.
Исследование станет недостоверным, если сами вопросы демонстрируют предвзятость в пользу конкретного ответа. Например, в 2017 году авиакомпания Ryanair объявила, что 92 % ее пассажиров довольны предоставляемым сервисом во время перелетов. Но, как оказалось на самом деле, опрос об уровне удовлетворенности предусматривал только ответы отлично, очень хорошо, хорошо, удовлетворительно и окей[72].
Мы уже видели, как форма подачи чисел (в положительном или отрицательном ключе) влияет на восприятие; точно так же формулировка вопроса может влиять на ответ. Например, в ходе опроса, проведенного в Великобритании в 2015 году, людей спрашивали, поддерживают ли они предоставление 16– и 17-летним подросткам права голосовать на референдуме о выходе из Евросоюза. Оказалось, что 52 % выступают за и 41 % – против. Таким образом, большинство людей поддержали это предложение, поскольку оно сформулировано с позиции признания и расширения прав молодежи.
Но когда тем же респондентам задали вопрос (логически идентичный предыдущему), поддерживают ли они уменьшение возрастного ценза для голосования на референдуме с 18 до 16 лет, доля сторонников этой идеи снизилась до 37 %, а против высказались 56 %. Таким образом, когда то же самое предложение было сформулировано в терминах более рискованной либерализации, большинство оказалось против. Мнение изменилось из-за простой переформулировки вопроса[73].
На ответы также может влиять то, что спрашивалось ранее, – механизм, известный в психологии как прайминг (или фиксирование установки, или эффект предшествования). Согласно официальным исследованиям благосостояния, 10 % молодых британцев считают себя одинокими, при этом в ходе онлайн-опроса службы «Би-би-си» этот ответ выбрало гораздо больше участников – 42 %. Возможно, такое повышение показателя обусловлено двумя факторами: 1) самооценкой при добровольном «исследовании» и 2) тем, что вопросу об одиночестве предшествовал длинный ряд вопросов о том, испытывал ли респондент в целом недостаток дружеского общения, чувство брошенности, отстраненности и так далее. Возможно, все эти вопросы и побудили его дать положительный ответ на ключевой вопрос об одиночестве[74].
Переход от выборки (этап 2) к исследуемой совокупности (этап 3) зависит от фундаментального качества исследования, называемого внутренней валидностью: отражает ли наблюдаемая выборка то свойство группы, которое мы изучаем? Именно здесь мы приходим к ключевому способу для избежания искажений – случайной выборке. Даже дети понимают, что значит выбирать что-нибудь случайным образом – с закрытыми глазами сунуть руку в мешок с конфетами и посмотреть, какого цвета будет фантик у той, которую ты вытащил, или извлечь наугад номер из шапки, чтобы определить, кому достанется (или не достанется) приз или угощение. Этот метод тысячелетиями использовался для обеспечения справедливости – определения вознаграждения[75], проведения лотерей, назначения присяжных заседателей и прочего – и именовался жеребьевкой[76]. Применялся он и в более серьезных случаях – при выборе, кому идти на войну или кого съесть в спасательной шлюпке, затерявшейся в море.
Джордж Гэллап, фактически разработавший в 1930-е годы научные методы исследования общественного мнения, предложил изящную аналогию для понимания ценности случайной выборки, сказав, что, если вы сварили большую кастрюлю супа, вам не нужно съедать его весь, чтобы узнать, достаточно ли в нем приправы. Хватит и одной ложки, но при условии, что вы хорошо все перемешали. Буквальное доказательство это утверждение получило в 1969 году во время лотереи, определявшей порядок призыва на войну во Вьетнаме. Сначала в рамках лотереи создавался упорядоченный список дней рождения, а затем те, чья дата рождения оказывалась в верхних строках списка, отправлялись во Вьетнам, и так далее. В попытке сделать эту процедуру справедливой было подготовлено 366 капсул с уникальной датой рождения в каждой. Предполагалось, что капсулы будут извлекаться из ящика наугад. Однако складывали их в коробку в соответствии с месяцем рождения и не удосужились должным образом перемешать. Это не привело бы к проблемам, если бы люди, доставая капсулы, запускали руку поглубже в коробку, но, как показывает видеозапись, они, как правило, брали капсулы сверху[77]. В результате меньше всего повезло тем, кто родился в конце года: из 31 дня декабря были выбраны 26, в то время как из января – только 14 дней.
Идея надлежащего «перемешивания» имеет решающее значение: если вы хотите перейти от выборки ко всей генеральной совокупности, вы должны убедиться, что выборка репрезентативна. Наличие большого массива данных вовсе не гарантирует хорошую выборку и даже может вселить ложную уверенность. Например, на всеобщих выборах в Великобритании в 2015 году компании, проводящие опросы, с треском провалились, хотя их выборки включали тысячи потенциальных избирателей. Последующее расследование обвинило нерепрезентативную выборку, особенно для телефонных опросов, так как в большинстве случаев звонили только на стационарные номера и фактически на эти звонки ответили менее 10 % абонентов. Вряд ли такую выборку можно считать репрезентативной.
Переход от исследуемой (этап 3) к целевой (этап 4) совокупности. Наконец, даже при превосходных измерениях и хорошей случайной выборке результаты по-прежнему могут не отражать того, что мы хотим исследовать, если нам не удалось опросить людей, в которых мы особенно заинтересованы. Мы хотим, чтобы наше исследование имело внешнюю валидность[78].
Крайнее проявление – это ситуация, в которой целевая совокупность состоит из людей, тогда как изучать мы можем только животных, например при анализе воздействия какого-то химического вещества на мышей. Не столь кардинальная разница будет в случае, если клинические испытания нового препарата проводились исключительно на взрослых мужчинах, а затем он использовался для женщин и детей. Мы хотели бы знать влияние на всех людей, но одним статистическим анализом тут не обойтись – мы неизбежно должны делать предположения и проявлять осторожность.
Когда есть все данные
Хотя вышеописанные исследования хорошо иллюстрируют идею извлечения информации из данных, фактически большая часть используемых сегодня данных не основывается на случайной или вообще на какой-либо выборке. Регулярно собираемые данные, скажем об онлайн-покупках или социальных взаимодействиях, а также об администрировании образовательных или правоохранительных систем, можно переориентировать, чтобы лучше понять происходящее в мире. В таких ситуациях у нас есть полные данные. С точки зрения индуктивного процесса, показанного на рис. 3.1, между этапами 2 и 3 нет разрыва – выборка и исследуемая совокупность, по сути, совпадают. Это избавляет от беспокойства по поводу малого размера выборки, однако многие другие проблемы все же могут оставаться.
Рассмотрим вопрос об уровне преступности в Великобритании и его важный политический аспект: растет он или снижается. Существуют два ключевых источника данных: один – на основе опросов, второй – официальный. Первый, «Исследование преступности в Англии и Уэльсе» – классический пример опроса, в рамках которого примерно 38 тысяч человек ежегодно рассказывают о своем опыте соприкосновения с криминалом. Как и в случае исследования Natsal о сексе, здесь могут возникать проблемы при переходе между этапами. Во-первых, приходится использовать самоотчеты (этап 1) для оценивания реального опыта людей (этап 2), поскольку они могут скрывать правду, например, о том, что сами замешаны в незаконных делах, связанных с наркотиками. Во-вторых, мы вынуждены предположить, что выборка репрезентативна для соответствующей совокупности, и учесть ее ограниченный размер (переход от этапа 2 к этапу 3). В-третьих, нам нужно признать, что план исследования не охватывает какой-то части общей целевой совокупности, скажем подростков младше 16 лет или людей в местах совместного проживания (переход от этапа 3 к этапу 4). Тем не менее «Исследование преступности в Англии и Уэльсе» с определенными оговорками считается официально признанной национальной статистикой и применяться для отслеживания долгосрочных тенденций[79].
Второй источник данных – сообщения о преступлениях, зарегистрированных полицией. Это делается для официальных целей и не является выборкой: поскольку можно учесть каждое преступление, зарегистрированное в стране, «исследуемая совокупность» совпадает с выборкой. Конечно, мы по-прежнему должны предполагать, что записанные данные действительно отображают то, что случилось с жертвами преступлений (переход от этапа 1 к этапу 2), но главная проблема возникает при утверждении, что данные об исследуемой совокупности (люди, которые сообщают о преступлениях) представляют целевую совокупность по всем преступлениям, совершенным в Англии и Уэльсе. К сожалению, полицейская статистика систематически упускает случаи, которые полиция не зарегистрировала как преступления или о которых жертвы предпочли умолчать, такие как незаконное употребление наркотиков или отказ людей сообщать о краже или вандализме, когда из-за этого падают цены на недвижимость в месте их проживания. Вот яркий пример: когда в ноябре 2014 года полицейские методы регистрации подверглись суровой критике, число зафиксированных преступлений на сексуальной почве возросло с 64 тысяч в 2014 году до 121 тысячи в 2017-м, то есть почти удвоилось за три года.
Неудивительно, что эти два разных источника данных могут приводить к различным выводам о наблюдаемых тенденциях. Например, согласно «Исследованию преступности», между 2016 и 2017 годами уровень преступности снизился на 9 %, в то время как полиция зарегистрировала на 13 % больше правонарушений. Чему тут верить? Статистики больше доверяют опросу, а сомнения в достоверности предоставляемых полицией данных привели к тому, что в 2014 году они перестали использоваться в качестве национальной статистики.
Располагая полными данными, нетрудно получить статистику, описывающую то, что было измерено. Но если мы хотим применять их для более масштабных заключений о происходящем вокруг, качество данных приобретает первостепенное значение. И мы должны быть внимательны к систематическим ошибкам любого рода, которые могут поставить под угрозу надежность этих заключений.
Целые сайты посвящены перечислению возможных ошибок в статистике – от ошибки распределения (ошибка при распределении пациентов по группам) до ошибки добровольного участия (люди, добровольно участвующие в исследованиях, систематически отличаются от людей в генеральной совокупности). Хотя причины возникновения многих из них очевидны, в главе 12 мы узнаем и о более завуалированных причинах появления плохих статистических данных. Но сначала мы должны рассмотреть способы описания нашей конечной цели – целевой совокупности.
Колоколообразная кривая
Подруга в США родила доношенного ребенка весом 2910 граммов. Ей сказали, что это ниже среднего, и она обеспокоена. Действительно ли этот вес недостаточен?
Мы уже обсуждали понятие распределения данных (эмпирическое или выборочное распределение) – закономерность, которой подчинены данные в выборке. Теперь нам нужно рассмотреть концепцию распределения генеральной совокупности, то есть модель во всей интересующей нас группе.
Вернемся к нашей роженице. Будем думать о ее ребенке как о своего рода выборке из одного человека, взятой из генеральной совокупности всех детей, недавно родившихся в США у неиспаноязычных белых женщин (указание расы важно, поскольку вес новорожденных сообщается для различных рас). Распределение генеральной совокупности определяется по весу при рождении для всех таких младенцев; эти данные можно получить из Национальной системы статистического учета естественного движения населения США, в которой зарегистрировано свыше миллиона доношенных детей, родившихся в США в 2013 году у белых неиспаноязычных женщин. Хотя это не все множество рождений, тем не менее выборка настолько велика, что ее можно рассматривать как генеральную совокупность[80]. Новорожденные распределяются по группам в соответствии с их весом при рождении (с шагом 500 граммов); эти данные представлены на рис. 3.2(a).
Рис. 3.2
(a) Распределение веса при рождении для 1 096 277 детей, родившихся в США у белых неиспаноязычных женщин в 2013 году на 39–40 неделе беременности, а также кривая нормального распределения с теми же значениями среднего и среднеквадратичного отклонения (СКО), что и регистрируемый вес детей в этой генеральной совокупности. Ребенок весом 2910 граммов отображен пунктирной линией. (b) Значения среднего ±1, 2, 3 СКО для нормального распределения. (c) Процентили для нормального распределения. (d) Доля новорожденных с низкой массой тела (темно-серая область) и с массой менее 2910 г (серая область)
Вес ребенка вашей подруги (2910 граммов) указан в виде пунктирной линии, положение которой относительно всего распределения можно использовать для оценки того, насколько он «необычен». Важна форма этого распределения. Такие измерения, как вес, доход, рост и другие аналогичные величины, можно, по крайней мере теоретически, производить с любой желаемой точностью. Поэтому для них можно использовать непрерывные распределения, отображаемые не ступенчатыми, а плавными линиями[81]. Классический пример – колоколообразная кривая, или нормальное (гауссовское) распределение, которое впервые было подробно исследовано Карлом Фридрихом Гауссом в 1809 году в контексте анализа ошибок измерений в астрономии и геодезии[82].
Как показывает теория, нормальное распределение случайной величины можно встретить в ситуациях, обусловленных влиянием на нее большого количества мелких факторов, – например, когда на какую-нибудь физическую характеристику нашего тела влияет большое количество генов. Массу тела при рождении (для одной этнической группы и сходного срока беременности) вполне можно считать такой характеристикой, и на рис. 3.2(a) представлена теоретическая кривая нормального распределения с теми же значениями среднего и среднеквадратичного отклонения, что и вся совокупность зарегистрированного веса у детей. Гладкая теоретическая кривая и гистограмма, отображающая реальные данные, удовлетворительно близки[83]. Аналогично и другие характеристики человека, такие как рост или когнитивные навыки, также имеют распределение, близкое к нормальному. Однако существуют и величины, распределение которых далеко от гауссовского и часто имеет длинный правый хвост. Классический пример – доход.
Нормальное распределение случайной величины характеризуется двумя параметрами – своим средним (или математическим ожиданием) и стандартным отклонением (которое является мерой разброса или отклонения от среднего); кривая на рис. 3.2(a) имеет среднее на уровне 3480 граммов и стандартное отклонение 462 грамма. Мы видим, что величины, используемые в главе 2 для характеризации выборки, можно также применять для описания всей генеральной совокупности. Разница лишь в том, что термины среднее и стандартное отклонение в контексте выборки называются статистиками, а в контексте генеральной совокупности в целом – параметрами. Это впечатляющая возможность – описать больше миллиона измерений (то есть больше миллиона рождений) только этими двумя величинами.
Огромное преимущество использования нормального распределения – в его изученности и возможности взять все его важные характеристики из таблиц или программ. На рис. 3.2(b) показано положение среднего и 1, 2 и 3 среднеквадратичных отклонения в обе стороны от него. Из математических свойств нормального распределения мы знаем, что примерно 95 % всей генеральной совокупности содержится в промежутке [среднее ±2 СКО], а примерно 99,8 % всей генеральной совокупности – в промежутке [среднее ±3 СКО]. Ребенок вашей подруги находится приблизительно на 1,2 СКО ниже среднего – параметр, известный как Z-оценка (или просто число, показывающее, на сколько СКО данное значение отличается от среднего).
Среднее и стандартное отклонение могут также использоваться в качестве кратких описаний (большинства) других распределений, однако полезными могут быть и другие характеристики. На рис. 3.2(c) показаны выбранные процентили для нормальной кривой: например, 50-й процентиль – это медиана, которая делит генеральную совокупность пополам. Можно сказать, что медианное значение – это вес «среднего» ребенка. В случае симметричных распределений (каким и есть нормальное) медиана совпадает со средним значением. 25-й процентиль (3167 граммов) – это вес, меньше которого имеют 25 % родившихся детей. 25-й и 75-й процентиль (3791 граммов) называются квартилями, а расстояние между ними (в нашем случае 624 грамма), или интерквартильный размах – мерой разброса для распределения. И снова те же характеристики, которые в главе 2 мы относили к выборке, здесь применяются ко всей совокупности в целом.
Ребенок вашей подруги находится в 11-м процентиле, а значит, 11 % всех доношенных детей у белых неиспаноговорящих женщин будут весить меньше. На рис. 3.2(d) эта 11-процентная область выделена серым цветом. Процентили веса ребенка важны на практике, поскольку изменения массы его тела будут отслеживаться по отношению к росту, ожидаемому у малышей в 11-м процентиле[84], и низкое значение процентиля может стать причиной для беспокойства.
По медицинским, а не статистическим причинам дети с весом ниже 2500 граммов считаются «имеющими низкую массу тела при рождении», а с весом меньше 1500 граммов – «очень низкую массу тела при рождении». Рис. 3.2(d) показывает, что, согласно ожиданиям, 1,7 % младенцев в этой генеральной совокупности будут иметь низкую массу тела при рождении. Фактическое число таких детей составило 14 170 (1,3 %) – хорошее соотношение с прогнозом, который дает нормальная кривая. Следует отметить, что в этой группе (доношенные дети у белых неиспаноязычных женщин) уровень детей с низкой массой тела очень небольшой, в то время как общий уровень в 2013 году по всей стране составил 8 %, а у черных женщин – 13 %; как видите, разница между расами существенна.
Возможно, самый важный урок, извлеченный из этого примера, состоит в том, что темно-серая закрашенная область на рис. 3.2(d) выполняет две функции:
1. Отображает долю детей с низкой массой тела при рождении в генеральной совокупности.
2. Демонстрирует вероятность того, что вес случайно выбранного ребенка, родившегося в 2013 году, будет меньше 2500 граммов.
Таким образом, генеральную совокупность можно рассматривать не только как группу реальных людей, но и как представление вероятностного распределения для случайных наблюдений. Эта двойная интерпретация будет иметь фундаментальное значение, когда мы перейдем к более формальным статистическим заключениям.
Конечно, в этом случае мы знаем форму и параметры генеральной совокупности, поэтому можем что-то сказать и о долях, и о вероятностях различных событий, которые могут наступать при случайных наблюдениях. Но суть этой главы в том, что мы, как правило, не знаем параметры генеральной совокупности, а потому хотим с помощью индукции переходить от данных выборки ко всей совокупности. Мы видели, что стандартные измерения выборочного среднего, медианы, моды и так далее, которые мы создали для выборки, распространяются на всю генеральную совокупность. Но разница в том, что мы не знаем, что это такое. Именно с этой проблемой мы и столкнемся в следующей главе.
Что такое генеральная совокупность?
Рассмотренные выше индуктивные этапы хорошо работают с плановыми исследованиями, однако значительная часть статистических анализов не так легко вписывается в эту структуру. Мы видели, что иногда (например, при использовании полицейской документации о преступлениях) у нас могут быть все доступные данные. И хотя это не выборка, идея лежащей в их основе какой-то генеральной совокупности все же имеет ценность.
Вернемся к данным об операциях на сердце у детей из главы 1. Мы сделали довольно смелое предположение, что проблем с измерениями не было – иными словами, что у нас есть полный набор операций и всех выживших детей в течение 30 дней во всех больницах, то есть идеальное знание выборки (этап 2).
Но что такое изучаемая совокупность? Мы располагаем данными обо всех больницах и всех детях, поэтому нет большей группы, из которой они могут быть взяты. Хотя идея генеральной совокупности обычно вводится в курсах статистики довольно буднично и вскользь, наш пример показывает, что это сложное и запутанное понятие, требующее подробного изучения, поскольку на нем основаны многие важные идеи.
Существуют три вида генеральных совокупностей, из которых мы можем делать выборки – вне зависимости от того, являются ли источниками данных люди, сделки, деревья или что-либо другое.
• Буквальная совокупность. Это идентифицируемая группа, откуда мы, к примеру, выбираем случайным образом человека при опросе. Или группа людей, для которых можно провести измерения, и, хотя мы на самом деле не выбираем наугад, у нас есть данные от добровольцев. Например, мы можем рассматривать людей, угадавших число драже в банке, как выборку из совокупности всех любителей математики, которые смотрят видеоролики на YouTube.
• Виртуальная совокупность. Мы часто проводим измерения с помощью каких-либо устройств, скажем, измеряем кровяное давление или уровень загрязнения воздуха. Мы знаем, что всегда можем сделать еще несколько измерений и получить немного другие результаты – вам это прекрасно известно, если вы когда-нибудь повторно измеряли артериальное давление. Близость полученных результатов зависит от точности прибора и неизменности обстановки. Мы могли бы думать об этом как о получении наблюдений из некой виртуальной совокупности всех измерений, которые могли бы сделать, если бы имели достаточно времени.
Метафорическая совокупность. В этом случае никакой большей совокупности нет вообще. Это необычное понятие. Мы действуем так, будто наши данные получены случайным образом из какой-то большей совокупности, хотя это не так. Например, в случае детей, перенесших операцию на сердце, у нас не было никакой выборки, а были полные данные, и ничего сверх них мы собрать уже не могли. Подумайте о количестве ежегодно совершаемых убийств, результатах экзаменов для определенного класса или данных обо всех странах мира – ни в одном из этих случаев мы не можем считать имеющиеся данные выборкой из какой-то фактической совокупности.
Идея метафорической совокупности требует осмысления: возможно, предпочтительнее думать, что наши наблюдения берутся из некоего воображаемого пространства возможностей. Например, мировая история такая, какая есть, но мы можем представить, что она развивалась по совершенно иному сценарию, а мы просто оказались в одном из ее возможных состояний. Это множество альтернативных историй можно считать метафорической совокупностью. А если конкретнее, то, когда мы рассматривали детские операции в Соединенном Королевстве за 2012–2015 годы, у нас были полные данные о детях за этот период: мы знали и число смертей, и число выживших. Однако мы можем себе представить гипотетические истории, в которых выжили бы другие дети вследствие непредвиденных обстоятельств, которые мы склонны именовать «случайностью».
Должно быть очевидно, что в статистике выборка редко составляется буквально наугад и что более распространены ситуации, когда потенциально доступны полные данные. Тем не менее крайне полезно придерживаться концепции воображаемой генеральной совокупности, из которой взята наша «выборка», поскольку в этом случае мы можем использовать все математические методы, разработанные для составления выборок из реальных генеральных совокупностей.
Лично мне больше нравится действовать так, будто происходящее вокруг – результат случайного выбора из всех вероятных сценариев. От нас зависит, будем ли мы верить, что это действительно случайность, или воля Божья или богов, или какая-то иная теория причинности: для математики разницы нет. Это всего лишь одно из расширяющих кругозор требований при работе с данными.
Выводы
• Для перехода от данных к выборке, а затем к изучаемой и далее к целевой совокупности требуются индуктивные умозаключения.
• На каждом из этапов могут возникать ошибки и проблемы.
• Лучший способ перейти от выборки к исследуемой совокупности – обеспечить случайность выборки.
• Генеральную совокупность можно представлять и как группу объектов, и как отображение вероятностного распределения для случайного наблюдения, полученного из этой совокупности.
• Описывать совокупности можно с помощью тех же характеристик, что и выборки.
• Часто данные не являются выборкой из буквальной совокупности. Когда в выборку входят все данные, мы можем вообразить, что они взяты из метафорической совокупности событий, которые могли бы случиться, но не произошли.
Глава 4. Причины и следствия
Повышает ли поступление в университет риск развития опухоли мозга?
Эпидемиология изучает, как и почему возникают и распространяются заболевания, при этом скандинавские страны – мечта эпидемиолога. А все потому, что в них каждый человек имеет личный идентификационный номер, который используется при регистрации во всех сферах: здравоохранение, образование, налогообложение и прочие. Это позволяет исследователям комплексно изучать различные аспекты жизни людей, что невозможно сделать (и, наверное, не всегда целесообразно) в других государствах.
Одно масштабное исследование, проведенное более чем на 4 миллионах шведов и шведок, в рамках которого связывались сведения о налогообложении и здоровье за 18 лет, установило, что у людей с более высоким социально-экономическим положением чаще диагностировали опухоль головного мозга. Это было одно из тех солидных, но весьма неинтересных исследований, которые обычно не привлекают особого внимания, поэтому специалист по связям с общественностью посчитал, что в пресс-релизе гораздо лучше написать так: «Высокий уровень образования связан с повышенным риском развития опухоли головного мозга», хотя работа посвящалась скорее социально-экономическому положению, чем образованию. Однако к тому времени, когда результаты были представлены широкой публике, помощник редактора одной из газет выдал классический заголовок: «Почему поступление в университет повышает риск развития опухоли мозга»[85].
Такой заголовок встревожил бы любого, кто имеет высшее академическое образование. Но стоит ли на самом деле беспокоиться? Исследование основывалось на всей доступной генеральной совокупности, а не на выборке, поэтому мы с уверенностью можем заключить, что у более образованных людей действительно немного чаще выявляли опухоль головного мозга. Но неужели интенсивные нагрузки в библиотеке действительно перегревали мозг и вели к неблагоприятным мутациям клеток? Несмотря на газетный заголовок, я в этом сомневаюсь. Как, собственно, и авторы статьи, которые добавили: «Потенциальным объяснением такого результата могут быть полнота регистрации рака и ошибка выявления». Другими словами, люди с более высоким уровнем образования с большей вероятностью пройдут обследование, а значит, опухоли будут регистрироваться чаще (пример того, что в эпидемиологии называется ошибкой обращаемости[86]).
Из главы 2 мы узнали, что коэффициент корреляции Пирсона показывает, насколько близко к прямой расположены точки на диаграмме рассеяния. Когда мы рассматривали английские больницы, проводившие в 1990-х операции на сердце у детей, и отображали на диаграмме точки, отражавшие число операций и уровень выживаемости, высокая корреляция демонстрировала, что более крупные больницы ассоциировались с более низким уровнем смертности. Однако мы не могли сделать вывод, что более крупные больницы и есть причина более низкой смертности.
У такого осторожного отношения солидная родословная. Когда в журнале Nature в 1900 году обсуждали предложенный Карлом Пирсоном коэффициент корреляции, один комментатор предупредил, что «корреляция не означает причинно-следственной связи». В течение следующего столетия эта фраза стала мантрой, постоянно повторяемой статистиками при столкновении с заявлениями, основанными на простом наблюдении, что какие-то две вещи имеют тенденцию изменяться вместе. Существует даже специальный сайт, который автоматически находит невероятные связи: например, очаровательную корреляцию 0,96 между ежегодным потреблением сыра моцарелла в США за 2000–2009 годы и количеством докторских степеней по гражданскому строительству, полученных за этот период[87].
Похоже, у людей есть глубокая внутренняя потребность объяснять происходящее в виде простейшей зависимости «причина следствие». Уверен, что каждый из нас мог бы придумать увлекательную историю обо всех этих остепененных инженерах, поглощающих пиццу с сыром. Существует даже специальное слово для склонности конструировать связи между событиями, которые в реальности не связаны, – апофения, причем ее крайнее проявление – объяснять простую случайность или невезение злонамеренностью других и даже колдовством.
К сожалению (а, возможно, к счастью), мир несколько сложнее, чем колдовство. И первая сложность появляется при попытке понять, что подразумевается под «причиной».
Что такое причинность?
Причинность – это довольно спорный и активно обсуждаемый вопрос, что, вероятно, кажется удивительным, поскольку в реальной жизни все выглядит просто: мы что-то делаем, и это к чему-то приводит. Дверь машины зажала мой большой палец, и теперь он болит.
Но откуда мне знать, что большой палец не заболел бы в любом случае? Возможно, мы могли бы обратиться к тому, что называется контрфактуальным мышлением[88]. Если бы мой палец не зажало дверью, то он бы не болел. Но это всегда будет предположением, требующим переписывания истории, поскольку мы никогда точно не узнаем, что я мог бы почувствовать (хотя в данном случае я могу быть вполне уверен, что мой палец не заболит внезапно сам по себе).
Ситуация осложняется еще больше, когда мы начинаем учитывать неизбежную изменчивость, лежащую в основе событий в реальной жизни. Например, медицинское сообщество сейчас соглашается с тем, что курение вызывает рак легких, однако врачам потребовались десятилетия, чтобы прийти к такому заключению. Почему так долго? Потому что большинство курильщиков не заболевают раком легких, в то время как некоторые некурящие заболевают. Все, что мы можем сказать, – это то, что у вас выше риск заболеть раком легких, если вы курите, чем если не курите; и это одна из причин того, почему для принятия законов об ограничении курения понадобилось столько времени.
Таким образом, наша «статистическая» идея причинности не будет строго детерминистской. Когда мы говорим, что X обусловливает Y, мы не имеем в виду, что каждый раз, когда наступает X, наступает и Y. Мы всего лишь подразумеваем, что если вмешаемся и заставим X происходить чаще, то и Y будет случаться чаще. Соответственно, мы никогда не сможем сказать, что X вызывает Y в данном случае, а можем лишь утверждать, что X увеличивает долю случаев, когда происходит Y. Из этого вытекают два важнейших следствия относительно того, что нам нужно делать при намерении понять причинно-следственную связь. Во-первых, чтобы вывести причинно-следственную связь с полной уверенностью, в идеале нам нужно вмешаться и провести эксперименты. Во-вторых, поскольку мир статистический и стохастический, вмешаться нужно не один раз, чтобы собрать доказательства.
Все это естественным образом подводит нас к очень деликатной теме – проведению клинических испытаний на больших группах людей. Мало кому понравится идея экспериментов над собой, особенно если речь идет о жизни и смерти. Это тем более примечательно, что тысячи людей изъявляли желание участвовать в масштабных исследованиях, в которых ни они, ни врачи не знали, какое лечение в итоге будет применено.
Уменьшают ли статины риск инфарктов и инсультов?
Каждый день я принимаю маленькую белую таблетку – статин, потому что мне сказали, что он понижает уровень холестерина и тем самым уменьшает риск инфарктов и инсультов. Но как это сказывается на мне? Я почти уверен, что эти таблетки снижают уровень холестерина липопротеинов низкой плотности (ЛПНП)[89], поскольку мне сообщили, что он упал вскоре после того, как я начал их принимать. Снижение ЛПНП – непосредственный, по сути, детерминированный эффект, который, как я полагаю, вызван приемом статина.
Однако я никогда не узнаю, принесет ли мне этот ежедневный ритуал пользу в долгосрочной перспективе; все зависит от того, какой из многочисленных сценариев моей дальнейшей жизни будет на самом деле разыгран. Если инфаркта или инсульта у меня никогда не будет, то я так и не узнаю, в какой-то степени это результат приема таблеток, или их многолетнее лотание здесь ни при чем и просто оказалось напрасной тратой времени. Если инфаркт или инсульт все же случится, то я не узнаю, было ли это событие отложено благодаря приему статина. Все, что мне дано знать, – это то, что в среднем препарат приносит пользу большой группе похожих на меня людей и что это знание основано на масштабных клинических испытаниях.
Цель клинических испытаний – провести «правильный тест», который верно определяет причинность и оценивает средний эффект нового медицинского метода лечения, и при этом избежать ошибок, которые могли бы дать ложное представление о его эффективности.
Правильное клиническое исследование в идеале должно соответствовать следующим принципам:
1. Контроль. При намерении изучить влияние статинов на популяцию мы не можем просто дать их нескольким добровольцам, а затем, если инфаркта не будет, заявить, что его удалось избежать благодаря приему таблеток (несмотря на наличие сайтов, которые используют подобные смехотворные рассуждения для продвижения своей продукции). Нам нужна экспериментальная группа, которой будут давать статины, и контрольная группа, принимающая сахарные таблетки или плацебо.
2. Распределение при лечении. Важно сравнивать подобное с подобным, поэтому и лечение, и группы сравнения должны быть максимально похожи. Лучший способ этого добиться – случайно распределить участников по группам, а потом наблюдать, что с ними происходит. Такой метод называется рандомизированным контролируемым исследованием (РКИ). В тестировании статинов задействуется значительное количество людей, поэтому обе группы должны быть сходны по всем факторам, которые могли бы повлиять на результат, включая (что критически важно) те, о которых мы не знаем. Такие исследования могут быть весьма масштабными: в исследовании по защите сердца (HPS), проведенном в Великобритании в конце 1990-х годов, 20 536 человек с повышенным риском инфаркта или инсульта были случайным образом распределены на две группы: одним ежедневно давали 40 мг симвастатина, а другим – пустую таблетку[90].
3. Подсчет количества людей в обеих группах. Люди, попавшие в группу «статинов» в исследовании по защите сердца, включались в итоговый анализ, даже если не принимали свои таблетки. Такой принцип называется «анализ по назначенному лечению» и может показаться довольно странным. Это означает, что итоговая оценка эффекта статинов в действительности измеряет эффект прописанных статинов, а не фактически принимаемых. На практике, конечно, людям настоятельно рекомендовали пить таблетки в течение всего исследования, хотя через пять лет HPS 18 % тех, кому были прописаны статины, прекратили их принимать, в то время как целых 32 % тех, кому было назначено плацебо, в действительности начали принимать статины в ходе испытаний. Поскольку люди, изменяя лечение, как правило, размывают различия между группами, мы можем ожидать, что видимый эффект в анализе по назначенному лечению может быть меньше, чем эффект от реального приема препарата.
4. Если возможно, люди не должны знать, в какую из двух групп входят. В испытаниях статинов и настоящие препараты, и плацебо выглядели одинаково, поэтому участники не знали, что именно принимают[91].
5. Процедуры для групп должны быть одинаковыми. Если бы группу, которая употребляла статины, чаще приглашали в больницу или более тщательно обследовали, то было бы невозможно разграничить пользу от применения препарата и от улучшенного ухода. В HPS персонал, наблюдавший за пациентами, не знал, кто из них принимает статины, а кто – плацебо.
6. По возможности те, кто оценивает итоговые результаты, не должны знать, к какой группе относятся испытуемые: полагая, что лечение помогает, врач может преувеличить пользу для экспериментальной группы, то есть допустить неосознанную ошибку.
7. Измеряйте всех. Нужно приложить максимум усилий, чтобы отследить всех участников, поскольку люди, бросившие исследование, могли, например, это сделать из-за побочных эффектов препарата. У HPS были замечательные 99,6 % полного наблюдения за всеми в течение пяти лет – эти результаты приведены в табл. 4.1.
Таблица 4.1
Результаты пяти лет исследования защиты сердца в соответствии с лечением, назначенным пациентам. Абсолютное снижение риска инфаркта составило 11,8–8,7 = 3,1 %. Таким образом, в группе из 1000 человек, принимавших статины, был предотвращен примерно 31 инфаркт. Это означает, что для предотвращения одного инфаркта примерно 30 человек должны принимать статины в течение пяти лет
Те, кто попал в группу, принимавшую статины, явно в среднем имели лучшие показатели здоровья, а поскольку пациенты распределялись случайным образом и в остальном лечились одинаково, результат можно считать следствием приема статинов. Однако мы видели, что многие люди на самом деле не придерживались назначенного лечения, и это приводит к некоторому размыванию разницы между группами: специалисты, проводившие HPS, оценивают реальный эффект от приема статинов примерно на 50 % выше, чем показано в табл. 4.1.
Два важных итоговых замечания:
1. Не полагайтесь на одно исследование. Один отдельный эксперимент может нам сказать, что лекарство работало в определенной группе в определенном месте, но надежные выводы требуют нескольких исследований.
2. Систематически проверяйте доказательства. При рассмотрении нескольких испытаний обязательно включайте каждое проведенное исследование, создавая таким образом систематический обзор. Затем результаты можно формально объединить в метаанализ.
Например, недавний систематический обзор собрал данные двадцати семи рандомизированных контролируемых исследований статинов, в которых участвовало более 170 тысяч человек с пониженным риском сердечно-сосудистых заболеваний[92]. Но вместо того чтобы фокусироваться на разнице между экспериментальной (принимающей статины) и контрольной группами, оценивался эффект от снижения уровня ЛПНП. По сути, исследователи предположили, что эффект статинов достигается посредством изменения липидов в крови, и основывали свои расчеты на среднем уменьшении ЛПНП, установленном в каждом из испытаний, учитывающем любое несоблюдение назначенного лечения. Такое дополнительное предположение позволило оценить эффект от фактического приема статинов. Ученые пришли к выводу, что снижение уровня ЛПНП на 1 ммоль/л (миллимоль на литр) уменьшает риск серьезных проблем (в том числе преждевременную смерть) с сердечно-сосудистой системой на 21 %. Мне, например, этого достаточно, чтобы продолжать принимать такие таблетки[93].
Мы проигнорировали вероятность того, что любая наблюдаемая связь необязательно является причинно-следственной, а может быть просто результатом случайности. Большинство лекарственных препаратов на рынке обладают лишь умеренным воздействием и помогают только меньшинству принимающих их людей; их общую полезность можно точно выявить исключительно в рамках крупных тщательных рандомизированных исследований. Испытания статинов довольно-таки масштабны, особенно когда они объединены в метаанализ, а значит, полученные результаты нельзя объяснить простым случайным отклонением. (Мы узнаем, как это проверить, из главы 10.)
Эффективна ли молитва?
Список принципов РКИ не нов: почти все они были введены в 1948 году в эксперименте, который считается первым правильным клиническим испытанием. Тогда исследовался стрептомицин – лекарство, предназначенное для борьбы с туберкулезом. Конечно, было бы слишком безнравственно случайным образом определять, кого лечить, а кого оставить без потенциально спасающего жизнь препарата. Однако принятию столь трудного решения способствовал тот факт, что имеющегося в то время в Великобритании лекарства в любом случае не хватило бы на всех, поэтому случайный выбор казался вполне справедливым и этически обоснованным. Но даже по прошествии стольких лет и тысяч проведенных РКИ общество все еще может удивиться, узнав, что медицинские решения о том, какое лечение рекомендовать человеку (даже такие драматичные, как радикальная мастэктомия или лампэктомия при раке молочной железы[94]), фактически принимаются путем подбрасывания монеты (пусть это и метафорическая монета, воплощенная в генераторе случайных чисел в компьютере)[95].
На практике процесс назначения лечения в испытаниях гораздо сложнее, чем простая рандомизация в каждом случае, так как мы хотим убедиться, что все типы людей одинаково представлены в группах, получающих различные виды лечения. Например, мы можем захотеть, чтобы количество пожилых людей с повышенным риском, принимающих статины и плацебо, распределялось примерно поровну. Эта схема позаимствована из сельскохозяйственных экспериментов, где многие идеи рандомизированных исследований возникли в основном благодаря работе Рональда Фишера (о котором мы расскажем чуть позже). Например, большое поле делится на отдельные участки, а затем для каждого участка случайным образом выбирается удобрение – так же как люди случайным образом получают назначение на лечение. Но части поля могут разниться по дренажу, затененности и другим признакам, поэтому предварительно поле нужно разделить на блоки, содержащие примерно сходные участки, а уже затем осуществить рандомизацию, чтобы в каждом блоке было равное число участков с тем или иным удобрением. В таком случае способы обработки земли будут сбалансированными, скажем на заболоченных участках одинаково применят все виды удобрений.
Например, однажды я работал над рандомизированным испытанием, где сравнивались два альтернативных метода лечения грыжи: стандартная «открытая» операция и лапароскопия (операция с минимальным вмешательством). Предполагалось, что мастерство хирургической бригады во время испытаний может возрастать, поэтому было важно, чтобы в течение всего исследования эти два метода были сбалансированы. Поэтому я разбил цепочку пациентов на блоки по 4 и 6 человек, а затем случайно распределял их внутри каждого блока по методам операции. Используемые методы были напечатаны на листочках бумаги, которые я сложил и поместил в пронумерованные непрозрачные коричневые конверты. Помню, как я наблюдал за больными, лежащими на предоперационной каталке, понятия не имея, какую именно операцию им будут делать, в то время как анестезиолог открывал конверт и узнавал, что с ними случится дальше, в частности вернутся ли они домой с одним большим шрамом или несколькими точечными проколами.
Рандомизированные испытания стали золотым стандартом тестирования новых медицинских методов, а теперь все чаще используются и при оценке эффективности новых методик в сфере образовании или правоохранительной деятельности. Например, британская организация Behavioural Insights Team[96] случайным образом отобрала половину школьников, пересдающих экзамены по математике и английскому языку, и регулярно отправляла им поощряющие текстовые сообщения, чтобы поддержать в учебе. В результате доля сдавших экзамены среди тех, кто имел такую поддержку, оказалась на 27 % выше. Эта же группа исследователей наблюдала и ряд положительных эффектов в рандомизированном испытании видеокамер, закрепленных на теле полицейских, – к примеру, снижение количества остановленных и безосновательно обысканных[97].
Проводились даже эксперименты для определения эффективности молитвы. Например, в рамках исследования терапевтических эффектов ходатайственной молитвы (STEP) свыше 1800 пациентов с шунтированием сердца случайным образом разделили на три группы: за пациентов 1-й и 2-й групп, соответственно, молились и не молились, но при этом они не знали, молятся за них или нет, а вот члены 3-й группы знали, что за них молятся. Единственным заметным эффектом было незначительное увеличение осложнений в группе, где знали, что за них молятся. Один из исследователей прокомментировал это так: «Возможно, это заставило их сомневаться и задаться вопросом: “Неужели я настолько болен, что им пришлось вызвать свою молитвенную команду?”»[98]
Основное из последних нововведений в рандомизированных экспериментах – A/B-тестирование в веб-дизайне[99], при котором пользователей направляют на различные варианты веб-страницы (о чем они не знают). Далее измеряется количество времени, проведенного на том или ином варианте страницы, переходов по рекламным объявлениям и так далее. Серия A/B-тестов может быстро привести к оптимальному дизайну, а огромные размеры выборки означают, что даже небольшие, но потенциально выгодные эффекты гарантированно обнаружатся. Следовательно, совершенно новое сообщество людей должно было узнать о тонкостях пробных испытаний, в том числе о рисках при проведении множественных сравнений, которые мы рассмотрим в главе 10.
Что делать, если рандомизация невозможна?
Почему у стариков большие уши?
Легко провести рандомизацию, когда нужно, скажем, изменить сайт: можно без проблем найти участников, поскольку они даже не знают, что участвуют в эксперименте, и нет никаких этических проблем в использовании их в качестве подопытных кроликов. Однако иногда осуществить рандомизацию не просто трудно, а невозможно: мы не можем проверять влияние привычек, например, заставляя людей в рамках исследования курить или употреблять нездоровую пищу (даже если такие эксперименты проводятся на животных). Когда данные появляются не в результате эксперимента, а просто из наблюдений, их называют наблюдательными (а соответствующие исследования – наблюдательными, или обсервационными). Поэтому часто наша задача – постараться как можно лучше отделить корреляцию от причинно-следственной связи, применяя к наблюдательным данным статистические принципы и хороший план исследования в сочетании со здоровой дозой скептицизма.
Вопрос об ушах стариков, возможно, не так важен, как многие другие темы в этой книге, но он иллюстрирует необходимость выбора плана исследования, который подойдет для ответа на вопросы. Если мы обратимся к подходу на основе цикла PPDAC, то проблема строится на моем личном наблюдении, что у стариков, похоже, действительно слишком большие уши. Но почему? Очевидный план – посмотреть, коррелирует ли в генеральной совокупности возраст с длиной ушей взрослых людей. Как оказалось, группа медиков-исследователей в Великобритании и Японии собрала данные в таком поперечном исследовании: их анализ показал явную положительную корреляцию, и они пришли к заключению, что длина ушей связана с возрастом[100].
Теперь наша задача – попытаться объяснить такую связь. Уши продолжают расти с возрастом? Или у нынешних пожилых людей они всегда были большими, а из-за каких-то событий, произошедших за последние десятилетия, у предыдущих поколений уши меньше? Или же люди с ушами меньшего размера просто умирают раньше по каким-то причинам, ведь существует же у китайцев поверье, что большие уши предсказывают долгую жизнь. Чтобы придумать, какие исследования могли бы проверить такие идеи, нужно определенное воображение. В проспективном когортном исследовании участники измеряли бы уши всю свою жизнь, проверяя, не растут ли они, или не умирают ли раньше люди с небольшими ушами. Но это требует много времени, поэтому можно применить альтернативу – ретроспективное когортное исследование, то есть взять нынешних стариков и попытаться выяснить, выросли ли у них уши, например, с помощью старых фотографий. Исследование типа «случай-контроль» могло бы к уже умершим людям подобрать живущих, которые соответствуют им по возрасту и прочим факторам, связанным (по нашим сведениям) с долголетием, и посмотреть, больше ли уши у тех, кто прожил дольше[101].
А затем цикл решения задачи запустится снова.
Что мы можем сделать, наблюдая какую-то связь?
Именно здесь требуется определенное статистическое воображение, и попытка догадаться о причинах того, почему наблюдаемая корреляция может быть ложной, обещает стать приятным упражнением. Некоторые причины довольно просты: значительная корреляция между потреблением моцареллы и числом инженеров, по-видимому, обусловлена тем, что обе категории увеличиваются со временем. Точно так же любые корреляции между продажами мороженого и числом утонувших зависят от погоды. Когда видимую связь между двумя величинами можно объяснить наличием какого-то наблюдаемого внешнего фактора, влияющего на обе величины, его называют возмущающим, или искажающим фактором. И год, и погода – это потенциальные возмущающие факторы, которые можно регистрировать и учитывать при анализе.
Простейший метод работы с возмущающим фактором – посмотреть на видимые связи при каждом его уровне. Это называется поправкой, или стратификацией. Например, мы могли бы изучить связь между продажами мороженого и числом утонувших в дни с примерно одинаковой температурой воздуха.
Однако поправка может привести к некоторым парадоксальным результатам, как показал анализ процента зачисления абитуриентов в Кембриджский университет для обоих полов в 1996 году. Общая доля поступивших на пять учебных дисциплин в Кембридже была чуть выше у мужчин (24 % из 2470 абитуриентов), чем у женщин (23 % из 1184 абитуриенток). Это те дисциплины, которые сегодня принято обозначать аббревиатурой НТИМ (STEM) – наука, технологии, инженерия и медицина[102], то есть предметы, исторически изучаемые преимущественно мужчинами. Была ли тут гендерная дискриминация?
Внимательно посмотрите на табл. 4.2. Хотя общий процент зачисления выше у мужчин, на каждую отдельную дисциплину он выше у женщин. Как мог возникнуть такой парадокс? Объяснение заключается в том, что женщины чаще подавали заявления на более популярные, конкурентные дисциплины – медицину и ветеринарию, и реже – на инженерию, где у них более высокий процент поступления. Поэтому мы можем заключить, что никаких подтверждений дискриминации нет.
Таблица 4.2
Иллюстрация парадокса Симпсона на примере данных о поступлении в Кембриджский университет в 1996 году. Общий процент зачисленных абитуриентов выше у мужчин, однако процент зачисления на каждую дисциплину отдельно выше у женщин
Описанная ситуация известна как парадокс Симпсона[103], который возникает, когда видимое направление взаимосвязи становится обратным с учетом возмущающего фактора. В результате вывод, извлеченный из данных, становится противоположным. Статистики наслаждаются поиском подобных примеров в реальной жизни, так как каждый из них подчеркивает, насколько осторожно нужно обращаться с наблюдательными данными. Тем не менее такие случаи показывают идеи, возникающие при разделении данных по факторам, которые могут объяснить наблюдаемые связи.
Добавляет ли близость к супермаркету Waitrose 36 тысяч фунтов к стоимости вашего дома?
В 2017 году британские СМИ опрометчиво опубликовали заявление, что соседство с супермаркетом сети Waitrose «добавляет 36 тысяч фунтов к цене дома»[104]. Однако это было не исследование изменения цен на жилье в связи с открытием нового супермаркета, и Waitrose, конечно же, не размещает свои магазины случайным образом: эти данные всего лишь корреляция между ценами на жилье и близостью супермаркетов, особенного таких высококлассных, как Waitrose.
Эта корреляция практически наверняка отражает политику Waitrose по открытию магазинов в более богатых районах, а потому представляет собой прекрасный пример того, что фактическая причинно-следственная связь является полной противоположностью заявлению в газете. Неудивительно, что она называется обратной причинной зависимостью. Более серьезные примеры встречаются в исследованиях, изучающих взаимосвязь между употреблением алкоголя и состоянием здоровья: как правило, показатель смертности у непьющих людей в целом существенно выше, чем у умеренно пьющих. Как это понимать, учитывая, что мы знаем о влиянии алкоголя на печень? Частично это объясняется обратной причинной зависимостью: люди, которые умирают с более высокой вероятностью, не пьют, потому что уже больны (возможно, из-за чрезмерного употребления алкоголя в прошлом). Сегодня более тщательный анализ исключает бывших алкоголиков, а также игнорирует неблагоприятные для здоровья события, происходящие в первые несколько лет исследования, поскольку они могут быть результатом предыдущих условий. Однако даже при таких исключениях некоторая общая польза для здоровья от умеренного употребления алкоголя, похоже, остается, хотя и активно оспаривается.
Еще одно забавное упражнение – попробовать сочинить историю с обратной причинной зависимостью для любого статистического заявления, основанного исключительно на корреляции. Моя любимая история – о корреляции между потреблением безалкогольных газированных напитков американскими подростками и их склонностью к насилию. Хотя одна газета преподнесла это так: «Газированные напитки делают подростков жестокими»[105], что, скорее всего, так же правдоподобно, как и утверждение, что насилие вызывает жажду. Или, что более правдоподобно, мы могли бы придумать некие общие факторы, влияющие на обе величины, например принадлежность к какой-то группе сверстников. Потенциальные причины, которые мы не измеряем, называются скрытыми факторами, поскольку они остаются на заднем плане, не входят в поправки и только и ждут подходящего момента, чтобы опровергнуть наивные выводы из наблюдательных данных.
Вот еще несколько примеров того, как легко поверить в наличие причинно-следственной связи, хотя на самом деле на события влияет посторонний фактор.
• У многих детей диагностируется аутизм после вакцинации. Вызывает ли вакцинация аутизм? Нет, но эти события возникают примерно в одном возрасте, а потому неизбежны случайные совпадения.
• Среди ежегодно умирающих людей доля левшей меньше, чем во всей популяции. Означает ли это, что левши живут дольше? Нет, это происходит потому, что те, кто умирает сейчас, родились во времена, когда детей насильственно переучивали пользоваться правой рукой, поэтому пожилых левшей меньше[106].
• Средний возраст смерти римских пап выше, чем в среднем в популяции. Означает ли это, что избрание папой помогает жить дольше? Нет, просто пап выбирают из группы людей, которые не умерли молодыми (в противном случае они не были бы кандидатами)[107].
Миллионы способов, которыми нас можно поймать в ловушку, могут подтолкнуть к мысли, что причинно-следственную связь можно выявить только в рандомизированном эксперименте. Но, по иронии судьбы, эту точку зрения опроверг человек, отвечавший за первое современное рандомизированное клиническое исследование.
Как сделать заключение о причинной связи по наблюдательным данным?
Остин Брэдфорд Хилл был блестящим британским прикладным статистиком, находящимся в авангарде двух изменивших мир научных достижений: он разработал упомянутые ранее клинические испытания стрептомицина, которые фактически установили стандарты для всех последующих РКИ, и провел вместе с Ричардом Доллом в 1950-х годах исследование, по сути, подтвердившее связь между курением и раком легких. В 1965 году он изложил список критериев, которые необходимо учесть, прежде чем делать вывод о том, что наблюдаемая связь между воздействием и результатом является причинной. Под воздействием здесь понимается что угодно – от химических веществ в окружающей среде до таких привычек, как курение или недостаточное количество физических упражнений.
Впоследствии эти критерии широко обсуждались. Представленная ниже версия разработана Джереми Хоуиком с коллегами, которые выделили в ней прямые, механистические и параллельные доказательства[108].
Прямое доказательство:
1. Масштаб эффекта настолько велик, что его нельзя объяснить разумными возмущающими факторами.
2. Существует соответствующая временная и/или пространственная близость, когда причина предшествует эффекту, а эффект возникает через разумный интервал, и/или причина происходит в том же месте, что и эффект.
3. Чувствительность к дозе и обратимость: при увеличении воздействия эффект увеличивается. Подтверждение еще сильнее, если эффект уменьшается при уменьшении дозы.
Механистическое доказательство:
4. Существует правдоподобный механизм действия, который может быть биологическим, химическим или механическим, с внешним подтверждением «причинно-следственной цепочки».
Параллельное доказательство:
5. Эффект соответствует тому, что уже известно.
6. Эффект обнаруживается при повторном воспроизведении исследования.
7. Эффект выявляется в аналогичных, но не идентичных исследованиях.
Такие принципы позволяют выявить причинно-следственную связь в наборе разрозненных данных даже при отсутствии рандомизированных испытаний. Например, установлено, что при втирании аспирина в ротовой полости (например, для облегчения зубной боли) образуются язвочки. Эффект силен (удовлетворяет критерию 1), происходит при втирании (2), является правдоподобной реакцией на кислотный компонент препарата (3), не противоречит современным научным данным и аналогичен известному эффекту, при котором аспирин вызывает язву желудка (4), а также регулярно наблюдается у различных пациентов (5). Итого соблюдены пять из семи критериев, оставшиеся два не проверялись, поэтому вполне резонно заключить, что мы имеем дело с истинной побочной реакцией на препарат.
Критерии Брэдфорда Хилла применяются к общим научным заключениям, касающимся генеральных совокупностей. Но нас могут интересовать и отдельные случаи – например, в гражданской тяжбе, когда суду нужно решить, привело ли определенное воздействие (скажем, наличие асбеста на работе) к негативному результату для конкретного лица (например, к раку легких у Джона Смита). Никогда нельзя установить с полной уверенностью, что асбест стал причиной рака, поскольку невозможно доказать, что без асбеста рак не развился бы. Тем не менее некоторые суды признают, что по «принципу большей вероятности» прямая причинная связь установлена, если показатель относительного риска, связанного с воздействием, превосходит 2. Но почему именно 2?
Предположительно аргументация этого решения такова:
1. Допустим, при обычных обстоятельствах из 1000 человек, подобных Джону Смиту, раком легких заболеют 10. Если асбест повышает риск более чем вдвое, то при его воздействии на 1000 человек наблюдалось бы, возможно, 25 случаев рака.
2. Таким образом, среди тех, кто подвергался воздействию асбеста и получил рак легких, меньше половины заболели бы раком при отсутствии асбеста.
3. Следовательно, более половины случаев рака в этой группе вызваны асбестом.
4. А поскольку Джон Смит принадлежит к этой группе, по принципу большей вероятности его рак вызван асбестом.
