Искусство статистики. Как находить ответы в данных Шпигельхалтер Дэвид

Таблица 6.5

С помощью алгоритма Predict 2.1 определялась ожидаемая доля 65-летних женщин, которые проживут 10 лет после операции при раке молочной железы, когда при обследовании была обнаружена опухоль 2-й стадии размером 2 см, с двумя метастазами узлов и положительными индексами ER, HER2 и Ki-67. Показана кумулятивная ожидаемая польза для различных методов адъювантной терапии, хотя они могут иметь побочные эффекты. Доля выживаемости для «женщин без рака» отражает наилучшую возможную выживаемость с учетом возраста женщины

* Трастузумаб – противоопухолевый препарат. Герцептин – его торговое название. Прим. пер.

Рис. 6.7

Кривые выживаемости из Predict 2.1 для периода до 15 лет после операции – для женщин с признаками, перечисленными в подписи к табл. 6.5. Показано совокупное увеличение выживаемости в зависимости от дополнительных видов терапии. Область над пунктирной линией отображает процент женщин с раком молочной железы, умерших от других причин

Программа Predict 2.1 не совершенна, и данные в табл. 6.5 могут использоваться только в качестве примерных ориентиров: они отображают, что (как можно ожидать) случится с женщинами, обладающими признаками, включенными в алгоритм, но для какой-то конкретной женщины нужно учитывать дополнительные факторы. Тем не менее Predict 2.1 регулярно используется для десятков тысяч случаев в месяц как на консилиумах, где обсуждаются варианты лечения, так и для передачи этой информации пациентке. Для женщин, желающих активно участвовать в своем лечении, используется процесс, известный как «совместный уход», когда пациентке предоставляется информация, обычно доступная только врачам, что может помочь ей лучше контролировать свою жизнь. Этот алгоритм не запатентован и представляет собой программное обеспечение с открытым исходным кодом, поэтому система регулярно обновляется, чтобы предоставлять дополнительную информацию, в том числе о и негативных последствиях лечения.

Искусственный интеллект

С момента появления в 1950-е годы идея искусственного интеллекта (ИИ) периодически переживает всплески ажиотажа и энтузиазма и последующие волны критики. Я работал над диагностикой с помощью компьютера и неопределенностью в ИИ в 1980-е, когда в целом эта тема обсуждалась в рамках конкуренции между различными подходами: как основанными на вероятности и статистике или на экспертных «правилах» для суждений, так и теми, которые пытались эмулировать когнитивные способности с помощью нейронных сетей. Сейчас эта область стала более зрелой, подход к ее основополагающей философии – более прагматичным и универсальным, хотя ажиотаж не исчез.

Демонстрируемый машинами интеллект – весьма широкая идея. Она намного масштабнее, чем ограниченная проблема алгоритмов, обсуждаемая в этой главе, и статистический анализ – всего лишь один компонент для построения систем ИИ. Однако, как показывают последние выдающиеся достижения в компьютерном зрении, речи, играх и так далее, главную роль в успехах в «узком» ИИ играет статистическое обучение. Такие системы, как Predict, которые ранее считались системами принятия решений на базе статистики, теперь можно с полным основанием именовать ИИ[150].

Многие из вышеописанных проблем сводятся к алгоритмам, моделирующим только связи и не имеющим понятия о процессах, лежащих в основе. Джуда Перл, благодаря которому повысилось внимание к причинным связям в ИИ, утверждает, что такие модели позволяют всего лишь отвечать на вопросы типа «Мы наблюдаем X, чего мы можем ожидать от следующего наблюдения?» В то же время общий ИИ нуждается в причинно-следственной модели того, как реально функционирует мир, что позволило бы ему отвечать на вопросы человеческого уровня, касающиеся результатов вмешательства («Что будет, если мы сделаем X?») и контрфактуального мышления («Что было бы, если бы мы не сделали X?»). Пока мы весьма далеки от искусственного интеллекта, обладающего такой способностью.

Эта книга подчеркивает классические статистические проблемы малых выборок, систематические ошибки (в статистическом смысле) и невозможность обобщения на новые ситуации. Список задач для алгоритмов показывает, что хотя беспокоиться о величине выборки можно меньше ввиду наличия колоссальных объемов данных, другие проблемы имеют тенденцию усугубляться и мы сталкиваемся с дополнительной проблемой – объяснением для обоснования алгоритма. Огромные массивы данных только увеличивают проблемы при получении надежных выводов. Смирение при построении алгоритмов крайне важно.

Выводы

• Алгоритмы, построенные на основе данных, можно использовать в различных технологических приложениях для классификации и прогнозирования.

• Важно остерегаться переобучения алгоритма на тренировочных данных, когда, по сути, происходит подгонка не к сигналу, а к шуму.

• Алгоритмы можно оценивать по точности классификации, способности различать отдельные группы, а также общей точности прогнозирования.

• Сложным алгоритмам может не хватать прозрачности, поэтому, возможно, разумнее потерять немного в точности ради понимания.

• Использование алгоритмов и искусственного интеллекта сопряжено со многими трудностями, поэтому важно осознавать как мощь, так и ограничения методов машинного обучения.

Глава 7. Насколько мы можем быть уверены в происходящем? Оценки и интервалы

Сколько в Великобритании безработных?

В январе 2018 года новостной сайт «Би-би-си» объявил, что за три месяца до прошедшего ноября «уровень безработицы в Соединенном Королевстве снизился на 3 тысяч и составил 1,44 миллиона человек». О причинах такого сокращения много спорили, но, как ни странно, никто не усомнился в точности этой цифры. Однако при тщательной проверке Бюро национальной статистики Великобритании обнаружило, что погрешность этой величины составляет ±77 000. Иными словами, истинное изменение могло колебаться от снижения на 80 тысяч до увеличения на 74 тысячи. Таким образом, хотя журналисты и политики считали, что заявленное сокращение касается всей страны, фактически это была неточная оценка, основанная на опросе примерно 100 тысяч человек[151]. Аналогично, когда Бюро статистики труда США сообщило о росте безработицы среди гражданского населения на 108 тысяч человек между декабрем 2017 и январем 2018 года, эта оценка опиралась на выборку примерно из 60 тысяч домохозяйств, а погрешность (которую опять же трудно определить) составляла ±300 000[152],[153].

Осознавать неопределенность крайне важно. Сделать какую-нибудь оценку способен кто угодно, но умение реалистично определить ее возможную погрешность – важнейший компонент статистики. Даже притом, что это затрагивает некоторые сложные понятия.

Предположим, мы собрали какие-то точные данные, возможно, с помощью хорошо спланированного опроса, и хотим обобщить результаты на изучаемую совокупность. Если мы проявляли осторожность и избегали внутренних смещений (скажем, обеспечив случайную выборку), то можем ожидать, что характеристики выборки будут близки к соответствующим характеристикам изучаемой совокупности.

Этот важный момент стоит уточнить. В хорошем исследовании мы ожидаем, что выборочное среднее будет близко к среднему всей совокупности, интерквартильный размах в выборке будет близок к интерквартильному размаху всей совокупности и так далее. В главе 3 мы рассматривали идею характеристик всей совокупности на примере данных о весе новорожденных, где назвали выборочное среднее статистикой, а среднее всей совокупности – параметром. В более строгих статистических текстах эти две величины обычно обозначают римскими и греческими буквами соответственно – скорее всего, в обреченной (вероятно) попытке избежать путаницы. Например, латинской буквой m часто обозначают выборочное среднее, а греческой буквой  (мю) – среднее всей совокупности, буквой s – выборочное среднеквадратичное отклонение, а буквой  (сигма) – среднеквадратичное отклонение всей совокупности.

Часто сообщают только итоговую статистику, и во многих случаях этого может быть достаточно. Например, мы видели, что большинство людей не знают, что показатели безработицы в США и Соединенном Королевстве основаны не на полном подсчете всех официально зарегистрированных безработных, а на масштабных опросах. Если такой опрос установил, что 7 % людей в выборке безработные, то национальные агентства и СМИ обычно преподносят это как факт, что 7 % всего населения страны безработные, вместо того чтобы признать, что 7 % – это всего лишь оценка. Выражаясь научно более точно, они просто путают выборочное среднее и среднее во всей совокупности.

Это может оказаться неважным при намерении просто представить широкую картину происходящего в стране, когда опрос масштабен и надежен. Но давайте возьмем такой пример: вы услышали, что опрошены только 100 человек, из которых семь сказали, что не имеют работы. Оценка составляет 7 %, но, вероятно, вряд ли вы сочли бы ее надежной и были бы счастливы, если бы она описывала всю совокупность. А если бы в опросе участвовала 1000 человек? А 100 тысяч? При достаточном масштабе опроса вы, возможно, увереннее согласитесь с тем, что выборочная оценка – достаточно хорошая характеристика всей совокупности. Размер выборки должен влиять на вашу уверенность в оценке, а чтобы делать статистические выводы, необходимо знать, насколько выборочная характеристика может отличаться от настоящей.

Количество сексуальных партнеров

Давайте вернемся к опросу Natsal, описанному в главе 2, в котором участников спрашивали, сколько сексуальных партнеров у них было в течение жизни. В качестве респондентов было привлечено 1125 женщин и 806 мужчин в возрасте 35–44 лет, так что это был солидный опрос. В табл. 2.2 представлены вычисленные выборочные характеристики, например медиана – 8 для мужчин и 5 для женщин. Поскольку мы знаем, что этот опрос базировался на правильной случайной выборке, вполне разумно предположить, что изучаемая совокупность соответствует целевой совокупности, то есть взрослому населению Великобритании. Главный вопрос здесь таков: насколько близки найденные статистики к тому, что мы обнаружили бы, опросив всех жителей страны?

В качестве иллюстрации того, как точность статистики зависит от размера выборки, представим, что мужчины в нашем опросе фактически представляют собой всю генеральную совокупность, которая нас интересует. Их ответы приведены на нижней диаграмме рис. 7.1. Для иллюстрации извлечем последовательные случайные выборки из общей совокупности из 760 участников: сначала 10, затем 50, а потом 200 человек. Распределение данных для трех выборок показано на рис. 7.1. Ясно видно, что маленькие выборки «ухабистее», поскольку они чувствительны к отдельным точкам. Сводные характеристики этих постепенно увеличивающихся выборок представлены в табл. 7.1. В первой выборке из 10 человек наблюдается большое количесво партнеров (среднее 8,4), но по мере роста выборки эта величина постепенно уменьшается, приближаясь к характеристике всей группы из 760 человек.

Рис. 7.1

Нижняя диаграмма отображает распределение ответов для всех 760 мужчин в опросе. Из этой группы случайным образом последовательно выбираются 10, 50 и 200 человек. Соответствующие распределения построены на первых трех диаграммах. У меньших выборок видны значительные разбросы, но постепенно форма распределения приближается к распределению всей группы из 760 мужчин. Не показаны значения свыше 50 партнеров

Таблица 7.1

Сводные статистические данные о количестве сексуальных партнеров за всю жизнь у мужчин в возрасте 35–44 лет, которое они указывали в исследовании Natsal 3 (случайные выборки и характеристики всей группы из 760 мужчин)

А теперь вернемся к фактической задаче: что мы можем сказать о среднем и медианном числе партнеров во всей изучаемой совокупности мужчин в возрасте 35–44 лет, основываясь на реальных выборках мужчин, показанных на рис. 7.1? Мы могли бы оценить эти параметры всей популяции по выборочной статистике каждой группы, представленной в табл. 7.1, предполагая, что статистики на основе больших выборок в каком-то смысле «лучше»: например, оценки среднего количества партнеров сходятся к 11,4, и при достаточно большой выборке мы, скорее всего, приблизились бы к истинному ответу с желаемой точностью.

Вот здесь мы подошли к критическому шагу. Чтобы понять, насколько точными могут быть такие характеристики, нам нужно подумать, как эти статистики могут измениться, если мы (в воображении) неоднократно повторим процесс составления выборки. Иначе говоря, если бы мы раз за разом формировали выборки из 760 британцев, насколько сильно менялись бы их статистики?

Если бы мы знали, как сильно они будут варьироваться, это помогло бы нам понять, насколько точна наша фактическая оценка. К сожалению, определить точный разброс оценок мы могли бы только в случае, если бы точно знали информацию о всей генеральной совокупности. Но как раз этого мы и не знаем.

Есть два способа выбраться из этого круга. Первый – сделать какие-то математические предположения о форме исходного распределения в генеральной совокупности, а затем с помощью методов теории вероятностей определить ожидаемый разброс для нашей оценки, а потом и то, чего можно ожидать для разницы между средним в выборке и средним во всей совокупности. Это традиционный способ, который включают в учебники по статистике; мы рассмотрим в главе 9, как он работает.

Но есть и альтернативный подход, основанный на правдоподобном предположении, что вся популяция должна быть примерно схожа с выборкой. Поскольку мы не можем извлечь еще несколько выборок из общей популяции, возьмем несколько раз новые выборки из нашей выборки!

Мы можем проиллюстрировать эту идею на примере нашей предыдущей выборки размером 50, показанной на верхней диаграмме на рис. 7.2; ее среднее значение равно 10,5. Предположим, что мы берем еще 50 точек, каждый раз с возвратом уже взятого наблюдения, и получаем распределение, показанное на второй диаграмме, где среднее значение равно 8,4. Обратите внимание, что это распределение может содержать только те величины, которые есть в исходном распределении, но количество таких наблюдений будет другим, поэтому форма распределения будет слегка отличаться, а вместе с ней будет немного отличаться и среднее. Процесс можно повторять; на рис. 7.2 отображены три повторные выборки, средние значения которых равны 8,4, 9,7 и 9,8.

Рис. 7.2

Исходная выборка из 50 наблюдений и три «бутстрэп-выборки»[154], каждая из которых состоит из 50 наблюдений, извлеченных случайным образом из исходного набора, каждый раз с возвратом. Например, наблюдение в 25 партнеров в первоначальной выборке встречается один раз (справа). В первой и второй бутстрэп-выборках его не оказалось вовсе, а в третьей встретилось дважды

В результате мы получаем представление, как при перевыборках изменяется наша оценка. Процесс известен под названием бутстрэппинг – волшебная идея вытягивания себя за ремешки на обуви сопоставляется со способностью извлекать информацию из самой выборки без предположения о форме распределения всей генеральной совокупности[155].

Если мы повторим эту процедуру, скажем, 1000 раз, то получим 1000 возможных оценок среднего. Они представлены в виде гистограммы на второй панели на рис. 7.3. Остальные гистограммы отражают бутстрэппинг для других выборок на рис. 7.1, при этом каждая гистограмма показывает разброс бутстрэп-оценок вокруг среднего в исходной выборке. Это выборочные распределения оценок, поскольку они отражают разброс оценок, появляющийся вследствие повторных составлений выборок.

Рис. 7.3

Распределение средних значений для 1000 бутстрэп-выборок, построенных для размеров 10, 50, 200 и 760, отображенных на рис. 7.1. Разброс значений для среднего уменьшается по мере роста размера выборки

Рис. 7.3 отражает некоторые очевидные особенности. Первая и, возможно, самая примечательная – исчезновение практически всех следов асимметрии исходных выборок: распределения для оценок, основанных на данных из повторных выборок, почти симметричны относительно среднего в исходных данных. Это следствие центральной предельной теоремы, которая гласит, что распределение выборочных средних по мере увеличения размера выборки сходится к нормальному распределению – практически вне зависимости от формы исходного распределения данных. Этот важнейший результат мы рассмотрим в главе 9.

Важно отметить, что эти бутстрэп-распределения позволяют количественно выразить нашу неопределенность в оценках, показанных в табл. 7.1. Например, мы можем найти диапазон, который будет содержать 95 % средних в бутстрэп-выборках, и назвать его 95-процентным интервалом неопределенности для исходных характеристик, или погрешностью. Соответствующие интервалы показаны в табл. 7.2 – симметрия бутстрэп-распределений означает, что интервалы неопределенности расположены примерно симметрично вокруг исходной оценки.

Таблица 7.2

Выборочные средние для числа сексуальных партнеров за всю жизнь, указанного мужчинами в возрасте 35–44 лет в исследовании Natsal 3, для вложенных выборок размера 10, 50, 200 и полных данных о 760 мужчинах, с 95-процентными интервалами неопределенности, также называемыми погрешностями

Вторая важная особенность рис. 7.3 – сужение бутстрэп-распределений по мере роста выборки, что отражено в постепенном уменьшении размера 95-процентных интервалов неопределенности.

В этом разделе вы познакомились с некоторыми сложными, но важными идеями:

• разброс в статистиках, основанных на выборках;

• бутстрэппинг данных, когда мы не хотим делать предположения о форме распределения в генеральной совокупности;

• тот факт, что форма распределения статистики не зависит от формы исходного распределения, из которого взяты наблюдения.

Весьма примечательно, что всего это мы достигли без помощи математики, за исключением идеи брать наблюдения случайным образом.

Теперь я покажу, что бутстрэппинг можно применять и в более сложных ситуациях.

В главе 5 мы проводили линии регрессии для данных Гальтона о росте, что позволяло предсказывать, например, рост дочерей на основе роста их матерей с помощью регрессионной прямой с угловым коэффициентом 0,33 (см. табл. 5.2). Но насколько мы можем быть уверены в положении такой прямой? Бутстрэппинг предоставляет интуитивно понятный способ ответить на этот вопрос, не делая никаких предположений о генеральной совокупности, из которой взяты наблюдения.

Составим из 433 пар дочь/мать (рис. 7.4) повторную выборку из 433 элементов (с возвратом) и построим для нее прямую наилучшего соответствия по методу наименьших квадратов. Повторим процедуру столько раз, сколько считаем нужным: рис. 7.4 показывает построенные всего по 20 таким перевыборкам линии наилучшего соответствия, чтобы продемонстрировать их разброс. Поскольку исходный набор данных велик, разброс у этих прямых относительно небольшой – при 1000 бутстрэп-выборках угловой коэффициент с вероятностью 95 % лежит в интервале от 0,22 до 0,44.

Рис. 7.4

Регрессионные прямые для 20 перевыборок из данных Гальтона о росте матерей и дочерей, наложенные на исходные данные. Из-за большого размера выборки угловой коэффициент прямых изменяется относительно слабо

Бутстрэппинг обеспечивает интуитивно понятный, удобный для использования компьютера способ выразить неопределенность в оценках, не делая сильных предположений и не используя теорию вероятностей. Однако этот метод неэффективен, когда нужно найти, например, погрешность в опросе 100 тысяч человек о безработице. Хотя бутстрэппинг – простая, блестящая и крайне эффективная идея, перерабатывать с его помощью такие огромные объемы данных неудобно, особенно при наличии теории, которая может предоставить готовые формулы для величины интервалов неопределенности. Но прежде чем мы ее рассмотрим в главе 9, познакомимся с восхитительной, хотя и непростой теорией вероятностей.

Выводы

• Интервалы неопределенности – важная часть информации о характеристиках выборки.

• Бутстрэппинг – это метод создания из первоначальной выборки новых наборов данных одинакового размера посредством перевыборок с возвратом.

• Выборочные характеристики, вычисленные с помощью бутстрэп-выборок, для больших наборов данных близки к нормальному распределению – независимо от формы исходного распределения данных.

• Интервалы неопределенности, построенные с помощью бутстрэппинга, используют вычислительные мощности современных компьютеров, не требуют предположений о математическом виде генеральной совокупности и сложной теории вероятностей.

Глава 8. Вероятность – язык неопределенности и случайности

В 1650-х годах самозваный шевалье[156] де Мере столкнулся во время игры с дилеммой. Не то чтобы он был уж слишком азартным игроком (хотя играл довольно увлеченно), но тем не менее хотел знать, в какой из двух игр у него больше шансов на победу.

Вариант 1. Правильная игральная кость бросается четыре раза, игрок побеждает, если хотя бы раз выпадает шестерка.

Вариант 2. Пара правильных игральных костей бросается 24 раза, игрок побеждает, если хотя бы раз выпадает пара шестерок.

На что выгоднее поставить?

В соответствии с эмпирическими статистическими принципами шевалье де Мере решил сыграть в обе игры много раз и посмотреть, насколько часто он выигрывает. Это потребовало немало времени и усилий, но в причудливой параллельной вселенной, где были компьютеры, но не было теории вероятностей, шевалье не потратил бы столько времени на сбор данных, а просто смоделировал бы тысячи игр.

На рис. 8.1 представлены результаты такого моделирования – доля побед по мере увеличения количества прохождений игр. Хотя какое-то время Вариант 2 кажется выгоднее, примерно после 400 игр становится ясно, что Вариант 1 лучше и что в (очень) долгосрочной перспективе шевалье может рассчитывать на победу примерно в 52 % игр для Варианта 1 и только 49 % игр для Варианта 2.

Рис. 8.1

Компьютерное моделирование 10 тысяч повторений двух вариантов игр. В Варианте 1 вы выигрываете, если шестерка выпадает хотя бы раз при четырех бросаниях кости, а в Варианте 2 – если пара шестерок выпадет хотя бы раз при 24 бросаниях пары костей. После первых 100 подбрасываний в каждом из вариантов (верхняя диаграмма) вроде бы выгоднее кажется Вариант 2, однако после тысяч игр (нижняя диаграмма) становится ясно, что Вариант 1 несколько лучше

Примечательно, что де Мере играл достаточно часто, чтобы прийти к аналогичному выводу: Вариант 1 немного лучше. Это шло вразрез с его (ошибочными) попытками вычислить шансы на победу[157], поэтому он обратился за помощью в модный парижский салон Мерсенна[158]. К счастью, его частым посетителем был философ Блез Паскаль, который, познакомившись с задачей, написал о ней своему другу Пьеру де Ферма (да-да, автору той самой Великой теоремы!). Вместе в последующей переписке они сделали первые шаги на пути к созданию теории вероятностей.

Несмотря на то что люди тысячелетиями играли в азартные игры и делали ставки на то, какой стороной упадут игральные кости, формальная теория вероятностей – сравнительно недавняя идея. В течение следующих пятидесяти лет после работ Паскаля и Ферма в 1650-х годах были заложены математические основы, и сегодня вероятность используется в физике, страховании, пенсионных расчетах, торговле на финансовых рынках, прогнозировании и, конечно же, в азартных играх. Но почему нужно использовать теорию вероятностей при статистических расчетах?

Мы уже встречались с концепцией «случайного выбора» из общего распределения в совокупности – ваша подруга из главы 3, родившая ребенка с низким весом, была нашим первым примером знакомства с вероятностью. Мы должны предположить, что любой элемент генеральной совокупности с равными шансами может попасть в нашу выборку: вспомните аналогию Гэллапа о перемешивании супа перед тем, как его попробовать. И мы видели, что при намерении делать какие-то статистические заключения о неизвестных аспектах мира, включая прогнозы, наши выводы неизбежно будут иметь некоторую неопределенность.

В предыдущей главе мы обсудили, как использовать бутстрэппинг, чтобы узнать, какого разброса в характеристиках выборки можно ожидать, делая раз за разом перевыборку, а затем применить эти данные для указания степени неопределенности в отношении истинной, но неизвестной характеристики всей генеральной совокупности. Опять же для этого нужна концепция «случайного выбора» – идея, которую легко улавливают даже маленькие дети как выразители справедливого выбора.

Традиционно курс статистики начинается с вероятности – именно так я всегда делал, когда преподавал в Кембридже, – однако такое математическое вступление может быть препятствием в понимании важных идей, изложенных в предыдущих главах, где теория вероятности не требуется. Напротив, эта книга – часть того, что можно назвать новой волной в преподавании статистики, в которой формальная теория вероятностей как основа для статистических выводов появляется гораздо позже[159]. Мы уже видели, что компьютерное моделирование – очень мощный инструмент как для изучения возможных будущих событий, так и для бутстрэппинга с помощью прошлых данных, однако это довольно неуклюжий и грубый способ проведения статистического анализа. Поэтому, несмотря на то что мы долгое время избегали формальной теории вероятностей, настало время познакомиться с ее жизненно важной ролью в обеспечении «языка неопределенности».

Но почему за последние 350 лет развилось нежелание использовать эту блестящую теорию? Меня часто спрашивают, почему люди склонны считать вероятность сложной и интуитивно неясной идеей, и я отвечаю, что после 40 лет исследований и преподавания пришел к выводу, что вероятность действительно сложная и интуитивно неясная идея. Я сочувствую любому, кто считает вероятность трудной и запутанной. Даже после десятилетий работы статистиком, когда мне задают школьный вопрос на вероятность, я предпочитаю уединиться, чтобы молча посидеть в тишине с ручкой и бумагой, попробовать несколько разных способов и наконец озвучить (как я надеюсь) правильный ответ.

Давайте начнем с моего любимого метода решения задач, который мог бы избавить от смущения некоторых политиков.

Правила для вероятностей, изложенные, возможно, чуть проще

В 2012 году 97 парламентариев спросили: «Если вы подбросите монетку дважды, какова вероятность выпадения двух орлов?» Большинство – 60 из 97 – не смогли дать правильный ответ[160]. Как политики могли бы улучшить результаты?

Возможно, им стоило бы знать правила работы с вероятностями, но большинство людей их не знают. Однако в качестве альтернативы можно использовать более интуитивную идею, которая (как показали многочисленные психологические эксперименты) позволяет людям лучше понять суть вероятностей.

Это идея «ожидаемого количества». Столкнувшись с задачей о двух монетах, вы спрашиваете себя: «Что будет, если я проведу такой эксперимент несколько раз?» Например, вы подбрасываете одну монету, потом вторую – всего делаете так четыре раза. Подозреваю, что даже политик мог бы, слегка подумав, прийти к выводу, что можно ожидать результатов, показанных на рис. 8.2.

Рис. 8.2

Дерево ожидаемых частот для подбрасывания двух монет, повторенного четыре раза. Например, вы ожидаете, что среди первых четырех подбрасываний будут два орла, а на втором подбрасывании в одном случае выпадет орел, а во втором – решка

Таким образом, один раз из четырех вы могли бы ожидать выпадения двух орлов. Поэтому вероятность, что оба орла выпадут в единственной попытке, составляет 1 / 4. К счастью, это и есть правильный ответ.

Дерево ожидаемых частот можно преобразовать в «дерево вероятностей», если для каждой «развилки» указать долю соответствующих случаев (см. рис. 8.3). Тогда становится ясно, что общая вероятность всей ветви дерева (например, выпадения орла после орла) получается путем умножения дробей, стоящих на частях ветви, то есть 1 / 2  1 / 2 = 1 / 4.

Рис. 8.3

Дерево вероятностей для подбрасывания двух монет. На каждой «развилке» указана доля событий. Вероятность целой ветви дерева определяется путем умножения дробей на всех ее частях

Деревья вероятностей – весьма распространенный и крайне эффективный способ изучения вероятностей в школе. В самом деле, мы можем использовать этот простой пример с двумя монетами для ознакомления со всеми правилами вероятностей. Дерево показывает следующее:

1. Вероятность события – это число от 0 до 1, где 0 – вероятность невозможных событий (например, не выпали ни орлы, ни решки), а 1 – вероятность достоверных событий (выпала какая-то из четырех возможных комбинаций).

2. Правило дополнения. Дополнением к событию А называется событие, которое произойдет в случае, если А не произошло. Вероятность его наступления равна единице минус вероятность события А. Например, вероятность события «выпала хотя бы одна решка» равна единице минус вероятность события «выпало два орла»: 1–1 / 4 = 3 / 4.

3. Правило сложения (правило «ИЛИ»): если события несовместны (то есть не могут произойти одновременно), то вероятность того, что произойдет хотя бы какое-то одно из них, равна сумме вероятностей отдельных событий. Например, вероятность «выпадения хотя бы одного орла» составляет 3 / 4, так как включает три несовместных события: «выпало два орла», ИЛИ «выпал сначала орел, а потом решка», ИЛИ «сначала выпала решка, а потом орел» – каждое с вероятностью 1 / 4.

4. Правило умножения (правило «И»): при наличии последовательности независимых событий (то есть одно не влияет на другое) вероятность наступления всех событий в последовательности равна произведению вероятностей отдельных событий. Например, вероятность выпадения двух орлов равна 1 / 2  1 / 2 = 1 / 4.

Эти основные правила позволяют решить задачу шевалье де Мере, показывая, что на самом деле в варианте 1 его шансы на победу составляли 52 %, а в варианте 2 – 49 %[161].

Мы по-прежнему делаем сильные предположения – даже в простейшем примере с подбрасыванием монет. Мы полагаем, что монета симметрична, что результат при ее подбрасывании не будет предсказуем, что она не упадет на ребро, что после первого броска в Землю не врежется астероид и так далее. Задача всех этих серьезных (за исключением, пожалуй, падения астероида) соображений – подчеркнуть, что все используемые нами вероятности условны: не существует безусловной вероятности события; всегда есть какие-то предположения и иные факторы, которые могут на нее влиять. И, как мы сейчас увидим, нам нужно проявлять осторожность в отношении того, на чем мы основываемся.

Условная вероятность – когда вероятности зависят от других событий

При диагностике рака молочной железы точность маммографии – примерно 90 %, то есть она правильно определяет 90 % женщин с раком и 90 % женщин без рака. Предположим, что 1 % обследуемых женщин действительно больны. Какова вероятность, что у случайно выбранной женщины окажется положительная маммограмма, и если так, то какова вероятность, что у женщины на самом деле рак?

В случае с двумя монетами события независимы, поскольку вероятность выпадения орла на второй монете не зависит от результата подбрасывания первой монеты. В школе мы обычно узнаем о зависимых событиях, когда нам начинают задавать несколько утомительные вопросы, скажем, о разноцветных носках, которые вытаскивают из ящика. Пример выше гораздо ближе к реальной жизни.

Подобные задачи – классические в тестах оценки интеллекта, и их не так легко решать. Однако идея ожидаемого количества существенно упрощает проблему. Ее суть – подумать, чего можно ожидать для большой группы женщин (скажем, 1000), как показано на рис. 8.4.

Рис. 8.4

Дерево ожидаемых частот, отображающее наши ожидания для 1000 женщин, проходящих скрининг рака молочной железы. Мы предполагаем наличие рака у 1 % женщин, а маммография верно классифицирует 90 % женщин с раком молочной железы и 90 % женщин без рака. Всего мы можем ожидать 9 + 99 = 108 положительных маммограмм, из которых девять окажутся истинно правильными

Из 1000 женщин у 10 (1 %) действительно выявляют рак молочной железы. Из этих 10 у девяти (90 %) обследование даст положительный результат. Однако из 990 здоровых женщин (без рака) у 99 (10 %) маммография будет ложноположительной. В общей сложности мы получим 9 + 99 = 108 положительных маммограмм, а значит, вероятность того, что у случайно выбранной женщины будет положительный результат, равна 108 / 1000  11 %. Но среди этих 108 реально больны раком только 9, поэтому вероятность, что у женщины на самом деле рак, равна 9 / 108  8 %.

Это упражнение на условную вероятность помогает понять весьма парадоксальный результат: несмотря на «90-процентную точность» маммографии, подавляющее большинство женщин с положительной маммограммой на самом деле не больны. Легко перепутать «вероятность положительного теста при условии наличия рака» с «вероятностью рака при условии положительного теста».

Такая путаница известна как «заблуждение прокурора», поскольку часто встречается в судебных разбирательствах, связанных с анализом ДНК. Например, судебно-медицинский эксперт может утверждать, что «если обвиняемый невиновен, то вероятность того, что его ДНК совпадет с ДНК, найденной на месте преступления, только один шанс на миллиард». Но это неверно интерпретируется как «учитывая данные анализа ДНК, есть только один шанс на миллиард, что обвиняемый невиновен»[162].

Подобная ошибка не редкость, но логика здесь так же неправильна, как и в переходе от утверждения «если вы папа римский, то вы католик» к утверждению «если вы католик, то вы папа римский», где абсурдность выражения сразу бросается в глаза.

Так что же такое вероятность?

В шоле нас учат математике расстояний, масс и времени, которые мы можем измерить с помощью рулетки, весов или часов. Но как измерить вероятность? Не существует никакого вероятностемера. Словно вероятность – это некая «виртуальная» величина, которой мы можем присвоить какое-то число, но не измерить напрямую.

Еще больше настораживает вполне закономерный вопрос: а что вообще означает вероятность? Есть какое-то доходчивое определение этого понятия? Это может выглядеть как схоластика, но философия вероятности не только захватывающая тема сама по себе, но и играет огромную роль в практическом применении статистики.

Не ждите консенсуса от всевозможных «экспертов». Они могут соглашаться с математикой вероятностей, но философы и статистики выдвигают разные идеи о том, что на самом деле означают эти неуловимые числа, и активно их обсуждают. Вот некоторые популярные предложения.

• Классическое определение вероятности. Это то, чему нас учат в школе. Оно основано на симметрии монет, костей, перетасованных колод карт и так далее и может быть сформулировано как «отношение числа благоприятных исходов к числу всех исходов, если все исходы равновозможны». Например, вероятность выпадения единицы на правильной кости равна 1/6, потому что возможны 6 исходов, а нас устраивает один. Однако это определение в какой-то степени носит круговой характер, поскольку прежде мы должны уяснить, что значит равновозможны.

• «Перечислительная» вероятность[163]. Предположим, в ящике лежат три белых и четыре черных носка. Если вытаскивать носок случайным образом, то чему равна вероятность, что он белый? Ответ 3/7 можно получить путем простого перечисления всех возможностей. Многие из нас страдали от таких вопросов в школе, и здесь мы фактически имеем дело с расширением рассмотренной выше классической идеи, где требуется случайный выбор из группы физических объектов. Мы уже использовали эту идею при описании случайного выбора элемента данных из общей генеральной совокупности.

• Вероятность как частота. Такое определение говорит о вероятности как о доле случаев, когда интересующее нас событие наступает в бесконечной последовательности идентичных экспериментов – в точности так как при моделировании двух вариантов игры шевалье де Мере. Для бесконечно повторяющихся событий это может быть разумно (хотя бы теоретически), но как насчет уникальных одноразовых событий, например скачек или завтрашней погоды? На деле практически любая реальная ситуация даже в принципе не может быть бесконечно воспроизводимой.

• Пропенситивная интерпретация вероятности. Основная идея состоит в том, что у каждой ситуации есть объективная склонность порождать какое-то событие[164]. Внешне идея выглядит привлекательно: если бы вы были прозорливым существом, то могли бы сказать, что существует вероятность того, что ваш автобус скоро придет или что вас сегодня собьет машина. Однако у нас, простых смертных, похоже, нет возможности оценивать такие скорее метафизические «истинные шансы».

• Субъективная, или «личная», вероятность. Это степень веры конкретного человека в какое-либо событие, основанная на его нынешних знаниях. Обычно субъективные вероятности интерпретируются в терминах пари. Допустим, мне предлагают 1 фунт, если я смогу пять минут жонглировать тремя шариками, а я готов сделать на это безвозвратную ставку в 60 пенсов. Тогда моя личная вероятность события оценивается в 0,6.

У различных «экспертов» собственные предпочтения относительно этих альтернатив, но лично я предпочитаю последний вариант – субъективную вероятность. Это означает, что я придерживаюсь мнения, что любая численная вероятность фактически строится в соответствии с тем, что известно в нынешней ситуации, – и на самом деле вероятность вообще не «существует» (за исключением, возможно, субатомного уровня). Такой подход лежит в основе байесовской школы статистики, о чем мы подробно поговорим в главе 11.

К счастью, вы не обязаны соглашаться с моим (довольно спорным) тезисом, что численные вероятности объективно не существуют. Можно предположить, что монеты и другие устройства для рандомизации объективно случайны – в том смысле, что генерируют настолько непредсказуемые данные, что они могут быть неотличимы от тех, которые мы ожидаем получить от «объективных» вероятностей. Поэтому в целом мы действуем так, будто наблюдения случайны, даже если знаем, что это не совсем верно. Наиболее яркие примеры – генераторы псевдослучайных чисел, по сути, основанные на полностью предсказуемых, детерминированных вычислениях. В них вообще нет никакой случайности, но их механизм настолько сложен, что на практике они неотличимы от настоящих случайных последовательностей, скажем, полученных из источника субатомных частиц[165].

Такая отчасти странная способность действовать, как будто что-то истинно, хотя вы знаете, что это не так, обычно считается опасно иррациональной. Однако это полезно, когда дело доходит до использования вероятности в качестве основы для статистического анализа данных.

Сейчас мы подошли к крайне важной, хотя и сложной стадии изложения общей взаимосвязи между теорией вероятностей, данными и изучением любой интересующей нас целевой совокупности.

Теория вероятностей естественным образом вступает в игру, когда мы имеем дело с ситуацией 1 (назовем ее так):

1. Когда можно считать, что данные сгенерированы каким-то рандомизирующим устройством, например, при подбрасывании монет, костей или путем случайного распределения пациентов по методам лечения с помощью генератора псевдослучайных чисел с последующей регистрацией результатов лечения.

Однако на практике мы можем столкнуться с ситуацией 2:

2. Когда рандомизирующее устройство выбирает уже существующий элемент данных, скажем, отбирает людей для участия в опросе.

И большую часть времени наши данные появляются из ситуации 3:

3. Когда случайности нет вообще, но мы действуем так, как если бы данные были сгенерированы каким-то случайным процессом, например при интерпретации веса новорожденного ребенка вашей подруги.

В большинстве описаний эти различия четко не разграничиваются: вероятность в целом объясняют с помощью рандомизирующих устройств (ситуация 1), статистике учат с помощью идеи «случайной выборки» (ситуация 2), но на самом деле большинство статистических приложений вообще не задействуют никаких рандомизирующих устройств или случайных выборок (ситуация 3).

Однако сначала рассмотрим ситуации 1 и 2. Непосредственно перед тем, как запустить рандомизирующее устройство, мы предполагаем, что у нас есть набор возможных результатов, которые можно наблюдать, а также их соответствующие вероятности – например, монета может выпасть орлом или решкой с вероятностью каждого исхода 1 / 2. Связав все возможные исходы с вероятностями их появления, мы можем сказать, что у нас есть случайная величина с каким-то вероятностным распределением. В ситуации 1 рандомизирующее устройство гарантирует, что наши наблюдения случайным образом извлекаются из этого распределения, но когда наблюдение сделано, вся случайность пропадает и все потенциально возможные пути развития будущего события сводятся к одному фактическому варианту. Аналогично, в ситуации 2, если мы случайным образом выбираем человека и, например, измеряем его доход, то мы фактически извлекаем случайное наблюдение из распределения доходов в генеральной совокупности.

Таким образом, вероятность явно важна при работе с рандомизирующим устройством. Но большую часть времени мы просто рассматриваем все доступные на какой-то момент измерения, которые могли быть собраны без соблюдения формальностей или (как мы видели в главе 3) даже могут представлять все возможные наблюдения: вспомните об уровне выживаемости после операций на сердце у детей в различных больницах или результатах экзаменов у британских детей – оба включают все имеющиеся данные и никакой случайной выборки здесь просто нет.

В главе 3 мы обсуждали идею метафорической генеральной совокупности, включающей все возможные случайности, которые могли бы произойти, но не произошли. Сейчас нам надо приготовиться к явно иррациональному шагу – действовать так, как будто данные получены каким-то случайным механизмом из общей совокупности, хотя мы прекрасно знаем, что это не так.

Если мы все наблюдаем, то откуда появляется вероятность?

Как часто мы ожидаем семь или более отдельных случаев убийства в Англии и Уэльсе за один день?

Когда несколько экстремальных событий происходят в тесной последовательности (например, череда крушений самолетов или природных катастроф), появляется естественное подозрение, что между ними существует какая-то связь. В этом случае важно выяснить, насколько необычны такие события, в чем нам и поможет следующий пример.

Чтобы оценить, насколько редок «кластер» из как минимум семи убийств в день, давайте изучим данные за три года (1095 дней) между апрелем 2014-го и мартом 2016-го. За этот период в Англии и Уэльсе было совершено 1545 убийств, то есть в среднем 1545/1095 = 1,41 в день. Ни одного дня с семью и более случаями убийства[166] за это время не наблюдалось, однако было бы весьма наивно полагать, что такое событие невозможно. Если мы сумеем построить разумное вероятностное распределение для количества убийств в день, то сможем ответить на поставленный вопрос.

Но каковы обоснования для построения такого вероятностного распределения? Число убийств, регистрируемых в стране, – это просто факт, тут нет никакой случайной выборки и явного случайного элемента, генерирующего каждое преступление. Просто невообразимо сложный и непредсказуемый мир. Но какова бы ни была наша личная философия по отношению к удачам и неудачам, оказывается, полезно действовать так, словно все эти события были порождены каким-то случайным процессом, основанным на вероятности.

Давайте представим, что в начале каждого дня у нас есть огромная популяция людей, в которой у каждого ее члена есть очень малая вероятность стать жертвой убийства. Такого рода данные можно считать наблюдениями из распределения Пуассона, предложенного французским математиком Симеоном Пуассоном в 1837 году для описания вероятности вынесения неправомерных обвинительных приговоров за год. С тех пор оно использовалось для моделирования всего – от количества голов, забитых футбольной командой в матче, и еженедельного числа выигрышных лотерейных билетов до ежегодного числа прусских офицеров, убитых ударом копыта их лошадей. Во всех этих ситуациях для наступления события есть очень большое число предпосылок, но каждая с ничтожно малым шансом на реализацию, что и приводит к необычайно универсальному распределению Пуассона.

Тогда как нормальное (гауссовское) распределение, описанное в главе 3, требует двух параметров (среднее значение и среднеквадратичное отклонение), у распределения Пуассона только один параметр (он имеет смысл среднего). В нашем конкретном примере это ожидаемое ежедневное число случаев убийства, которое мы принимаем равным 1,41, поскольку таково среднее значение за трехлетний период. Однако нам нужно тщательно проверить, насколько разумно предположение о распределении Пуассона, чтобы мы могли обращаться с количеством убийств так, словно это случайное наблюдение, взятое из пуассоновского распределения с параметром 1,41.

Например, зная это среднее, мы можем использовать формулу для распределения Пуассона или стандартное программное обеспечение, чтобы вычислить, что вероятность совершения пяти убийств в день равна 0,001134. А значит, за 1095 дней можно ожидать 1095  0,001134 = 12,4 дней, когда будут наблюдаться ровно пять случаев убийства.

Удивительно, но реальное число дней с пятью убийствами за трехлетний период… 13.

На рис. 8.5 приведено сравнение ожидаемого распределения для ежедневного числа убийств на основании распределения Пуассона и фактического эмпирического распределения для 1095 дней. Соответствие очень хорошее, и в главе 10 я покажу, как формально проверить, оправдано ли предположение о пуассоновском распределении данных.

Рис. 8.5

Наблюдаемое и ожидаемое (при условии распределения Пуассона) ежедневное количество зарегистрированных убийств за 2014–2016 годы в Англии и Уэльсе[167]

Чтобы ответить на вопрос, поставленный в начале этого раздела, мы можем вычислить вероятность семи и более убийств в день, исходя из распределения Пуассона. Она равна 0,07 %, а значит, такое событие можно ожидать в среднем раз в 1535 дней, то есть примерно раз в четыре года. Напрашивается вывод, что при нормальном ходе вещей оно маловероятно, но не невозможно.

Соответствие между этим математическим распределением и эмпирическими данными подозрительно хорошее. Несмотря на то что за каждой трагедией стоит какая-то личная история, и практически любая из них непредсказуема, данные ведут себя так, словно их сгенерировал какой-то известный случайный механизм. Благодаря способности представлять, что могли бы быть (но не были) убиты другие люди, мы наблюдаем один из множества возможных миров, которые могли реализоваться; точно так же как, подбрасывая монету, наблюдаем одну из возможных последовательностей.

Адольф Кетле – бельгийский статистик, социолог и астроном XIX века – одним из первых привлек внимание к потрясающей предсказуемости общей картины, составленной из отдельных непредсказуемых событий. Он был заинтригован появлением нормального распределения при различных явлениях (например, распределении веса новорожденного, как описывалось в главе 3) и предложил идею «среднего человека» (l’homme moyen), который вобрал в себя среднее значение всех характеристик. Кетле развил идею «социальной физики», поскольку регулярные закономерности социальной статистики, казалось, отражали какой-то почти механический процесс, лежащий в ее основе. Так же как случайные молекулы газа, соединяясь, обеспечивают предсказуемые физические свойства, непредсказуемые действия миллионов отдельных людей в совокупности генерируют национальный уровень самоубийств, который из года в год практически не меняется.

К счастью, нам незачем верить, что реальные события обусловлены чистой случайностью (что бы это ни было). Просто предположение о «случайности» заключает в себе всю неизбежную непредсказуемость мира или то, что иногда называют естественной изменчивостью. Поэтому мы установили, что вероятность образует надлежащий математический фундамент как для «чистой» случайности, проистекающей из субатомных процессов, монет, костей и так далее, так и для «естественной» неизбежной изменчивости, проявляющейся в весе новорожденных, уровне выживаемости после операций, результатах экзаменов, количестве убийств и других явлениях, которые нельзя точно предсказать.

В следующей главе мы обратимся к поистине замечательной теме: как объединить эти два аспекта вероятности, чтобы получить строгую основу для формальных статистических выводов.

Выводы

• Теория вероятностей предоставляет формальный язык и математические инструменты для работы со случайными явлениями.

• Вероятностные выводы не бывают интуитивно понятными, однако понимание можно улучшить с помощью идеи ожидаемого количества.

• Вероятности полезны даже тогда, когда нет явного применения механизма рандомизации.

• Многие социальные явления в целом демонстрируют удивительную закономерность, в то время как отдельные события совершенно непредсказуемы.

Глава 9. Объединяем вероятность и статистику

Предупреждение. Это, пожалуй, самая сложная глава в книге, но, проявив настойчивость и изучив ее, вы обретете ценное понимание татистических выводов.

Мы обнаружили, что в случайной выборке из 100 человек 20 – левши. Что можно сказать о доле левшей во всей генеральной совокупности?

В предыдущей главе мы обсуждали идею случайной величины – одного элемента данных, извлеченного из какого-то вероятностного распределения, описываемого определенными параметрами. Но нас редко интересует только один элемент – обычно у нас большой массив данных, для которого мы вычисляем среднее, медиану и другие статистики. Фундаментальный шаг, который мы сделаем в этой главе, – рассмотрим эти статистики как случайные величины, извлеченные из их собственных распределений.

Это существенный шаг, создавший проблемы не только поколениям статистиков, но и математикам, которые пытались выяснить, из каких распределений мы извлекаем эти статистики. С учетом обсуждения бутстрэппинга в главе 7 разумно задаться вопросом, зачем нам вообще нужна вся эта математика, когда мы можем узнать интервалы неопределенности и прочее, используя моделирование методом бутстрэппинга. Например, на вопрос, поставленный в начале главы, можно было ответить, взяв наблюдаемую выборку из 20 левшей и 80 правшей и многократные повторные выборки с возвратом по 100 наблюдений из этого набора, посмотреть на распределение наблюдаемой доли левшей.

Но такое моделирование неуклюже и затратно по времени, особенно для больших объемов данных, да и в более сложных ситуациях не так просто решить, что нужно моделировать. Напротив, формулы, предлагаемые теорией вероятностей, обеспечивают и понимание, и удобство и (в отличие от моделирования) всегда дают один и тот же ответ. Оборотная сторона в том, что эта теория опирается на предположения, и мы должны быть очень осторожны, чтобы впечатляющие выкладки не ввели нас в заблуждение и не привели к необоснованным выводам. Позже мы поговорим об этом подробнее, а пока, уже оценив полезность нормального и пуассоновского распределений, введем еще одно важное вероятностное распределение.

Предположим, что мы составляем выборки разного размера из совокупности, содержащей ровно 20 % левшей и 80 % правшей, и вычисляем вероятность получения различных возможных долей левшей. Конечно, здесь все наоборот – мы хотим по известной выборке узнать о неизвестной генеральной совокупности. Однако для этого нужно сначала исследовать, как известная совокупность порождает различные выборки.

Простейший случай – выборка из одного человека. Тогда доля леворуких будет 0 или 1 (в зависимости от того, выберем мы правшу или левшу) и вероятность этого события составит 0,8 и 0,2 соответственно. Полученное распределение вероятностей представлено на рис. 9.1(a).

Рис. 9.1

Вероятностное распределение наблюдаемой доли левшей в случайных выборках по 1, 2, 5, 10 и 1000 человек, где истинная доля левшей в генеральной совокупности равна 0,2. Вероятность получения не менее 30 % левшей в выборке вычисляется путем сложения вероятностей для всех значений справа от 0,3

Если мы выберем случайным образом двух человек, то доля левшей может быть 0 (оба правши), 0,5 (один левша и один правша) или 1 (оба левши). Вероятность таких событий равна 0,64, 0,32 и 0,04 соответственно[168], и это распределение показано на рис. 9.1(b). Аналогично с помощью теории вероятностей мы можем найти распределение для наблюдаемых долей левшей в выборках по 5, 10, 100 и 1000 человек (рис. 9.1). Такое распределение известно как биномиальное, а часть диаграммы, лежащая правее какого-либо значения, называется его хвостом.

Среднее значение случайной величины также известно как математическое ожидание, и в наших выборках мы можем ожидать долю левшей 0,2, или 20 %: все распределения, представленные на рис. 9.1, имеют среднее 0,2. Среднеквадратичное отклонение для каждого из них зависит от параметров распределения (в нашем случае 0,2) и размера выборки. Обратите внимание, что стандартное отклонение какой-то статистики обычно называют стандартной ошибкой, чтобы отличить от стандартного (среднеквадратичного) отклонения в распределении, из которого взяты данные.

Рис. 9.1 демонстрирует некоторые отличительные особенности. Во-первых, по мере увеличения выборки форма распределения становится более правильной и симметричной (так же как мы наблюдали при использовании бутстрэппинга), во-вторых, распределения сужаются. В следующем примере показано, как простое применение этих идей позволяет быстро определить, насколько статистическое утверждение обоснованно.

Действительно ли в некоторых регионах Великобритании смертность от колоректального рака в три раза выше?

Заголовок на уважаемом новостном сайте «Би-би-си» в сентябре 2011 года настораживал: «Трехкратное различие в уровне смертности от колоректального рака в Великобритании». Далее в статье объяснялось, что в различных округах страны показатели смертности от рака толстой кишки значительно разнятся, а комментатор добавлял, что «местным органам здравоохранения крайне важно изучить эту информацию и использовать ее для оповещения о потенциальных изменениях в оказании услуг».

«Трехкратное различие» звучит необычайно драматично. Но когда блогер Пол Барден наткнулся на эту статью, он задался вопросом: «Неужели люди в разных частях страны действительно сталкиваются со столь значительной разницей рисков умереть от рака? Чем объяснить такое расхождение?» Он счел это настолько неправдоподобным, что решил заняться этой темой. К счастью, все данные были в открытом доступе в интернете, и Барден обнаружил, что они подтверждают заявление «Би-би-си»: ежегодные показатели смертности от этого вида рака действительно отличались в три раза между разными регионами страны – от 9 случаев на 100 тысяч человек в районе Россендейл (Ланкашир) до 31 на 100 тысяч в округе Глазго-Сити[169].

Однако расследование на этом не закончилось. Барден построил диаграмму смертности населения в каждом округе, что дало картину, представленную на рис. 9.2. Видно, что точки (за исключением экстремального случая с Глазго-Сити) расположены в форме воронки, причем чем население округов меньше, тем разброс больше. Затем Пол добавил контрольные граничные значения, которые показывают, куда могли бы попасть точки, если бы разница между наблюдаемыми уровнями определялась исключительно естественной неизбежной изменчивостью числа людей, ежегодно умирающих от рака толстой кишки, а не какими-то систематическими отклонениями в рисках для различных округов. Эти предельные значения получены из предположения, что число смертей – это наблюдение, взятое из выборки с биномиальным распределением, размер которой равен количеству взрослого населения округа: вероятность того, что любой конкретный человек умрет от рака в течение года, составляет 0,000176 (это средний риск смерти по всей стране). Граничные значения включают 95 % и 99,8 % всех наблюдений соответственно. График такого типа называется воронкообразным и широко используется при работе с несколькими медицинскими организациями или учреждениями, поскольку позволяет отобразить выбросы, не создавая упорядоченных таблиц.

Рис. 9.2

Ежегодные показатели смертности от колоректального рака на 100 тысяч человек в 380 округах Великобритании в зависимости от численности населения округа. Две пары пунктирных линий, полученные исходя из предположения о биномиальном распределении, обозначают области, куда должны были бы попасть 95 % и 99,8 % округов, если бы между ними не было никакой разницы в рисках. Только Глазго демонстрирует риск, отличный от среднего. Такой способ представления данных называется воронкообразным графиком

Данные достаточно хорошо укладываются в указанные пределы, а значит, различия между округами как раз такие, как мы бы ожидали в результате случайной изменчивости. В маленьких округах меньше случаев заболевания, поэтому они более уязвимы к случайным отклонениям и поэтому их показатели рассеяны сильнее: в Россендейле зафиксировано всего семь смертей, поэтому один лишний случай сильно изменяет уровень смертности. Следовательно, несмотря на драматический заголовок «Би-би-си», никаких сверхоткрытий здесь нет – трехкратное различие в уровне смертности мы могли бы ожидать даже в случае, если бы вероятность заболеть была бы в точности одинаковой во всех округах.

Этот простой пример преподает нам важный урок. Даже в эпоху открытых данных, науки о данных и журналистики данных нам по-прежнему нужны базовые статистические принципы, чтобы нас не ввели в заблуждение видимые закономерности в числах.

Наша диаграмма показывает, что единственное наблюдение, требующее внимания, – это точка, соответствующая Глазго. Неужели колоректальный рак – это, некий шотландский феномен? Действительно ли верно это наблюдение? Более поздние данные за 2009–2011 годы показывают, что уровень смертности от колоректального рака в Большом Глазго[170] составлял 20,5 на 100 тысяч человек, в Шотландии в целом – 19,6, а в Англии – 16,4: эти результаты ставят под сомнение вышеуказанное наблюдение для Глазго, но демонстрируют, что в Шотландии уровень смертности выше, чем в Англии. Как правило, заключения, сделанные после одного цикла решения задачи, поднимают новые вопросы и цикл начинается заново.

Центральная предельная теорема

Отдельные наблюдения могут быть взяты из самых разных распределений, которые порой бывают сильно асимметричными или имеют длинные хвосты (как в случае дохода или числа сексуальных партнеров). Однако мы сделали решительный шаг в сторону изучения распределения статистик, а не отдельных наблюдений, и эти статистики в каком-то смысле обычно более усреднены. Мы уже видели в главе 7, что распределение выборочных средних у бутстрэп-выборок сходится к симметричной форме независимо от вида исходного распределения данных, и теперь можем пойти дальше, к более глубокой и замечательной идее, которая появилась около 300 лет назад.

Пример с левшами показывает, что по мере увеличения размера выборки отклонения для наблюдаемой доли уменьшаются – вот почему воронка на рис. 9.2 сужается вокруг среднего значения. Это классический закон больших чисел, который в начале XVIII века вывел швейцарский математик Якоб Бернулли. Испытанием Бернулли называется эксперимент с двумя исходами – «успехом» и «неудачей», которые обычно обозначаются 1 и 0. Соответствующая случайная величина, принимающая значение 1 с вероятностью p и 0 с вероятностью 1 – p имеет распределение Бернулли. Например, если вы один раз подбрасываете симметричную монету, то число выпавших орлов – это случайная величина, имеющая распределение Бернулли с p = 0,5. Предположим, что вы с помощью монеты будете производить последовательность испытаний Бернулли. Тогда доля орлов будет постепенно приближаться к 0,5, и мы скажем, что наблюдаемая доля орлов сходится к реальной вероятности их выпадения. Конечно, поначалу эта доля может отличаться от 0,5, и после нескольких выпавших подряд орлов появляется искушение поверить, что решки теперь как-то «обязаны» появляться чаще, чтобы восстановить баланс. Это заблуждение известно как ошибка игрока, и такое психологическое препятствие преодолеть довольно сложно (могу судить по личному опыту). Однако у монеты нет памяти – ключевая идея в том, что монета не может компенсировать прошлый дисбаланс и просто выдает все новые и новые результаты очередных подбрасываний.

В главе 3 мы представили классическую колоколообразную кривую, также известную как нормальное (гауссовское) распределение, когда показывали, что оно хорошо описывает распределение веса новорожденных в США, и объяснили, что вес детей зависит от огромного количества факторов, каждый из которых оказывает небольшое влияние; складывая все эти маленькие воздействия, в итоге мы получаем нормальное распределение.

Именно это лежит в основе так называемой центральной предельной теоремы, впервые доказанной в 1733 году французским математиком Абрахамом де Муавром[171] для частного случая биномиального распределения. Однако к нормальному распределению сходится среднее не только для биномиальных случайных величин – примечательно то, что какое бы распределение для наших наблюдений мы ни взяли, можно считать, что при больших размерах выборки среднее значение наблюдений имеет нормальное распределение[172]. При этом его среднее совпадает со средним исходного распределения, а среднеквадратичное отклонение (как уже упоминалось, его часто называют стандартной ошибкой) имеет простую связь со среднеквадратичным отклонением для исходного распределения[173].

Фрэнсис Гальтон не только написал работы о мудрости толпы, корреляции, регрессии и на многие другие темы, но и считал настоящим чудом то, что нормальное распределение (называемое в то время законом распределения ошибок) каким-то упорядоченным образом возникает из видимого хаоса:

Я едва ли знаю что-либо, способное воздействовать на воображение так, как чудесная форма космического порядка, выраженная «Законом Распределения Ошибок». Если бы древние греки знали этот закон, они бы персонифицировали и обожествили его. Он безмятежно царит среди самой дикой сумятицы. Чем больше толпа, чем больше видимая анархия, тем совершеннее его владычество. Это высший закон среди неразумности. Всякий раз, когда мы берем множество хаотичных элементов и расставляем их по величине, появляется неожиданная и доселе скрытая прекраснейшая закономерность.

Он был прав – это действительно выдающийся закон природы.

Как теоретические рассуждения помогают определить точность наших оценок

Вся эта теория хорошо помогает при попытке что-то узнать о распределении статистик, основанных на данных, взятых из известных совокупностей, но не это нас больше всего интересует. Мы должны найти способ развернуть данный процесс: то есть вместо того чтобы по известным исходным распределениям говорить что-то о возможных выборках, попробовать по одной выборке что-то сказать о возможном распределении. Это процесс индуктивного вывода, описанный в главе 3.

Предположим, у меня есть монета, и я спрашиваю вас, с какой вероятностью выпадет орел. Вы радостно отвечаете «50 процентов» или нечто подобное. Затем я подбрасываю ее и накрываю, пока никто не увидел результат, и снова спрашиваю, с какой вероятностью будет орел. Если вы типичный человек, то, как показывает мой опыт, после паузы, скорее всего, довольно неохотно скажете: «50 процентов». Потом я смотрю на монету, не показывая вам, и повторяю вопрос еще раз. И снова, если вы относитесь к большинству, вы бормочете: «50 процентов».

Это простое упражнение показывает главное различие между двумя типами неопределенности: стохастической неопределенностью[174] до подбрасывания монеты (когда мы имеем дело с будущим непредсказуемым событием) и эпистемической неопределенностью[175] после подбрасывания монеты (выражением недостатка наших знаний об уже произошедшем событии). Это как разница между лотерейным билетом (где результат зависит от случая) и билетом мгновенной лотереи (где результат уже предопределен, просто вы его еще не знаете).

Статистика используется при наличии эпистемической неопределенности в отношении какой-то величины. Например, мы проводим опрос, когда не знаем истинной доли людей в популяции, считающих себя религиозными, или фармакологическое испытание, когда не знаем истинного среднего эффекта какого-то препарата. Как мы уже говорили, эти фиксированные, но неизвестные величины называются параметрами и часто обозначаются греческими буквами[176]. Как и в примере с подбрасыванием монеты, до проведения экспериментов у нас есть стохастическая неопределенность в отношении их результатов из-за случайного составления выборок или случайного назначения пациентам препарата или плацебо. После проведения исследования и получения данных мы используем эту вероятностную модель, чтобы справиться с текущей эпистемической неопределенностью – точно так же, как вы говорили «50 процентов» о накрытой монете. Таким образом, теория вероятностей, которая говорит нам, чего ожидать в будущем, используется, чтобы сказать, что можно узнать из наших наблюдений в прошлом. Это и есть (довольно примечательная) основа для статистических выводов.

На этой фундаментальной идее построена процедура получения интервала неопределенности вокруг нашей оценки или погрешности, включающая три этапа.

1. Мы используем теорию вероятностей, чтобы для конкретных параметров генеральной совокупности получить интервал, в котором наблюдаемая статистика будет лежать с вероятностью 95 %. На рис. 9.2 такие 95-процентные интервалы прогнозирования изображены в виде внутренней воронки.

2. Затем мы наблюдаем конкретную статистику.

3. И наконец (и это самое трудное) определяем диапазон возможных параметров генеральной совокупности, для которых наша статистика попадает в 95-процентные интервалы прогнозирования. Этот диапазон мы называем «95-процентным доверительным интервалом». Он включает величину 95 %, поскольку при большом числе повторений 95 % таких интервалов будут содержать истинное значение параметра[177].

Все ясно? Если нет, не расстраивайтесь: вы просто присоединились ко многим поколениям озадаченных студентов. Конкретные формулы приведены в глоссарии, но детали не так важны, как сам фундаментальный принцип: доверительный интервал – это тот диапазон параметров генеральной совокупности, при котором наша наблюдаемая статистика будет правдоподобным следствием.

Вычисление доверительных интервалов

Понятие доверительных интервалов было формализовано в 1930-е годы в Университетском колледже Лондона Ежи Нейманом, блестящим польским математиком и статистиком, и Эгоном Пирсоном, сыном Карла Пирсона[178]. До этого работа по определению необходимых вероятностных распределений для коэффициентов корреляции и коэффициентов регрессии велась десятилетиями; математические детали таких распределений входят в стандартные академические курсы статистики. К счастью, результаты всех этих трудов теперь содержатся в статистическом программном обеспечении, так что практики могут сосредоточиться на важных вопросах и не отвлекаться на сложные формулы.

В главе 7 мы узнали, как с помощью бутстрэппинга получить 95-процентные интервалы для углового коэффициента регрессионной прямой, связывающей рост матерей и дочерей. Гораздо проще получить точные интервалы, основанные на теории вероятностей и включенные в стандартные программы. Табл. 9.1 показывает, что они дают весьма сходные результаты. «Точные» интервалы, основанные на теории вероятностей, требуют больше предположений, чем метод бутстрэппинга, и, строго говоря, будут точными только в случае нормального распределения. Но центральная предельная теорема говорит, что при настолько большом объеме выборки разумно считать, что наши оценки имеют нормальное распределение, поэтому такие интервалы приемлемы.

Таблица 9.1

Оценки коэффициента регрессионной прямой, демонстрирующей связь между ростом дочерей и матерей. Стандартные ошибки и 95-процентные интервалы точные и для бутстрэппинга, основанного на 1000 перевыборок

Традиционно используются 95-процентные интервалы, которые обычно отклоняются от среднего на две стандартные ошибки в обе стороны[179]; однако иногда интервалы берутся уже (например, 80 %) или шире (99 %). Статистическое управление США использует для определения уровня безработицы 90-процентные интервалы, в то время как Национальное статистическое управление Великобритании – 95 %. Важно уточнять, какой именно интервал используется.

Погрешности опросов

Когда какое-то заявление базируется на опросе (например, опросе общественного мнения), стандартная практика – указать статистическую погрешность. У статистики безработицы, приведенной в главе 7, на удивление большая погрешность (оценка в 3000 имеет погрешность ±77 000). Это значительно влияет на интерпретацию исходного числа – в нашем случае такая погрешность показывает, что мы даже не знаем, выросла безработица или сократилась.

Существует простое эмпирическое правило: если вы оцениваете процент людей, предпочитающих, скажем, на завтрак чай, а не кофе, и рассматриваете случайную выборку из генеральной совокупности, то ваша погрешность (в процентах) будет максимум плюс-минус 100, деленное на квадратный корень из размера выборки[180]. Поэтому при выборке в 1000 человек (стандартный объем в таких опросах) погрешность обычно указывается как ±3 %[181]. Если 400 человек предпочитают кофе, а 600 – чай, то вы можете примерно оценить реальную долю любителей утреннего кофе в популяции следующим образом: 40 ±3 %, то есть от 37 до 43 %.

Конечно, это верно только в случае, если устроители опроса действительно взяли случайную выборку, а все респонденты ответили, причем правду. Таким образом, хотя мы и можем вычислить погрешность, мы должны помнить, что вычисления верны, если примерно верны и наши предположения. Но можем ли мы на них опираться?

Страницы: «« 12345678 »»

Читать бесплатно другие книги:

Билли просыпается и обнаруживает, что находится в тюремной камере. Ему сообщают, что он обвиняется в...
Действие книги известного французского писателя Пьера Буля «Планета обезьян» происходит в 2500 году....
Там, где она жила, был один закон: либо ты с нами, либо ты против нас, что означает: или ты живой, и...
Тысячу лет существует Последняя империя, управляемая бессмертным и неуязвимым лордом-правителем, еди...
Маленькая Элис обожала проводить время с тётей Полли в пекарне. Тётя сажала кроху на высокую красную...
Мелоди уже большая. Ей десять. Блёстки, розовые кружавчики и кипенно-белые футболочки – это точно не...