Искусство статистики. Как находить ответы в данных Шпигельхалтер Дэвид
кризис воспроизводимости: утверждение, что многие опубликованные научные выводы основаны на недостаточно качественных работах, поэтому такие результаты не могут воспроизвести другие исследователи;
критерий независимости хи-квадрат/критерий согласия хи-квадрат: статистический критерий, показывающий степень несовместимости данных с принятой статистической моделью, заключающей нулевую гипотезу (например, величины независимы или имеют определенное распределение). А именно: критерий сравнивает множества каких-то наблюдаемых величин x1,…,xm и ожидаемых при нулевой гипотезе величин y1,…,ym. Простейший вариант критерия –
При нулевой гипотезе значение 2 приближенно будет иметь известное 2-распределение. Это позволяет вычислить соответствующее P-значение;
логарифмическая шкала: логарифм по основанию 10 для положительного числа x обозначается y = log10x, что эквивалентно x = 10y. В статистическом анализе log x обычно обозначает натуральный логарифм loge x, что эквивалентно x = ey, где e – основание натурального логарифма 2,71828…;
логистическая регрессия: форма множественной регрессии, когда переменная отклика – это доля, а коэффициенты соответствуют log(отношение шансов). Допустим, мы наблюдаем набор долей yi = ri/ni в предположении, что у нас биномиальные величины с вероятностями pi, а соответствующий набор предикторных переменных – . Предполагается, что логарифм шансов с оцениваемой вероятностью определяется линейной регрессией:
Допустим, что одна из предикторных переменных, например x1, является двоичной, где x1 = 0 соответствует отсутствию воздействия потенциального риска, а x1 = 1 соответствует воздействию. Тогда коэффициент b1 – это log(отношение шансов);
ложноположительный: неверная классификация «отрицательного» случая как «положительного»;
математическое ожидание (среднее): среднее значение случайной величины (взвешенное по вероятностям или по плотности). Для дискретной случайной величины это xp(x), а для непрерывной случайной величины это xp(x)dx. Например, если случайная величина X – это число очков, выпавших на симметричной игральной кости, то есть P(X = x) = 1/6 для x = 1,2,3,4,5,6, то ;
матрица ошибок: таблица, где собраны верные и неверные классификации, произведенные каким-либо алгоритмом;
машинное обучение: процедуры извлечения алгоритмов (например, для классификации, прогнозирования или кластеризации) из сложных данных;
медиана (выборки): значение, которое окажется посередине, если упорядочить числа в выборке. Более строго: упорядочив числа в выборке, обозначим наименьшее число x(1), второе по величине x(2) и так далее (получившийся набор x(1),x(2),…,x(n) называют вариационным рядом). Если n – нечетное число, то медиана – число, находящееся точно посередине вариационного ряда, то есть число . Если же n – четное число, то медианой обычно считают полусумму двух средних чисел;
метаанализ: формальный статистический метод объединения результатов нескольких исследований;
метод наименьших квадратов: предположим, что у нас есть n пар чисел (x1,y1),(x2,y2), ,sx – выборочное среднее и среднеквадратичное отклонение для чисел x и sy – выборочное среднее и среднеквадратичное отклонение для чисел y. Тогда прямая регрессии, вычисленная по методу наименьших квадратов, определяется уравнением
где
– прогнозируемое значение зависимой переменной для определенного значения независимой переменной x;
коэффициент наклона ;
отсекаемый отрезок . Прямая по методу наименьших квадратов проходит через центр тяжести ;
i-й остаток – разность между i-м наблюдением и его предсказанным значением ;
скорректированное значение i-го наблюдения – это сумма остатка и отсекаемого отрезка, то есть . Это значение мы наблюдали бы в «среднем» случае, если бы имели а не x = xi;
остаточная сумма квадратов – это сумма квадратов всех остатков, то есть . Прямая, построенная по методу наименьших квадратов, определяется как прямая, минимизирующая сумму квадратов разностей;
коэффициент наклона b1 и коэффициент корреляция Пирсона r связаны формулой b1 = rsy / sx. Поэтому в случае, когда стандартные отклонения для x и y одинаковы, коэффициент угла наклона в точности равен коэффициенту корреляции;
множественная линейная регрессия: предположим, что для каждого отклика yi есть набор из p предикторных переменных (xi1,xi2,…,xip). Тогда множественная линейная регрессия по методу наименьших квадратов определяется уравнением
где коэффициенты b0,b1,…,bp выбираются так, чтобы минимизировать сумму остатков . Отсекаемый отрезок b0 – это просто среднее , а формулы остальных коэффициентов сложны, но легко вычисляются. Обратите внимание, что является спрогнозированным значением наблюдения y, если предикторные переменные были средними , и, как в случае линейной регрессии, скорректированные определяются суммой остатка и отсекаемого отрезка, или ;
многоуровневая регрессия и постстратификация (MRP): современный способ создания выборки, при котором из многих областей берутся достаточно небольшие количества респондентов с похожими характеристиками. Затем строится регрессионная модель для откликов всоответствии с демографическими факторами, что допускает дополнительный разброс между областями. Знание демографии для всех областей позволяет делать прогнозы на местном и национальном уровне с соответствующей неопределенностью;
множественная проверка гипотез: выполнение сразу нескольких проверок, что увеличивает вероятность получения хотя бы одного ложноположительного результата (ошибка первого рода);
мода (вероятностного распределения): для дискретного распределения – самое вероятное значение, для непрерывного – точка максимума плотности;
мода (выборки): значение, которое встречается в выборке чаще всего;
мощность критерия: вероятность правильного отклонения нулевой гипотезы при условии справедливости альтернативной гипотезы. Равна 1 – , где – вероятность ошибки второго рода для статистического критерия;
мудрость толпы: идея, согласно которой характеристика, определяемая групповым мнением, ближе к истине, чем предположения большинства отдельных людей;
наука о данных: изучение и применение методов получения информации из данных, включая построение алгоритмов для прогнозов. Традиционная статистика – часть науки о данных, в которую также входят кодирование и управление данными;
независимая (предикторная) переменная: переменная, которая фиксируется посредством проекта или наблюдения, чья связь с зависимой переменной может представлять интерес;
независимые события: события A и B независимы, если наступление A не влияет на вероятность наступления B, то есть (B|A) = p(B), или, что эквивалентно, p(BA) = p(B)p(A)[280];
непрерывная случайная величина: случайная величина X, которая может (по крайней мере, в принципе) принимать любое значение в пределах определенного промежутка. Непрерывная величина имеет плотность вероятности[281] – такая функция , что , а ее математическое ожидание определяется формулой . Вероятность того, что X попадет в промежуток (A,B), равна ;
нормальное распределение: случайная величина имеет нормальное (гауссовское) распределение со средним и дисперсией 2, если ее плотность имеет вид
Математическое ожидание E(X) = , дисперсия D(X) = 2, среднеквадратичное отклонение SD(X) = .
Стандартизованная случайная величина имеет среднее 0 и дисперсию 1, и тогда говорят, что у нее стандартное нормальное распределение. Функцию распределения для стандартной нормальной величины Z обозначают . Например, (–1) = 0,16 – это вероятность того, что стандартная гауссовская случайная величина не превосходит –1, или (что эквивалентно) вероятность того, что произвольная гауссовская случайная величина с параметрами и принимает значение, которое меньше ·100p%.% процентиль для стандартного нормального распределения – такое число zp, что P(Zzp) = p. Как значения функции , так и величины zp можно найти в таблицах или в стандартных программах: например, 75-й процентиль для стандартного нормального распределения равен z0,75 = 0,67;
нулевая гипотеза: принимаемое по умолчанию теоретическое предположение, как правило, означающее отсутствие эффекта или результата, проверяемое с помощью P-значения. Обычно обозначается H0;
обратная причинная зависимость: когда связь между двумя переменными изначально кажется причинно-следственной, а на деле причинно-следственные отношения оказываются обратными. Например, у людей, которые не употребляют алкоголь, показатели здоровья хуже, чем у умеренно пьющих, однако как минимум частично это объясняется тем, что некоторые ныне непьющие бросили пить из-за ухудшения здоровья;
обучение без учителя: определение классов на основании случаев без подтвержденного состава с использованием какой-либо формы процедуры кластеризации;
обучение с учителем: построение алгоритма классификации на основании случаев с подтвержденным составом классов;
объективное априорное распределение: попытка устранить субъективный компонент в байесовском анализе, заранее определив априорные распределения, которые должны отражать наше незнание параметров, а данные должны говорить за себя. Нет никакой общей процедуры для определения таких априорных распределений;
односторонние и двусторонние P-значения: значения, соответствующие односторонним и двусторонним критериям;
односторонние и двусторонние критерии: односторонний критерий для проверки гипотезы используется тогда, когда нулевая гипотеза, например, указывает, что эффект медицинского вмешательства отрицателен. Эта гипотеза отвергается только в случае, если наблюдаются большие положительные значения тестовой статистики, выражающие оценку эффекта вмешательства. Двусторонний критерий уместен, когда нулевая гипотеза говорит, что эффект медицинского вмешательства равен в точности нулю. Тогда к отказу от такой гипотезы ведут и большие положительные, и большие отрицательные значения тестовой статистики;
ожидаемые частоты: количество событий, которые должны произойти в будущем в соответствии с принятой вероятностной моделью;
остаток: разность между наблюдаемым значением и значением, предсказываемым статистической моделью;
относительный риск: если в группе людей, подвергавшихся какому-то воздействию, абсолютный риск равен p, а в группе людей, не подвергавшихся этому воздействию, абсолютный риск равен q, то относительный риск определяется как p / q;
отношение показателей: относительное увеличение ожидаемого числа событий за определенный период времени, связанное с каким-либо воздействием. Пуассоновская регрессия – это форма множественной регрессии, когда переменная отклика представляет собой наблюдаемый показатель, а коэффициенты соответствуют log(отношение показателей);
отношение правдоподобия: мера относительного подтверждения, которое дают данные для двух конкурирующих гипотез. Для гипотез H0 и H1 отношение правдоподобия при данных x определяется формулой p(x|H0) / p(x|H1);
отношение рисков: при анализе времени выживания – связанный с воздействием относительный риск пережить какое-то событие за определенный промежуток времени. Регрессия Кокса – это форма множественной регрессии, когда переменная отклика – это время выживания, а коэффициенты соответствуют log(отношение рисков);
ошибка второго рода: происходит, когда альтернативная гипотеза верна, но после проверки нулевая гипотеза не отвергается, то есть делается ложноотрицательное утверждение;
ошибка первого рода: происходит, когда ошибочно отклоняется верная нулевая гипотеза в пользу альтернативы, то есть делается ложноположительное утверждение;
ошибка прокурора: когда малая вероятность факта при условии невиновности ошибочно истолковывается как вероятность невиновности при условии наличия данного факта;
параметры: неизвестные величины в статистической модели, обычно обозначаемые греческими буквами;
перекрестная проверка: способ оценивания качества алгоритма для прогноза или классификации путем нескоьких выделений части случаев в качестве тестового набора;
переобучение (переподгонка): построение статистической модели, которая чрезмерно адаптирована к тренировочному набору данных, из-за чего ее прогнозные возможности начинают ухудшаться;
пиктографические диаграммы: графическое отображение величин с помощью небольших изображений, например изображений людей;
Пирсона коэффициент корреляции: если у нас есть n пар чисел (x1,y1),(x2,y2)…(xn,yn) и ,sx – это выборочное среднее и среднеквадратичное отклонение для чисел x, а ,sy – это выборочное среднее и среднеквадратичное отклонение для чисел y, то коэффициент корреляции Пирсона определяется формулой
Предположим, что x и y стандартизованы до Z-оценок u и v соответственно, то есть , а . Тогда коэффициент корреляции Пирсона можно выразить как , то есть прямого произведения Z-оценок;
плацебо: пустое вещество (например, таблетка с сахаром), которое дают контрольной группе в рандомизированном клиническом испытании под видом реального лечения;
погрешность: правдоподобный промежуток, в котором может лежать истинная характеристика популяции. Часто используются 95-процентные доверительные интервалы, которые примерно заключают промежуток ±2 стандартных ошибки, но иногда используются «усы» (планки погрешностей), отображающие ±1 стандартную ошибку;
подтверждающие исследования и анализы: строгие исследования, в идеале выполняющиеся с заранее утвержденным протоколом в целях подтверждения или опровержения гипотез, выдвинутых в ходе «поисковых» исследований или анализов;
поисковые исследования и анализы: первоначальные гибкие исследования, которые допускают адаптивные изменения в планах и анализе в целях поиска многообещающих результатов и предназначены для того, чтобы генерировать гипотезы, которые будут проверяться последующими подтверждающими исследованиями;
поперечное исследование: исследование, в котором анализ основан исключительно на текущем состоянии участников, без какого-либо последующего наблюдения в течение долгого времени;
поправка/стратификация: включение в регрессионную модель известных возмущающих факторов, которые не представляют прямого интереса, но позволяют провести более сбалансированное сравнение между группами; при этом можно надеяться, что оцененные эффекты, связанные с объясняющими переменными, должны быть ближе к причинной связи;
последовательное тестирование: когда какая-либо статистическая проверка повторно проводится на накапливающихся данных, что повышает вероятность появления в какой-то момент ошибки первого рода. Если процесс продолжается достаточно долго, гарантируется «значимый результат»;
правдоподобие: мера подтверждения, обеспечиваемая данными для конкретных значений параметра. Когда вероятностное распределение какой-либо случайно величины зависит от параметра, например , то после наблюдения данных x правдоподобие для пропорционально p(x|);
практическая значимость: когда какой-нибудь результат имеет реальную важность. Масштабные исследования могут давать результаты, которые статистически значимы, но не имеют практической значимости;
предсказательная аналитика: использование данных в целях создания алгоритмов для прогнозов;
проверка гипотезы: формальная процедура для оценки подтверждения гипотезы имеющимися данными. Обычно представляет собой сочетание классических фишеровских критериев для проверки нулевой гипотезы с помощью P-значения и конструкции Неймана – Пирсона, где фигурируют нулевая и альтернативная гипотезы и ошибки первого и второго рода;
проспективное когортное исследование: когда выбирается множество испытуемых, измеряются фоновые факторы, а затем за ними следят и наблюдают за соответствующими результатами. Такие исследования – продолжительные и дорогостоящие и могут не идентифицировать многие редкие события;
процентиль (выборки): если взять упорядоченный набор данных (вариационный ряд), то, например, 70-й процентиль – это такая величина, что 70 % наблюдений будут меньше ее. В частности, медиана – это 50-й процентиль. При необходимости используется интерполяция;
процентиль (генеральной совокупности): например, 70-й процентиль – это такая величина, что с вероятностью 70 % ваше случайное наблюдение будет меньше ее;
Пуассона распределение: случайная величина X имеет пуассоновское распределение с параметром >0, если Математическое ожидание E(X) = , дисперсия D(X) = ;
размах (выборки): разность между максимальным и минимальным значением, то есть x(n) x(1);
размер критерия: величина ошибки первого рода в каком-либо статистическом критерии, обычно обозначается ;
рандомизированное контролируемое исследование (РКИ): эксперимент, в котором люди или иные объекты случайным образом распределяются по различным вмешательствам, и такая случайность гарантирует, что группы будут сбалансированы в отношении известных и неизвестных факторов. Если в дальнейшем группы демонстрируют различные результаты, то либо вмешательство дало эффект, либо произошло какое-то удивительное событие, вероятность которого выражается через P-значение;
распределение выборки: закономерность в наборе числовых или категорийных наблюдений. Также именуется эмпирическим распределением, или распределением данных;
распределение генеральной совокупности (распределение популяции): когда она реально существует – закономерность, описывающая потенциальные наблюдения во всей популяции. Также так называется распределение порождающей случайной величины;
регрессия к среднему (регресс к среднему): когда в процессе естественных изменений наблюдается возврат от очень больших или малых наблюдений к более умеренным. Это происходит в силу того, что первоначальные экстремальные величины получались случайным образом, поэтому повторение в той же степени маловероятно;
регрессия Кокса: см. отношение рисков;
ретроспективное когортное исследование: исследование, в рамках которого набор испытуемых определяется в какой-то момент в прошлом, а их характеристики прослеживаются вплоть до сегодняшнего дня. Такое исследование не требует продолжительного периода наблюдения, но зависит от надлежащих объясняющих переменных, измеренных в прошлом;
сигнал и шум: идея, согласно которой наблюдаемые данные включают два компонента: детерминистский сигнал, который нас действительно интересует, и случайный шум, включающий остаточные ошибки. Задача статистики – правильно идентифицировать оба компонента и не принять шум за сигнал;
Симпсона парадокс: когда при учете возмущающего фактора видимое направление взаимосвязи становится обратным;
систематическая ошибка установки: происходит, когда вероятность включения в выборку человека или наблюдаемой характеристики зависит от какого-то фактора, например, когда в каком-нибудь рандомизированном испытании наблюдение за людьми в испытуемой группе оказывается более тщательным, чем наблюдение за контрольной группой;
скрытый фактор: в эпидемиологии – воздействие, которое не определялось, но может быть возмущащим фактором, ответственным за часть наблюдаемой связи. Например, когда в исследовании изучается связь рациона и заболевания, но не учитывается социально-экономическое положение;
слепой метод: чтобы избежать предвзятости в оценивании результатов, участвующие в клиническом исследовании не обладают всей информацией. При слепом методе пациенты не знают, какое лечение получают. При двойном слепом методе люди, наблюдающие за больными, тоже не знают, какое лечение те получают. При тройном слепом методе распределение по методам лечения не знают также и статистики, анализирующие данные;
случайная величина: переменная величина, принимающая различные значения с какими-то вероятностями. Случайные величины обычно обозначаются прописными буквами, например X, в то время как наблюдаемые значения обозначаются x;
случайный разброс: неизбежные различия, возникающие при измерениях и наблюдениях; некоторый из них могут объясняться известными факторами, а оставшиеся приписываются случайному шуму;
специфичность: доля «отрицательных» случаев, которые правильно определены при классификации или тестировании. Единица минус специфичность – это доля ложноположительных наблюдений (ошибка первого рода);
Спирмена ранговый коэффициент корреляции: ранг наблюдения – это его номер в вариационном ряду (упорядоченном наборе), причем равным величинам приписывается одинаковый средний ранг. Например, если у нас есть набор данных (3, 2, 1, 0, 1), то соответствующий набор рангов – (5, 4, 2,5, 1, 2,5). Ранговый коэффициент корреляции Спирмена – это просто коэффициент корреляции Пирсона, в котором наборы x и y заменены их соответствующими рангами;
среднее (выборки): 1) в широком смысле – общий термин для какой-то одной величины, характеризующей набор чисел, например среднее арифметическое, медиана или мода; 2) в узком смысле – то же, что среднее арифметическое (также говорят выборочное среднее). Предположим, что у нас есть выборка (набор чисел) x1,x2,…,xn. Тогда их выборочное среднее определяется формулой m = (x1 + x2 +…+ xn)/n, что можно записать в виде . Например, если пять человек сообщили о количестве своих детей и получилась выборка 3, 2, 1, 0, 1, то среднее число детей равно (3 + 2 + 1 + 0)/5 = 7/5 = 1,4;
среднее (популяции): см. математическое ожидание;
среднеквадратичная ошибка: мера качества прогноза; если спрогнозированы значения t1, t2,…, tn, а сделаны наблюдения x1, x2,…, xn, то среднеквадратичная ошибка равна ;
среднеквадратичное (стандартное) отклонение: квадратный корень из дисперсии выборки или распределения. Для хорошо себя ведущих разумно симметричных распределений без длинных хвостов можно ожидать, что подавляющее большинство наблюдений будут лежать в пределах двух стандартных отклонений от выборочного среднего;
стандартная ошибка: стандартное отклонение выборочного среднего, когда оно рассматривается как случайная величина. Предположим, что X1, X2,…, Xn – это независимые одинаково распределенные случайные величины, взятые из распределения со средним и среднеквадратичным отклонением . Тогда их среднее Y = (X1 + X2 +…+ Xn)/n имеет среднее и дисперсию 2/n. Стандартное отклонение для Y равно /n и известно как стандартная ошибка. Оценкой будет s/n, где s – выборочное стандартное отклонение для наблюдаемых величин X;
статистика: 1) дисциплина, занимающаяся изучением мира на основе данных; как правило, включает цикл решения проблем наподобие PPDAC; 2) какая-либо функция от данных. Например, наибольшее значение выборки, выборочное среднее, интерквартильный размах, выборочная дисперсия – различные статистики;
статистическая значимость: наблюдаемый эффект считается статистически значимым, когда P-значение, соответствующее нулевой гипотезе, меньше некоторого заранее установленного уровня, например 0,05 или 0,001. Это означает, что такой экстремальный результат маловероятен при справедливости нулевой гипотезы и всех прочих предположениях при моделировании;
статистическая модель: математическое представление вероятностного распределения какого-либо набора случайных величин, содержащее неизвестные параметры;
статистическое заключение: процесс использования данных выборки, для того чтобы что-либо узнать о неизвестных параметрах, лежащих в основе статистической модели;
стохастическая неопределенность: неизбежная непредсказуемость будущего, также известная как случайность, случай и так далее;
судебная эпидемиология: использование знаний о причинах заболеваний в популяциях при вынесении суждений о случаях болезни у отдельных людей;
счетные переменные: переменные, которые могут принимать целочисленные значения 0, 1, 2 и так далее или быть взаимнооднозначно сопоставлены с такими значениями;
тест перестановки/рандомизации: форма критерия для проверки гипотезы, когда распределение тестовой статистики при нулевой гипотезе получается не с помощью детальной статистической модели для случайных величин, а путем перестановки «меток» данных. Предположим, что нулевая гипотеза такова: какая-то «метка» (например, мужчина это или женщина) не связана с результатом обследования. Тесты рандомизации исследуют все возможные способы перестановки таких меток для отдельных элементов данных, при этом при нулевой гипотезе все они равновероятны. Для каждой перестановки вычисляется тестовая статистика, а P-значение определяется как доля тех перестановок, где получаются более экстремальные значения тестовой статистики, нежели реально наблюдаемые;
уровень ложноположительных результатов: при проверке многих гипотез доля положительных утверждений, которые оказываются ложноположительными;
фрейминг: выбор способа подачи информации, влияющего на впечатление аудитории;
центральная предельная теорема: общее название нескольких теорем, утверждающих, что при определенных условиях выборочное среднее для множества случайных величин сходится к нормальному распределению вне зависимости (за некоторыми исключениями) от исходного распределения этих случайных величин. Если у нас есть n независимых наблюдений с математическим ожиданием и дисперсией 2, то при широких условиях их выборочное среднее является оценкой для и приближенно имеет нормальное распределение со средним , дисперсией 2/n и среднеквадратичным отклонением n (также известным как стандартная ошибка оценки);
цикл PPDAC: предлагаемая структура «цикла данных», куда входят проблема, планирование, сбор данных, анализ (поисковый или подтверждающий), заключение и коммуникация;
чувствительность: доля «положительных» случаев, которые правильно определены при классификации или тестировании; часто называется долей истинно положительных наблюдений. Единица минус чувствительность – это доля ложноотрицательных наблюдений (ошибка второго рода);
шансы, отношения шансов: если вероятность какого-то события равна p, то шансы для такого события определяются как . Если шансы для какого-то события в группе с воздействием равны , а шансы группе без воздействия – , то отношение шансов составит . Если p и q малы, то отношение шансов близко к относительному риску p/q, но если абсолютные риски значительно превышают 20 %, то отношения шансов и относительные риски начинают различаться;
эпидемиология: изучение скорости распространения и причин заболеваемости;
эпистемическая неопределенность: недостаток знаний о фактах, числах или научных гипотезах.
Благодарности
Все идеи, возникающие в ходе долгой карьеры в статистике, – результат вдохновляющих бесед с коллегами. Хотя перечислить всех, у кого я их позаимствовал, сложно даже мне как статистику, короткий список я все же приведу, это Ники Бест, Шейла Бёрд, Дэвид Кокс, Филип Дэвид, Стивен Эванс, Эндрю Гельман, Тим Харфорд, Кевин Макконвей, Уэйн Олдфорд, Сильвия Ричардсон, Этан Шах, Адриан Смит и Крис Вайлд. Я искренне благодарен вам и многим другим людям за поддержку и вдохновение.
Из-за моей хронической прокрастинации процесс написания книги сильно затянулся. Поэтому я хотел бы поблагодарить Лору Стикни из издательства Penguin не только за заказ книги, но и за проявленное в течение всего этого времени спокойствие, сохраняемое даже тогда, когда работа была закончена, но мы все никак не могли договориться о названии. Спасибо Джонатану Пеггу за создание хороших условий, Джейн Бёрдселл за колоссальное терпение при редактировании и всему персоналу Penguin за кропотливую работу.
Я крайне признателен за разрешение использовать иллюстрации следующим людям и организациям: Крису Вайлду (рис. 0.3), Джеймсу Грайму (рис. 2.1), Кэт Мерсер из Natsal (рис. 2.4 и 2.10), Национальной статистической службе Великобритании (рис. 2.9, 8.5 и 9.4), Службе общественного здравоохранения Англии (рис. 6.7), Полу Бардену (рис. 9.2) и «Би-би-си» (рис. 9.3). Общественные данные о Великобритании используются в соответствии с Открытой государственной лицензией, версия 3.0.
Поскольку я не особо хорошо программирую на R[282], Мэтью Пирс и Мария Сколариду очень помогли мне с выполнением анализов и построением графиков. Я также не особо силен в писательстве, поэтому в неоплатном долгу перед многочисленными людьми, которые читали текст и делали замечания. Среди них Джордж Фармер, Алекс Фримэн, Кэмерон Брик, Майкл Поснер, Сандер ван дер Линден и Симона Варр; отдельное спасибо Джулиану Гилби за поиск ошибок и двусмысленностей.
Кроме того, я должен поблагодарить Кейт Булл не только за важные комментарии по тексту, но и за поддержку как в хорошие (когда я писал в пляжной хижине на Гоа), так и в плохие (в сыром феврале под давлением чрезмерного количества обязательств) времена. Также я глубоко признателен Дэвиду и Клаудии Хардинг за финансовую поддержку и постоянное подбадривание, что позволило мне заниматься интересными вещами в последние десять лет.
Наконец, как бы мне ни хотелось возложить вину на кого-нибудь другого, я должен взять всю ответственность на себя за неизбежные оставшиеся в книге недостатки.
Код на языке R и данные для воспроизведения большей части анализов и рисунков можно найти на сайте https://github.com/dspiegel29/ArtofStatistics. Я благодарен за помощь при подготовке этих материалов.
Список иллюстраций
0.1. Возраст и год смерти жертв Гарольда Шипмана
0.2. Время смерти жертв Гарольда Шипмана
1.1. Уровень выживаемости за 30 дней после операции на сердце
1.2. Процентные доли операций на сердце у детей для разных больниц – круговая диаграмма
1.3. Процентные доли операций на сердце у детей для разных больниц – гистограмма
1.4. Риск употребления бутербродов с беконом
2.1. Банка с жевательными драже
2.2. Различные способы показать догадки о количестве драже в банке
2.3. Графическое изображение догадок о числе драже в банке в логарифмическом масштабе
2.4. Сообщенное количество партнеров противоположного пола за всю жизнь
2.5. Показатели выживаемости в зависимости от количества операций на сердце у детей
2.6. Нулевые коэффициенты корреляции Пирсона
2.7. Тренды мирового населения
2.8. Относительный рост населения по странам
2.9. Популярность имени Дэвид во времени
2.10. Инфографика по сексуальным отношениям и образу жизни
3.1. Диаграмма индуктивного умозаключения
3.2. Распределение новорожденных по массе
5.1. Разброс роста сыновей в зависимости от роста их отцов
5.2. Модель логистической регрессии для данных об операциях на сердце
6.1. Надгробие жертвы «Титаника»
6.2. Сводные данные о выживании для пассажиров «Титаника»
6.3. Дерево классификации для данных о «Титанике»
6.4. ROC-кривые для алгоритмов, использованных для тренировочного и тестового наборов данных
6.5. Вероятности выживания при катастрофе «Титаника»
6.6. Дерево классификации для данных о «Титанике», слишком хорошо подогнанное к данным
6.7. Уровни выживаемости после операции для женщин с раком груди
7.1. Эмпирическое распределение числа сексуальных партнеров для разных размеров выборки
7.2. Бутстрэп-выборки из первоначальной выборки размера 50
7.3. Распределение средних значений для бутстрэп-выборок разных размеров
7.4. Регрессионные прямые для данных Гальтона по росту матерей и дочерей
8.1. Компьютерное моделирование вариантов игр шевалье де Мере
8.2. Дерево ожидаемых количеств для подбрасывания двух монет
8.3. Дерево вероятностей для подбрасывания двух монет
8.4. Дерево ожидаемых количеств для скрининга при раке молочной железы
8.5. Наблюдаемое и ожидаемое количество случаев убийства
9.1. Вероятностное распределение левшей
9.2. Воронкообразный график для уровней смертности от колоректального рака
9.3. График данных опросов общественного мнения «Би-би-си» перед всеобщими выборами 2017 года
9.4. Число ежегодных убийств в Англии и Уэльсе
10.1. Данные о соотношении полов при процедуре крещения в Лондоне
10.3. Совокупное количество свидетельств о смерти, подписанных Шипманом
10.5. Ожидаемые количества для результатов 1000 проверок гипотез
11.1. Дерево ожидаемых количеств для задачи про три монеты
11.2. Дерево ожидаемых количеств для задачи о допинге
11.3. «Обращенное» дерево ожидаемых количеств для задачи о допинге
11.4. «Бильярдный» стол Байеса
12.1. Традиционные информационные потоки для статистических сведений
Список таблиц
1.1. Результаты после детских сердечных операций
1.2. Способы выразить риск рака кишечника при ежедневном употреблении сэндвича с беконом
2.1. Характеристики выборки для предположений о числе драже в банке
2.2. Характеристики выборки числа сексуальных партнеров за всю жизнь
4.1. Результаты Исследования защиты сердца
4.2. Иллюстрация парадокса Симпсона
5.1. Данные о росте родителей и их взрослых детей
5.2. Корреляция между ростом взрослых детей и родителей того же пола
6.1. Матрица ошибок для дерева классификации для тренировочных и тестовых данных о «Титанике»
6.2. Вымышленные прогнозы «вероятности осадков»
6.3. Результаты логистической регрессии для данных о выживании пассажиров «Титаника»
6.4. Эффективность различных алгоритмов для тестового набора данных о «Титанике»
6.5. Доля выживаемости женщин с раком молочной железы, определенная с помощью алгоритма Predict 2.1
7.1. Характеристики для числа сексуальных партнеров за всю жизнь, которое указывали мужчины
7.2. Выборочные средние для числа сексуальных партнеров за всю жизнь, которое указывали мужчины
9.1. Сравнение точных доверительных интервалов и для бутстрэппинга
10.1. Таблица сопряженности полов и положения рук
10.3. Наблюдаемые и ожидаемые количества дней с определенным числом случаев убийств
10.4. Результаты Исследования защиты сердца с доверительными интервалами и P-значениями
10.5. Результат, выдаваемый программой R для множественной линейной регрессии по данным Гальтона
10.6. Возможные результаты проверки гипотезы
11.1. Отношения правдоподобия для отдельных фактов-доказательств в отношении скелета Ричарда III
11.2. Рекомендуемые словесные интерпретации для отношений правдоподобия
11.3. Шкала Касса и Рафтери для интерпретации коэффициентов Байеса
13.1. Прогнозы числа мест, полученных каждой партией на трех последних национальных выборах
Эту книгу хорошо дополняют:
