Почему. Руководство по поиску причин и принятию решений Клейнберг Саманта
В чем-то это похоже на угрозу стереотипов, когда знание, что некий предмет или событие относится к группе с негативными характеристиками, может вызвать страх, что такие стереотипы подтвердятся.
Одно из исследований показало: результаты женщин на экзаменах по математике существенно разнились в зависимости от информации, что оценки зависят / не зависят от половой принадлежности (первой группе не сообщалось, у лиц какого пола результаты лучше)[101]. Женщины показали равные с мужчинами результаты, когда им сообщили, что никаких гендерных преимуществ нет, и гораздо худшие, когда говорили обратное. Подобные разновидности ложных каузальных верований имеют реальные последствия. Концепции, основанные на неверной каузальной информации, в лучшем случае неэффективны, а использование некорректных причин ведет к несправедливым судебным приговорам (см. главу 1).
Итак, нет ничего плохого в бесплатном и скромном ритуале (если скрестить пальцы «на удачу», вряд ли побочный эффект будет слишком велик). Но в итоге вы полагаетесь на весьма непрочные взаимосвязи, что порой приводит к переоценке влияния действующей силы (то есть чьей-либо способности контролировать или предсказывать события)[102]. Люди формулируют гипотезы и ищут признаки, подтверждающие собственные суеверия. Однако строгие рассуждения о причинности требуют признать потенциал предубежденности и быть открытыми к свидетельствам, противоречащим верованиям.
Далее мы увидим, как это сделать.
3. Корреляция. Почему множество каузальных утверждений ошибочны
В 2009 году ученые обнаружили поразительную взаимосвязь между вирусом XMR[103] и синдромом хронической усталости (СХУ)[104]. Миллионы американцев страдают от этого заболевания с симптомами в виде сильной и постоянной утомляемости, однако причина его неизвестна, и это препятствует профилактике и лечению. Вирусы, недостаточность иммунной системы, генетические факторы и стресс – вот лишь единичные гипотезы, пытающиеся объяснить, что запускает механизм заболевания[105]. И в придачу ко всем соперничающим причинным объяснениям затруднительно даже просто поставить соответствующий диагноз, поскольку нет единого биологического маркера, достоверно тестируемого в лабораторных условиях. Многие случаи остаются незамеченными, и, возможно, СХУ – это в действительности целый букет различных болезней[106].
Группа исследователей во главе с доктором Джуди Миковитц обнаружила, что среди 101 пациента с СХУ вирус XMRV имеют 67 % по сравнению со всего 3,7 % из 218 контрольных подопытных. Вирус объяснял не все случаи заболевания; была подгруппа пациентов, у которых СХУ стал результатом его действия, у других болезнь не диагностировалась. Для проблемы, в которой оказалось так трудно разобраться, результаты выглядели просто потрясающими, вызвав к жизни массу попыток их подтвердить. Самые разные исследования не смогли обнаружить связь СХУ и XMRV[107]; но в 2010 году ученые выявили похожий вирус, который также превалировал у пациентов с СХУ (86,5 %: у 32 из 37) в сравнении со здоровыми донорами крови (6,8 %: у 3 из 44)[108].
Эти результаты запустили новый виток гипотез и попыток подтвердить или опровергнуть обнаруженную взаимосвязь. Ученые предположили, что подобная мощная корреляция означает, что именно вирус XMR вызывает СХУ, то есть на этой основе стоит строить лечение. Кое-кто из пациентов, отчаянно желая выздороветь от изматывающей болезни, даже стал требовать у врачей лекарства против ретровируса на основе тестов XMRV.
Выявление у подавляющего большинства людей с СХУ этого вируса в крови – несомненно, интересная находка, которая помогла последующим экспериментам, но эта корреляция не доказывает, что вирус и есть виновник болезни или что антиретровирусное лечение будет эффективным. Вероятно, СХУ ослабляет иммунную систему, повышая подверженность вирусным заболеваниям. Даже если есть некая взаимосвязь, это не дает верного направления; иными словами, она не объясняет, что такое вирус для СХУ – причина или следствие, или же у всего есть общая причина.
В 2011 году оба исследования, выявившие корреляцию между вирусом и СХУ, были отвергнуты после яростных (часто публичных) дебатов. Что касается исследования доктора Миковитц, опровержение было частичным, а в одном случае журнал дал полное опровержение (правда, без согласия автора)[109]. Произошло следующее: пробы СХУ оказались заражены вирусом XMRV, выявив видимые отличия между двумя группами[110]. Помимо этого, был поставлен вопрос о возможной фальсификации данных, поскольку некоторая информация о методе приготовления образцов в подписях к рисункам была опущена, и кое-кто посчитал, что один и тот же рисунок был представлен с несхожими этикетками в разном контексте[111]. Наконец, исследование 2012 года, где различным группам (в том числе группам Миковитц) давались «слепые» образцы для анализа, не обнаружило связи СХУ и XMRV[112].
Интенсивные усилия, подогретые изначальными выводами, и накал страстей во время публичных дебатов между сторонниками и противниками новой теории – яркий пример того, насколько сильна может быть единственная корреляция, которую сочли убедительной.
Фраза «корреляция не обязательно означает причинно-следственную связь» прочно вбита в мозги любого студента, изучающего статистику; но даже те, кто понимает это высказывание и согласен с ним, порой не могут удержаться от попыток трактовать связи как причинные зависимости. Ученые часто заявляют о корреляциях, много раз поясняя, почему эти соотношения не имеют каузальной взаимосвязи и какой информации для этого недостает. Однако корреляции по-прежнему интерпретируются и используются как причинные зависимости (достаточно лишь проанализировать порой весьма серьезные расхождения между научной статьей и ее популярным вариантом в прессе). Сильная взаимосвязь может показаться убедительной и инициировать ряд успешных прогнозов (хотя в случае с СХУ это не так). Но даже она не объясняет, как работают те или иные вещи и с помощью каких вмешательств их действие можно изменить. Видимая связь между XMR и СХУ не доказывает, что можно вылечить последний с помощью первого, однако пациенты интерпретировали это открытие именно так.
Видимые корреляции могут объясняться еще не измеренными причинами (исключение данных о курении может вызвать взаимосвязь между раком и множеством иных факторов), однако случайные соотношения способны существовать, даже когда две переменные вообще никак не связаны. Корреляции бывают результатом абсолютной случайности (например, вы много раз за неделю сталкиваетесь с подругой на улице), искусственных условий эксперимента (вопросы могут быть подстроены под конкретные реакции), ошибки или сбоя (баг в компьютерной программе).
Иными словами, корреляция – это одно из основополагающих заключений, которые мы способны сделать, и свидетельство в пользу наличия причинной взаимосвязи. В этой главе мы рассмотрим, что такое корреляции и для чего они используются, а также познакомимся с некоторыми из множества путей, посредством которых они возникают без каких бы то ни было причинно-следственных связей.
Что такое корреляция
Х ассоциируется с раком, Y связан с припадками, а Z привязан к сердечным приступам. Каждый термин описывает корреляцию, сообщая, что эти явления соотносятся между собой. Хотя и не говоря, как именно.
Суть в том, что две переменные коррелируют, если изменения в одной из них ассоциируются с изменениями в другой. К примеру, рост и возраст детей коррелируют, потому что увеличение возраста соответствует увеличению роста: дети, как правило, с годами растут. Эти соотношения могут быть выборочными (измерения множества детей различного возраста за один раз), временными (измерения одного ребенка в течение жизни) или учитывать оба фактора (измерения разных людей в течение долгого срока). С другой стороны, между ростом и месяцем рождения нет долговременной корреляции. Это значит, что если месяц рождения варьируется, то рост так регулярно не меняется.
На рис. 3.1 (a) продемонстрировано, как возрастные изменения соотносятся с изменениями роста. Если увеличивается одна переменная, вместе с ней растет и другая. Напротив, на рис. 3.1 (б), где показаны рост и месяц рождения, мы видим набор случайно размещенных точек: месяц рождения варьируется, но соответствующего изменения в росте нет.
Рис. 3.1. Возраст и рост коррелируют, но рост и месяц рождения – нет
Это также означает, что, зная возраст ребенка, мы можем примерно предсказать его рост, а зная месяц рождения – нет. Чем ближе точки друг к другу, формируя линию, тем точнее наши прогнозы (поскольку при этом взаимосвязи теснее). Предсказание – одна из ключевых сфер применения корреляций, и в ряде случаев его можно сделать и без причинных взаимосвязей (хотя не всегда успешно).
Когда корреляции сильны, они могут приобретать видимые очертания, как на рис. 3.1 (a). Но нам необходимы методы измерения этой силы, чтобы провести количественное сравнение и оценку. Существует много единиц измерения корреляций, а одна из них наиболее употребительна – коэффициент корреляции Пирсона (обычно его обозначают буквой r)[113]. Этот показатель может иметь значение от 1 до –1. При значении 1 переменные обладают абсолютной положительной корреляцией (положительное изменение одной переменной прямо соответствует положительному изменению другой), а значение – 1 говорит об их абсолютной отрицательной корреляции (если одна переменная уменьшается, другая всегда увеличивается).
Получается, коэффициент корреляции Пирсона показывает, как варьируются вместе две переменные по сравнению с индивидуальными модуляциями (эти две меры называются «ковариация» и «вариация»). К примеру, мы можем отметить, сколько часов студенты в некой группе проводят за подготовкой к заключительному экзамену, чтобы посмотреть на соотношение показателей. Зная о наборе экзаменационных баллов и количестве часов, проведенных за подготовкой, но не имея возможности сопоставить итоговые оценки и соответствующие временные показатели, мы не определим, есть ли между ними корреляция. В этом случае получится наблюдать индивидуальные вариации каждой переменной, но не их взаимоизменения. То есть мы не можем выяснить, действительно ли большее время, потраченное на занятия, сопровождается более высокими оценками.
Скажем, вы хотите узнать, как получить грант, поэтому спрашиваете всех друзей, которые его имеют, что, по их мнению, помогло им. Все кандидаты оформляли заявку шрифтом Times New Roman; согласно мнению половины, важно, чтобы на каждой странице была как минимум одна иллюстрация; а треть рекомендуют представить заявку за 24 часа до установленного срока.
Означает ли это, что есть корреляция между названными условиями и получением гранта? Нет, не означает, потому что, не видя вариации исходного результата, нельзя определить, соотносится ли с ним какой-то иной фактор.
К примеру, если в течение некоей последовательности дней, когда температура доходила до 80°F (примерно 26,6 °C), на углу улицы стояли две тележки с мороженым, трудно сказать о корреляции погоды и мороженщиков, поскольку нет вариации значения той или другой переменной (температуры или количества мороженщиков). То же справедливо и для случая, когда есть вариация только одной переменной – например, на улице всегда два мороженщика, а температура изменяется от 80 до 90 градусов. Этот сценарий показан на рис. 3.2: отсутствие вариации ведет к тому, что данные скопились в одной точке, а модуляция единственной переменной дает горизонтальную линию[114]. Именно такой вариант в примере с грантом. Поскольку все результаты идентичны, нельзя сказать, что произойдет, если поменять шрифт или представить заявку за минуту до истечения срока.
Рис. 3.2. Не наблюдая вариации обеих переменных, нельзя обнаружить корреляцию
И тем не менее широко распространена ситуация, когда анализируются только факторы, ведущие к определенному исходу. Только представьте, насколько часто победителей спрашивают, как именно они добились успеха, а потом стараются этот успех воспроизвести, выполняя в точности те же действия. Подобный подход полон недостатков по многим причинам, включая то, что люди просто не слишком хорошо умеют определять существенные факторы, недооценивают роль случайностей и переоценивают свои способности[115]. В результате мы не только путаем факторы, которые по чистой случайности сопутствуют желаемому эффекту, с теми, которые действительно его обеспечивают, но и видим иллюзорные корреляции там, где их нет.
К примеру, многие интересуются, действительно ли музыкальное образование соотносится с профессиональными успехами в других областях. Даже если мы обнаружим, что многие успешные люди (как бы мы ни определяли успех) играют на музыкальных инструментах, эти ничего не скажет о существовании корреляции – не говоря уже о причинно-следственной связи. Если напрямую спросить, верят ли они, что музыка помогает развивать и другие способности, многие, безусловно, отметят некую взаимосвязь. Но с гораздо меньшей вероятностью они сделают это, если интересоваться конкретно умением играть в шахматы, быстро бегать или тем, сколько кофе вы выпиваете каждый день.
Для целей этой книги важнее всего следующее: беседы с победителями бесполезны, поскольку можно сделать то же самое, но не преуспеть. Возможно, все кандидаты оформляют заявки на грант шрифтом Times New Roman (а значит, те, кто не получил гранты, порекомендуют использовать другой шрифт), а может, успешные кандидаты получили грант, несмотря на избыточное количество иллюстраций в документах. Не зная совокупности положительных и отрицательных примеров, мы не сможем даже предположить наличие корреляции.
Скажем, мы исследуем студенческий пул, чтобы выяснить, сколько чашек кофе молодые люди выпивают перед финальным экзаменом, а потом регистрируем полученные баллы. Гипотетические данные этого примера представлены на рис. 3.3 (а). Корреляция очень сильна и равна почти 1 (0,963, если быть точными), поэтому точки на графике тесно окружают некую невидимую линию. Если взять обратное отношение (0 чашек кофе соответствуют 92 экзаменационным баллам, а 10 чашек – 10 баллам), чтобы сформировать отрицательную ассоциацию, абсолютное значение окажется тем же, а единственное, что изменится, – знак коэффициента корреляции. Тогда показатель измерения будет равен почти –1 (–0,963), а кривая станет отраженным по горизонтали вариантом положительно коррелирующих данных, как показано на рис. 3.3 (б).
Рис. 3.3. Корреляции между потреблением кофе и экзаменационными баллами
С другой стороны, если бы каждое из этих отношений стало слабее и имела место повышенная вариация результатов экзамена для каждого уровня потребления кофе, наблюдалась бы дисперсия точек, и корреляция была бы слабее. Это продемонстрировано на рис. 3.3 (в), где точки на графике по-прежнему имеют в основном линейную форму, но отклоняются от центра гораздо дальше.
Как и ранее, инверсия отношения (потребление кофе коррелирует с худшими оценками) формирует кривую на рис. 3.3 (г), где единственным отличием оказывается нисходящий уклон.
Заметим, что, если отношение слабое, гораздо труднее перейти от значения потребления кофе до экзаменационных баллов и обратно. Это четко видно, если в первых примерах выбор значения одной из переменных сильно ограничивает вероятные значения другой. Но если мы попытаемся предсказать экзаменационные баллы для 4 чашек кофе с более слабой корреляцией, прогноз будет гораздо менее точен, поскольку мы наблюдали более широкий диапазон баллов для такого уровня потребления кофе. Предел для этой возрастающей вариации – пара переменных, которые абсолютно не соотносятся (имеют нулевой коэффициент корреляции), как показано на рис. 3.3 (д), при этом нельзя вообще ничего сказать о результатах экзаменов на основе выпитого кофе.
Или мы захотели узнать, насколько сильна корреляция между тем, где человек живет, и его умением водить машину. Мера, о которой мы говорили до сих пор, применяется для неквантованных[116] данных, таких как цены на акции, а не дискретных, таких как местонахождение или киножанр. Если у нас всего две переменные, каждая из которых принимает только два значения, лучше взять упрощенный вариант коэффициента корреляции Пирсона – так называемый фи-коэффициент[117].
Например, можно проверить соотношение между местом, где люди живут, и их умением водить машину. Местом жительства может быть либо город, либо пригород / сельская местность, а факт вождения может либо иметь место (да), либо нет. Как и ранее, проверяем, как эти условия варьируются. Здесь вариация означает частоту, с которой они наблюдаются совместно (а не то, как значения увеличиваются или уменьшаются).
В табл. 3.1 показано, какой вид могут принимать данные. Фи-коэффициент для них составляет 0,81. Мы изначально смотрим, сосредоточено ли большинство измерений вдоль диагональной линии на таблице. Если значения в основном находятся в группах вождение/не-город и не-вождение/город, можно говорить о положительной корреляции.
Если аккумулируются вдоль другой диагонали, корреляция имеет такую же силу, но другой знак.
Таблица 3.1. Различные комбинации местонахождения и вождения
Однако на основе этих измерений не каждая сильная корреляция будет иметь высокое значение. Применение коэффициента Пирсона предполагает, что это отношение линейно, а значит, если одна переменная (например, рост), увеличивается, другая (например, возраст) также увеличивается, причем с одинаковым темпом. Это не всегда справедливо, поскольку могут встречаться и более сложные, нелинейные отношения. К примеру, если из-за нехватки кофе человек становится вялым (и не способен показать хорошие результаты на экзамене), а избыток кофе его возбуждает (и тоже плохо влияет на результаты), то график, выстроенный на основе некоторых данных, может иметь вид, как на рис. 3.4. Здесь видно повышение балла в диапазоне от 0 до 5 чашек кофе, потом еще одно медленное падение. Хотя корреляция Пирсона для этого примера нулевая, данные показывают четкий паттерн.
Рис. 3.4. Нелинейное отношение (r = 0,000)
Подобный тип отношений показывает неоднозначные результаты при многих методах причинных умозаключений. В последующих главах мы вернемся к этому. Его важно иметь в виду, поскольку он встречается в таких прикладных науках, как биомедицина (например, и недостаток, и передозировка витаминов могут иметь последствия для здоровья) и финансы (например, кривая Лаффера, которая показывает зависимость между доходами государства и динамикой налоговых ставок).
Аналогично, если вес детей всегда увеличивается с возрастом, но экспоненциально (дети растут, и их вес растет все сильнее), корреляция Пирсона будет ниже ожидаемой, так как она работает в линейных зависимостях. Это одна из опасностей, подстерегающая тех, кто бросает данные в «черный ящик» и просто принимает любые полученные результаты, не проводя дальнейших исследований. Поступив так, когда корреляция недооценивается или даже кажется равной нулю, мы упускаем потенциально интересные зависимости.
Это одна из причин, почему нельзя интерпретировать нулевую корреляцию (пирсоновскую или любую другую) как вообще незначимую (существуют и другие причины, например ошибки в измерениях или первичные данные, искажающие результаты). Еще одна важная причина заключается в том, что данные могут не быть репрезентативными с точки зрения исходного распределения. Если бы нам разрешили взглянуть на статистику смертей от гриппа, но предоставили только данные о количестве больных, поступивших в лечебные учреждения, и вызовов скорой помощи, мы наблюдали бы гораздо более высокий процент летальных исходов, чем в масштабах всего населения. Это происходит потому, что люди оказываются в стационаре, как правило, с более тяжелыми случаями или дополнительными заболеваниями (и с высокими шансами смерти от гриппа). Итак, мы снова сравниваем не все исходы, а только статистику для больных или обратившихся к врачам на фоне симптоматики гриппа.
Чтобы проиллюстрировать эту проблему в ограниченном диапазоне, возьмем, к примеру, две переменные: общий экзаменационный балл и часы, потраченные на подготовку. Однако вместо данных по всему спектру оценок за экзамен мы имеем только сведения о лицах, получивших общий балл за письменный и устный тест по математике выше 1400. На рис. 3.5 эта область показана серым цветом.
Рис. 3.5. Закрашенная область представляет ограниченный диапазон данных
Согласно этим гипотетическим показателям, студенты с высокими баллами представляют собой комбинацию как лиц с природной одаренностью (которые преуспевают, особо не утруждаясь), так и тех, кто получил лучшие оценки за счет интенсивных занятий. Если воспользоваться только данными из закрашенной области, мы не обнаружим никакой корреляции между переменными; но если применить информацию по всему спектру экзаменационных показателей, созависимость будет сильной (корреляция Пирсона оценки и упорных занятий для закрашенной области равна 0, а для всего набора данных – 0,85).
Оборотная сторона медали – это корреляции, которые мы порой находим между несвязанными переменными, опираясь только на следствия (то есть принимая во внимание только случаи, когда это следствие имеет место). К примеру, получение высокого экзаменационного балла и участие во множестве факультативных мероприятий обеспечивают прием в престижный университет. Значит, данные, взятые только в вузах, покажут корреляцию между высоким баллом и многочисленными факультативами, так как здесь эти показатели чаще всего в наличии.
Подобная тенденция отбора данных довольно типична. Возьмем, к примеру, сайты, опрашивающие посетителей насчет их политических взглядов. В интернете не получится отобрать участников опроса случайно в масштабах всего населения, а данные источников с сильным политическим уклоном искажены еще сильнее. Если посетители конкретной страницы активно поддерживают действующего президента, то результаты по ним, возможно, покажут, что рейтинг главы государства растет каждый раз, когда он произносит важную речь. Однако это показывает лишь то, что есть корреляция одобрения президента и произнесения им речей перед сторонниками (поскольку на вопросы отвечают представители всего населения). Мы рассмотрим и эту, и другие формы трендов (например, смещение по выживаемости) в главе 7 и увидим, как они влияют на результаты анализа экспериментальных данных.
Важно помнить, что, помимо математических причин, по которым можно распознать ложные корреляции, есть еще наблюдение за данными, позволяющее найти ложные паттерны. Некоторые из когнитивных смещений, заставляющие нас видеть соотношение несвязанных факторов, также сходны с ошибкой отбора. К примеру, предвзятость подтверждения заставляет искать доказательства в пользу определенного убеждения. Иными словами, если вы верите, что лекарство вызывает некий побочный эффект, вы приметесь читать в интернете отзывы тех, кто уже принимал его и наблюдал это действие. Но таким образом вы игнорируете весь набор данных, не поддерживающих вашу гипотезу, вместо того чтобы искать свидетельства, которые, возможно, заставят ее переоценить. Предвзятость подтверждения также может заставить вас отказаться от свидетельств, противоречащих вашей гипотезе; вы можете предположить, что источник сведений ненадежен или что исследование основывалось на ошибочных экспериментальных методах.
Помимо предвзятости с точки зрения доказательств, может случиться ошибка интерпретации аргументов. Если в ходе «неслепого» тестирования нового лекарства доктор помнит, что пациент принимает это средство и считает, что оно ему помогает, то может начать искать признаки его эффективности. Поскольку многие параметры субъективны (например, подвижность или усталость), это может привести к отклонениям в оценке данных индикаторов и логическим заключениям о наличии несуществующих кореляций[118]. Этот пример взят из реального исследования, где доктора, выведенные из слепого метода, сделали вывод об эффективности препарата (мы подробнее обсудим ситуацию в главе 7). Таким образом, интерпретация данных может различаться в зависимости от убеждений, что приводит к отличиям в результатах[119].
Есть и специфическая форма предвзятости подтверждения – иллюзорная корреляция. Она означает поиск соотношения там, где его нет. Возможная взаимосвязь симптомов артрита и погоды настолько широко разрекламирована, что считается доказанной. Однако знание о ней может привести к тому, что пациенты будут говорить о корреляции просто из ожидания ее увидеть. Когда ученые попытались проанализировать эту проблему, взяв за основу обращения пациентов, клинические анализы и объективные показатели, то не обнаружили абсолютно никакой связи (а другие выяснили, что истинным виновником могла быть сырость, хотя и этот вывод не окончателен)[120]. А когда студентам колледжей показали данные из анкет пациентов, где отмечались одновременно болевые симптомы и атмосферное давление, те не только увидели корреляции там, где их не было, но и представили разные интерпретации одних и тех же последовательностей как положительно или отрицательно соотносящихся.
Это подобно ошибке отбора, поскольку одной из причин выявления неверной корреляции может быть концентрация на одном сегменте информации. Если вы прогнозируете отрицательное соотношение переменных, легко сосредоточите внимание на небольших сегментах целого, подтверждающих ваш прогноз. И такой случай относится к предвзятости подтверждения: можно сфокусировать внимание на определенных данных, повинуясь сформированным убеждениям. В случае с артритом и погодой люди, возможно, придают слишком большое значение определенным фактам (отбрасывая проявившиеся симптомы при хорошей погоде и придавая особое значение таким же при плохой) или видят доказательства там, где их нет (по-разному отмечают заболевание в зависимости от погоды и от ожидаемой связи того и другого).
Как пользоваться корреляциями
Скажем, мы действительно обнаружили соотношение между сроком представления заявки на грант и его получением. Действительно, чем раньше подана заявка, тем выше она будет оценена, поэтому коэффициент корреляции здесь и вправду будет равен единице. Значит, можно безошибочно предсказать, что некто получит грант, если подаст заявку за неделю, да?
Именно на это рассчитывают многие ретейлеры, пытаясь выявить индикаторы, которые спрогнозируют поведение покупателей. Реклама компании Target не сходила с газетных полос, когда ее представители заявили, что «узнали» о беременности девочки-подростка раньше, чем ее семья[121]. Разумеется, в Target на самом деле понятия не имели об этом; просто воспользовались огромным пулом сведений, собранных от других покупателей (и из других источников), чтобы выяснить, какие факторы коррелируют с разными стадиями беременности. На основе приличного объема наблюдений компания смогла, например, выяснить, что покупка либо лосьона, либо ватных шариков сама по себе не значимый факт, но беременные женщины часто выбирают оба эти предмета вместе с определенными витаминными добавками. Имея достаточно данных о покупательных паттернах и соответствующих сроках (это можно выяснить из записей о рождениях или спрогнозировать на основе информации о приобретении тестов на беременность), компания может определить вероятность беременности покупательницы и даже оценить, на каком она сроке. Даже если просто знать, что девушка приобрела два теста один за другим, это позволит сделать вывод, что первый оказался положительным.
Корреляции используют, например, Amazon, Netflix и LinkedIn, предлагая дополнительные товары, фильмы, которые могут вам понравиться, или потенциальные контакты.
Netflix, к примеру, может найти людей, которым нравятся те же фильмы, что и вам, и предложить вам киноленты, на которые эти люди дали хорошие отзывы. Именно это позволило ученым повторно идентифицировать людей в деидентифицированном наборе данных Netflix, воспользовавшись информацией из другого источника – IMDb[122], [123]. Алгоритмы вообще-то сложнее, чем те, о которых мы рассказали, но основная идея именно такова. Правда, эти компании не обязательно волнуют причины, по которым вы совершаете некие действия. Netflix может порекомендовать достаточно фильмов, которые вам понравятся, не потрудившись выяснить, что после напряженного дня вы смотрите только сериалы.
Есть, однако, немало примеров, когда предсказания, основанные на корреляциях, не оправдываются – даже если не уточнять, соответствуют ли соотношения причинным зависимостям. Одна из опасностей в том, что для любой корреляции между двумя переменными можно с большой вероятностью придумать ситуацию, когда такая взаимосвязь возникнет, а это ведет к ложной вере в результат.
Известен пример из области анализа данных, когда сведения о продажах в бакалейном магазине помогли выяснить, что люди часто покупают пиво и подгузники одновременно. Так возник миф, что мужчины, которые накануне выходных запасаются подгузниками, обязательно купят хоть немного пива в качестве награды за поход в магазин. Но, вернувшись в 2002 году к истокам этого случая, Дэниел Пауэр обнаружил, что изначальная корреляция ничего не говорила о гендерной принадлежности покупателей или в какой день недели совершались покупки. К тому же никогда не предпринимались попытки использовать ее для повышения прибыли – передвинув товары на полке магазина ближе друг к другу. Купленными товарами могли с тем же успехом оказаться попкорн и бумажные салфетки (для вечера перед телевизором) или яйца и таблетки от головной боли (для лечения похмелья).
Скажем, Amazon обнаружил сильную корреляцию между покупкой дисков с сериями телешоу, где действие происходит в колледже, и приобретением учебников для подготовки к экзамену по углубленной программе. Ясно, что продажи обоих товаров обеспечивают американские тинейджеры, но Amazon вполне может этого не выяснять, если единственная задача – дать рекомендации той же группе покупателей, на базе которой собирались маркетинговые данные. Если, однако, компания будет рекомендовать учебники покупателям из других стран, это не обеспечит вала продаж, поскольку такие экзамены сдают в основном ученики из США.
Итак, даже если корреляция истинна и надежна, она может оказаться бесполезной для прогнозирования, если мы попытаемся перенести ее на другую группу населения, не обладающую нужными свойствами для срабатывания взаимосвязи (подробнее об этом в главе 9). Корреляция ничего не говорит о том, почему эти предметы взаимосвязаны, то есть почему покупатели – именно конкретные подростки 16–17 лет, которые готовятся к экзаменам по углубленной программе, а также любят телешоу с персонажами такого же возраста. Значит, ее трудно применять для прогнозирования в других ситуациях.
Мы привели весьма однозначный пример, однако были и другие, с менее четким механизмом действия. В 1978 году спортивный журналист в шутку предложил новый индикатор фондового рынка: если команда Американской футбольной лиги выигрывает Супербоул[124], к концу года рынок упадет; если нет – пойдет вверх[125]. Нет никакой специфической причины, по которой между этими событиями должна быть связь, но, если взять все возможные индикаторы поведения рынка, именно этот работает достаточно часто, убеждая некритично настроенную аудиторию. И все же без понимания того, почему это срабатывает, мы никогда не сумеем предсказать, в какие годы конкретный паттерн даст сбой. Может ведь оказаться, что с того момента, как этот индикатор получил широкую известность, знание о корреляции (пусть и безосновательно возведенной в ранг достоверных) влияет на поведение.
Аналогичные сомнения возникают, когда нужно использовать данные наблюдений (например, поисковые результаты в интернете или посты в соцсетях) для выявления трендов. Простое знание о том, что люди этим занимаются, приводит к изменениям в пользовательском поведении (возможно, благодаря освещению в СМИ), а также к злонамеренным азартным играм в системе.
Итак, хотя корреляции способны быть полезными для прогнозирования, прогнозы могут оказаться неверными, а измеренная корреляция – ложной.
Почему корреляция не причинно-следственная связь
Когда я читала лекцию о причинном осмыслении, один студент задал вопрос: «Разве Юм не утверждал, что причинность – всего лишь корреляция?»
И да, и нет. Да, причинно-следственная связь возможна, но мы не можем знать наверняка. А то, что мы способны наблюдать, – по сути, корреляция (или особый вид закономерности). Это, однако, не означает, что причинность представляет взаимосвязь только потому, что мы способны ее наблюдать. Это говорит еще и о том, что в большинстве работ, связанных с выявлением и оценкой причинных зависимостей, разрабатываются способы отличия каузальных корреляций от остальных.
Это можно проделать на основе экспериментов или статистических методов, но дело не только в том, чтобы выявить корреляцию. В этой книге мы проанализируем ситуации, в которых причинно-следственная связь кажется очевидной, но в реальности ее нет. В последующих главах мы также рассмотрим некоторые случаи, когда соотношения возникают без соответствующей причинной зависимости.
Первое – меры корреляции симметричны. Соотношение роста и возраста в точности соответствует зависимости между возрастом и ростом. С другой стороны, причинно-следственная связь может быть асимметрична. Если кофе вызывает бессонницу, это не значит, что бессонница также должна стать причиной потребления кофе, хотя такое может случиться, когда не выспавшийся ночью человек утром вынужден пить больше кофе.
Точно так же любая мера значимости причин (например, условные вероятности) отличается в двух направлениях. Если мы выявили корреляцию, не имея никакой информации о том, какой фактор имеет место в начале, то с равной вероятностью каждый из них может оказаться причиной другого (или будет наличествовать петля обратной связи), а мера взаимосвязи сама по себе не дает представления о различиях между двумя (или тремя) возможностями.
Если мы попытаемся придумать историю причинной взаимосвязи для пары коррелирующих вещей, нам придется, основываясь на базовых знаниях, предположить, какая из них, вероятнее всего, повлечет за собой другую. Например, даже если пол человека связан с риском инсульта, трудно представить, чтобы инсульт определял пол. Но если мы выявили соотношение между набором веса и пассивным образом жизни, никакие данные о том, как коррелируют эти факторы, не скажут о направленности найденной взаимосвязи.
Ошибочные корреляции могут возникать по многим причинам. В случае с СХУ и вирусом XMR соотношение возникло из-за загрязнения экспериментальных образцов. В других ситуациях это мог быть баг в компьютерной программе, ошибки в расшифровке результатов или некорректный анализ данных. Видимая связь может также возникнуть из-за статистических отклонений или простого совпадения, как в примере с фондовым рынком и футболом. Но есть еще одна причина – необъективность. Иногда, если выборка нерепрезентативна, мы можем увидеть корреляцию там, где ее нет. Точно та же проблема приводит к обнаружению соотношения и без причинной зависимости.
Важно понимать, что причинно-следственные связи не единственное, хотя и возможное в ряде случаев, объяснение корреляций. К примеру, мы нашли соотношение в ситуации, когда человек, съевший плотный завтрак, вовремя успевает на работу; однако, вероятно, оба фактора имеют общую причину: человек рано встал, а значит, у него было время хорошо позавтракать, вместо того чтобы в спешке бежать на службу. Выявив корреляцию между двумя переменными, нужно проверить, способен ли подобный неизмеренный фактор (общая причина) объяснить эту взаимосвязь.
В ряде случаев (о которых мы поговорим в главе 4) таким общим фактором оказывается время. Можно обнаружить множество ошибочных корреляций между факторами с устойчивыми по времени тенденциями. К примеру, если количество пользователей интернета всегда увеличивается и национальный долг – тоже, эти факторы будут взаимосвязаны. Но в целом мы ссылаемся на переменную или набор переменных, объясняющих корреляцию. Например, можно задуматься: действительно ли усердное учение обеспечивает лучшие оценки, или более вероятно, что лучшие студенты и усердно учатся, и получают высокие оценки. Возможно, врожденная способность становится общей причиной и оценок, и времени, проведенного за учебниками. Если бы была возможность изменить способность, это могло повлиять и на оценки, и на время обучения, но любое экспериментирование с оценками и усердием в учении не оказало бы никакого воздействия на два других фактора.
Аналогичная причина корреляции без прямой причинной зависимости – промежуточная переменная. Скажем, проживание в городе соотносится с низким индексом массы тела (ИМТ), поскольку горожане больше ходят, чем ездят на машине, и проявляют высокую физическую активность. Таким образом, жизнь в городе косвенно приводит к низкому ИМТ, однако переезд в город и постоянное использование транспорта – плохая стратегия для желающих похудеть. Большую часть времени мы ищем косвенные причины (например, курение вызывает рак легких, а не особые биологические процессы, посредством которых и происходит воздействие), но, если знать механизм (как именно причина производит следствие), можно найти лучшие пути для вмешательства.
Наконец, агрегированные данные могут приводить к странным результатам. В статье за 2012 год в журнале New England Journal of Medicine рассказывалось о поразительном соотношении между количеством шоколада на душу населения и числом Нобелевских лауреатов на 10 000 000 жителей[126]. Коэффициент корреляции составлял 0,791. Этот показатель возрос до 0,862 после исключения статистики по Швеции – стране, давшей гораздо больше лауреатов престижной премии, чем ожидалось, судя по статистике потребления шоколада.
Заметим, однако, что данные о шоколаде и Нобелевских премиях были взяты из различных источников, где каждая страна оценивалась отдельно. Это означает, что на самом деле мы не имеем ни малейшего представления, действительно ли потребители шоколада и лауреаты Нобелевки – представители одной и той же группы. Далее, количество награжденных – лишь малая доля населения, а значит, несколько дополнительных премий могли драматичным образом изменить расчеты. Большинство сообщений об отмеченной корреляции фокусировалось на потенциальном наличии причинной взаимосвязи между потреблением шоколада и получением награды, подавляя заголовками вроде «Шоколад делает нас умнее!»[127]; и «Хотите Нобелевку? Ешьте больше шоколада!»[128]. Работа ученых, однако, не поддерживает ни одно из подобных утверждений, и страны с большим числом лауреатов могли просто отметить это событие увеличенным количеством шоколада (не будем забывать, что коэффициент корреляции симметричен).
Более того, мы не способны ничего сказать о том, действительно ли любовь к шоколаду улучшит шансы на победу, если страны будут стимулировать его потребление у своих граждан, или этот продукт – просто индикатор иного фактора, к примеру экономического положения. Если нужны дополнительные причины, чтобы скептически отнестись к этой корреляции, вот еще факт.
Ученые, специально старавшиеся продемонстрировать всю глупость попыток интерпретировать взаимосвязь как причинно-следственную без дальнейших исследований, обнаружили статистически значимое соотношение между популяцией аистов и уровнем рождаемости[129].
Да, к исследованию про шоколад можно отнестись с юмором. Но подобный вид агрегированных данных часто используется для установления корреляции среди населения, и, по всем указанным причинам, эти данные особенно сложно использовать. Сведения за большой временной интервал несколько упростят задачу (например, росло ли потребление шоколада перед присуждением премий), но все равно придется учитывать разнообразные события, которые могут быть поводом для изменений (например, внезапный рост потребления шоколада и одновременная смена образовательной политики). Кроме того, Нобелевские премии часто присуждаются гораздо позже, чем случаются соответствующие события. Может найтись огромное количество иных условий, которые сформируют аналогичные корреляции. Если говорить об этом исследовании, «анализ по горячим следам» выявил еще одну забавную связь – между Нобелевскими премиями и молоком[130].
Множественные сравнения и p-значения
Участника исследования помещают в аппарат МРТ и показывают фотографии различных социальных ситуаций. Он должен определить эмоции, которые выражает человек на каждом кадре. С помощью МРТ ученые измеряют ток крови в локальных областях мозга и часто пользуются этим измерением как показателем мозговой активности[131], чтобы определить, какие области мозга задействованы в решении различного рода задач. Итоговые цветные изображения отражают, в каких областях наблюдается усиленный кровоток: именно это имеют в виду авторы статей, говоря, что некая область мозга «светится», реагируя на определенный стимул. Выявление активируемых областей помогает понять взаимосвязи в мозге.
Исследование обнаружило, что некоторые области мозга участника эксперимента демонстрировали статистически значимые изменения тока крови. Действительно, при том, что значение 0,05 часто используется как пороговое для p-измерений[132] (меньшие показания более значимы), уровень активности, ассоциированный с одной областью, имел p-значение 0,001[133].
Может ли эта область мозга быть связана с представлением эмоций других существ («принятие перспективы»)?
Если учесть, что объектом исследования был пойманный лосось, это кажется невероятным.
Так как же дохлая рыбина могла реагировать на визуальный стимул?
Результаты могли бы считаться высокозначимыми с учетом любых обычных пороговых значений, поэтому дело не в попытке преувеличить их важность. Чтобы понять, откуда они вообще могли взяться, сделаем небольшое отступление статистического характера.
Исследователи часто надеются определить, имеет ли некий эффект значимость (корреляция истинна, или это результат статистического отклонения), либо просто есть различие между двумя группами (активны ли разные области мозга, когда люди смотрят на людей или на животных). Но, чтобы объективно определить, какие выводы важны, необходима некая количественная мера. Одна из общепринятых мер – так называемое p-значение, которое используется для сравнения двух гипотез (нулевой и альтернативной).
P-значение показывает вероятность результата, который как минимум столь же нехарактерен, как и наблюдаемый, при условии истинности нулевой гипотезы.
Для наших целей такие гипотезы могут заключаться в следующем: между двумя вещами существует причинная зависимость (нулевая гипотеза) или нет (альтернативная гипотеза)[134].
Еще одна нулевая гипотеза: монета симметрична (альтернативная гипотеза – монета со смещением). P-значения часто интерпретируются неверно – как вероятность того, что нулевая гипотеза истинна. Хотя обычно используется пороговое значение 0,05, нет никакого закона, по которому результаты с p-значениями меньше 0,05 значимы, а больше 0,05 – нет. Это просто договоренность, и показатель 0,05 редко вызывает возражения у других ученых[135]. Условные знания не соответствуют понятиям «истинно-ложно», поскольку незначимые результаты могут иметь очень маленькие p-показатели, а значимый результат иногда не достигает критического уровня.
Фильм «Розенкранц и Гильденстерн мертвы» начинается с эпизода, в котором герои бросают найденную монетку – и оказываются в полной растерянности, когда она 157 раз падает орлом вверх[136]. Вероятность того, что монетка упадет орлом вверх 157 раз подряд, действительно крайне мала (1: 2157, если быть точными), и единственный равно экстремальный результат для 157 бросков – это все решки. То, что наблюдали Розенкранц и Гильденстерн, в самом деле имело очень низкое p-значение. Но это не означает, что обязательно происходило нечто странное – только то, что подобный результат невероятен для симметричной монеты.
Для менее экстремального случая, скажем, мы подбросим монету 10 раз, и выпадут 9 орлов и 1 решка.
P-значение такого результата (здесь нулевая гипотеза – что монета симметрична, а альтернативная – что она смещена в любом направлении) – это вероятность тех самых 9 орлов и 1 решки + вероятность 9 решек и 1 орла + вероятность 10 орлов + вероятность 10 решек[137]. Причина, по которой сюда включены две серии со всеми орлами и всеми решками, в том, что мы рассчитываем вероятность события как минимум такого же экстремального, как и наблюдаемое, а эти серии – самые экстремальные. Наша альтернативная гипотеза – смещение монеты в любом направлении, а не просто в сторону орлов или решек; вот почему мы включили длинные серии решек.
На рис. 3.6 представлены гистограммы для орлов в серии из 10 бросков по 10 монет. Если бы результатом для каждой монеты было в точности 5 орлов и 5 решек, каждый график представлял бы одну черту длиной 10 пунктов с центром на отметке 5. Но в реальности случаются и большие, и меньшие значения, и даже одна серия из всех решек (показанная маленькой чертой, которая пересекает один график справа налево).
Рис. 3.6. Каждая гистограмма представляет эксперимент, где 10 монет подбрасывают 10 раз. Каждая серия из 10 монет образует точку данных на графике в зависимости от количества орлов. Показано 8 примерных экспериментов
Такое событие все равно невероятно при наличии одной симметричной монеты; но что будет, если мы подбросим 100 монет? Увеличивая число экспериментов, мы создаем больше возможностей, чтобы некое по видимости аномальное событие произошло случайно. К примеру, вероятность того, что конкретный человек выиграет в лотерею, на самом деле мала; но, если играют достаточно людей, можно гарантировать, что кто-нибудь победит. На рис. 3.7 показана такая же гистограмма, но уже для 100 монет. Действительно, будет странно, если мы не увидим как минимум одной серии из 9 или более орлов или решек, когда бросают так много монет (или лотерею, где не будет победителей, если шансы 1: 1 000 000, а играют 100 000 000 человек).
Рис. 3.7. Результаты подбрасывания 100 монет по 10 раз для каждой. Показано 4 эксперимента
Именно проблема одновременного проведения многочисленных тестов и оказалась во главе угла исследования МРТ, с рассказа о котором мы начали разговор. Проверке подверглись тысячи малых областей мозга (а в исследованиях на людях их еще больше, потому что человеческий мозг включает множество областей), поэтому совсем неудивительно, что одна из них продемонстрировала значительный кровоток. Проблемы такого вида именуются проверкой многомерной гипотезы, что означает одновременную проверку большого количества гипотез. Вопрос становится еще более существенным с появлением нового метода, генерирующего громадные наборы информации (например, множества МРТ и экспрессии генов) с так называемыми большими данными. Ранее было возможно в рамках одного эксперимента проверить только одну гипотезу, теперь же, когда мы способны анализировать тысячи переменных, неудивительно, что между ними обнаруживаются корреляции в силу количества проведенных тестов.
В эксперименте с лососем ученые протестировали тысячи гипотез, и каждая утверждала, что некая область мозга проявит значительную активность.
В действительности же исследование доказало: все эти тесты могут дать кажущиеся значимыми результаты по чистой случайности. Было показано, что при использовании статистических методов, корректных для множества сравнений (фактически каждый тест требует более жесткого порогового показателя), значимой активности выявлено не было даже при очень нежестких порогах p-значений[138].
Важная вещь, которую стоит запомнить: читая отчет о некой необходимой находке, которая была взята из громадного набора одновременных тестов, обязательно обращайте внимание на то, как авторы решают проблему множественного сравнения. Статистики расходятся во мнении, как именно (и когда) корректировать этот фактор, но все дебаты в целом сводятся к тому, какой тип ошибки хуже. Корректируя множество сравнений, мы, по сути, заявляем о желании снизить количество ложных открытий и готовы мириться с возможностью пропустить из-за этого некие значимые находки (и генерировать ложноотрицательные результаты). С другой стороны, выступая против поправок, заявляем о нежелании упускать истинно положительные результаты за счет нескольких ложных открытий.
Между этими двумя типами ошибок всегда идет поиск компромисса, а предпочтения зависят от индивидуальных целей[139]. Возможно, для эксплораторного анализа, где поиск ведется экспериментальным образом до получения конечного результата, мы считаем нужным, образно говоря, раскинуть обширную сеть. С другой стороны, если мы стараемся отобрать узкоцелевую группу кандидатов для разработки дорогостоящего препарата, каждое ложное умозаключение способно привести к массе впустую потраченного времени и средств.
Причинность без корреляции
Мы часто спорим, почему корреляция может не иметь причинного характера, но важно признать, что также могут существовать истинные причинные взаимосвязи без видимого соотношения. То есть корреляцию нельзя считать демонстрацией причинности, и выявление взаимосвязи также не необходимое условие причинности.
Известен пример, именуемый парадоксом Симпсона (мы поговорим о нем в главе 5). В общем, даже если в рамках неких подгрупп есть взаимосвязь (скажем, тестируемый препарат в сравнении с известным лекарством улучшает результаты у некой группы населения), мы можем не обнаружить зависимости или найти, но обратную, если подгруппы объединить. Если новый препарат больше используют пациенты в наиболее тяжелом состоянии, а те, кто чувствует себя лучше, чаще получают обычное лекарство, то, если не принимать во внимание серьезность заболевания, может показаться, что тестовое лекарство приводит к худшим результатам для населения.
В качестве еще одного примера причинности без корреляции рассмотрим влияние длительных пробежек на вес. Да, пробежки могут снижать вес за счет траты калорий, но бег также приводит к повышению аппетита, что, в свою очередь, ведет к увеличению веса (и, таким образом, отрицательно влияет на его потерю). В зависимости от силы каждого конкретного воздействия или исследуемых данных положительный эффект пробежек может полностью нивелироваться отрицательным, а значит, между бегом и потерей веса соотношения не будет. Структура этого примера представлена на рис. 3.8. Причина обладает положительными и отрицательными воздействиями, которые осуществляются различными путями; вот почему мы можем либо не наблюдать корреляции вообще, либо наблюдать нечто близкое к ней (вспомним: любые меры не абсолютны).
Рис. 3.8. Набор положительных (стрелка вверх) и отрицательных (стрелка вниз) причинных зависимостей. В разных группах населения они могут нивелироваться
Мы уже рассмотрели причины, по которым невозможно обнаружить существующую корреляцию (например, ошибка отбора, недостаточная вариация, предвзятость подтверждения, нелинейные зависимости и т. д.), и часто можно услышать, что соотношение не обязательно предполагает причинность. Но важно помнить об обратном: причинно-следственная связь не всегда подразумевает корреляцию[140].
4. Время. Как время влияет на способность причинного восприятия и осмысления
В выборочном контролируемом эксперименте (2001) проверялось, могут ли молитвы улучшить здоровье пациентов, например сократить время их пребывания в больнице[141]. В двойном слепом исследовании (ни врачи, ни пациенты не знали, кто в какой группе) принимали участие 3393 взрослых больных с инфекциями кровотока, примерно половина из которых была отнесена к контрольной группе, а вторая половина – к группе «молитвенного вмешательства». По итогам и показатель времени пребывания в больнице, и показатель лихорадочного состояния в группе вмешательства снизились, причем со статистически значимым различием (p-значения равнялись 0,01 и 0,04).
Но, если подобное вмешательство столь эффективно, почему его практикуют не во всех больницах?
Одна причина в том, что участники исследования находились в больнице с 1990 по 1996 год, то есть молебны за их выздоровление устраивались задолго до того, как были зарегистрированы сроки пребывания и результаты. Действительно, молитвы были мерой не только ретроактивной, но также и дистанционной, читались в разных местах и в разное время людьми, которые не были в контакте с пациентами.
Причина, влиявшая на нечто в прошлом, целиком противоречит нашему пониманию причинности. Мы считаем, что причины предшествуют следствиям (если только не приближены по времени), и существует убедительная физическая зависимость, связывающая причину и следствие. И все же эксперимент проводился согласно обычным стандартам выборочных экспериментов (например, двойным слепым методом), а результаты оказались статистически значимыми в соответствии с общепринятыми критериями.
Статья об этом эксперименте вызвала вал писем на адрес редактора. В его издании обсуждались философские и религиозные соображения, и вопросы веры были не главными. На самом деле исследование требовало от читателей ответа на вопрос: смогли бы они принять результаты, серьезно противоречащие их устоявшимся верованиям, если бы стандарты испытания соответствовали их пониманию методологической разумности и статистической значимости.
Можете представить эксперимент, который уверит вас, что причина способна вызвать нечто, уже случившееся в прошлом? Даже если такой опыт кажется разумным, мы вряд ли поверим, что причиной стало произведенное вмешательство, поскольку это противоречит нашему пониманию временного паттерна причин и следствий. Если вы прежде слабо верили в некую гипотезу, возможно, ни один эксперимент не сможет значимым образом поменять ваши верования.
В причинности порядок событий оказывается центральным, да и мы сами прекрасно чувствуем, что между причиной и следствием должно пройти определенное время. К примеру, если вы смотрите фильм вместе с другом, который болен гриппом, и сами заболеваете через три месяца, вы вряд ли скажете, что это друг вас заразил. Но, если вы верите, что контакт с больным вызывает болезнь, почему бы не поставить грипп в вину другу? Дело не просто в подверженности болезнетворному вирусу, а скорее в том, что эта расположенность не способна моментально вызвать симптомы вируса из-за инкубационного периода, и на нее нельзя возлагать вину за заболевание гриппом в нескором будущем. Действительно, временной коридор, когда контакт приводит к болезни, очень уж узкий, и можно использовать это знание, чтобы ограничить диапазон контактов, вызывавших конкретный исход.
Именно время часто позволяет провести различие между причиной и следствием (болезнь, предшествующая потере веса, говорит о том, что похудение не могло ее спровоцировать), делает вмешательство эффективнее (некоторые лекарства необходимо принимать после контакта с вирусом) и помогает предсказывать события (знать, когда цены на акции пойдут вверх, намного полезнее, чем знать, что это случится в неопределенном будущем). Но время тоже способно вводить в заблуждение: мы можем обнаружить корреляции между несвязанными временными рядами со схожими трендами, можем оказаться не способны выяснить причину для запаздывающих следствий (например, между воздействием окружающей среды и состоянием здоровья), а между несвязанными событиями ошибочно установить связь, если одно из них предшествует другому (изготовители зонтиков, которые открыли свой магазин до сезона дождей, разумеется, не стали его причиной).
Восприятие причинности
Каким образом мы можем от корреляции, скажем, между физическими упражнениями и потерей веса прийти к логическому выводу, что это упражнения вызывают потерю веса, а не наоборот?
Корреляция – это симметричная взаимосвязь (соотношение роста и возраста в точности такое же, как и между возрастом и ростом). А вот причинные взаимосвязи асимметричны (жаркая погода может заставить спортсмена бежать медленнее, но сам факт бега не вызывает климатических изменений). Мы можем полагаться на базовое знание (скорость бегуна никак не влияет на погоду), но один из ключевых сегментов информации, позволяющих перейти от корреляций к гипотезам, – это время.
Юм решил проблему асимметрии, утверждая, что причина и следствие не могут происходить одновременно и что причина – более ранний эпизод. Итак, если мы наблюдаем устойчивый паттерн событий, может иметь место только одна ситуация, а именно: предыдущее отвечает за последующее[142]. Но философские труды Юма были в основном теоретическими, и, хотя с точки зрения интуиции верно утверждение, что наше восприятие причинности зависит от приоритета по времени, это не значит, что всегда будет иметь место именно такая ситуация.
Если вы наблюдаете, как один бильярдный шар движется по направлению к другому, ударяет по нему и второй устремляется вперед, вы справедливо верите, что первый шар вызвал движение второго. С другой стороны, если бы отмечалась длительная задержка, прежде чем второй шар пришел в движение, или первый остановился бы, не коснувшись второго, вы бы, возможно, не так решительно утверждали, что движение стало результатом воздействия первого шара.
Правда ли, что тайминг событий определяет восприятие причинности, или же это впечатление зависит от пространственного расположения?
Чтобы разобраться, прибегнем к помощи знакомого нам психолога Альберта Мишотта. В 1940-е годы он попытался разобраться, как время и пространство влияют на наше восприятие причинности[143]. Типичный эксперимент выглядел так: участникам показывали на экране две движущиеся фигуры и просили описать увиденное. Варьируя различные свойства движения (например, фигуры соприкасались, двигаясь одна за другой), ученый пытался выяснить влияние этих свойств на каузальные впечатления участников[144].
Труды Мишотта, как считается, заложили основу исследований по восприятию причинности, хотя его методы и задокументированные результаты не лишены некоторых противоречий. Не всегда ясно, сколько в каждом эксперименте было участников, как они отбирались, каковы их демографические характеристики и какие точно реакции наблюдались. Нет сведений, каковы были точные реакции и по какому принципу они квалифицировались как причинные или нет. Согласно Мишотту, многие из участников были его коллегами, сотрудниками и учениками, а это делает их более осознанными по сравнению с основной массой населения. Хотя труды ученого заложили значимую основу будущих экспериментов, стоило их повторить и провести дальнейшие исследования.
В экспериментах Мишотта, где две фигурки двигались на экране, при этом ни одна не начинала движение раньше и не касалась другой (как на рис. 4.1 (а)), участники, как правило, не описывали движение в терминах причинности[145]. С другой стороны, когда одна фигура двигалась навстречу другой, а вторая трогалась после контакта с первой (как на рис. 4.1 (б)), участники часто заявляли, что причиной движения второй фигуры становилась первая[146], при этом использовали язык каузальности (например, толчок и запуск). Даже когда сценки просто изображают движущиеся фигуры, без реальной причинной взаимосвязи между траекториями, люди все равно склонны интерпретировать и описывать движение в терминах причинности[147]. Такой феномен, когда наблюдатели описывают движение второй фигуры как вызванное первой, которая действует пусковым средством, называется эффектом запуска.
Рис. 4.1. На картинках представлен ряд экспериментов Мишотта с разными типами движения фигур. Стрелки показывают факт (и направление) движения фигур
Пространственный разрыв между фигурами (как на рис. 4.1 (в)) не устранял впечатления причинно-следственной связи[148]. То есть если порядок событий оставался неизменным и один кружок двигался за другим, останавливался, не коснувшись его, а второй кружок начинал двигаться сразу после остановки первого, участники все равно описывали это каузальным языком.
Похоже, в некоторых случаях предшествование во времени оказывается важнее пространственной смежности, однако это может зависеть от характеристик проблемы и точного расстояния.
На основе опубликованных описаний нельзя в точности воспроизвести оригинальную методологию, но другие труды подтверждают существование эффекта запуска. Его распространенность, однако, оказалась ниже, чем у Мишотта: всего от 64 до 87 % наблюдателей описывают движение как каузальное, впервые его увидев[149].
Теперь представим, что один шар катится к другому. Первый останавливается, как только коснется второго, и после некоторой паузы второй шар начинается катиться в том же направлении, что и первый. Можно ли утверждать, что первый шар – причина движения второго?
Имеет ли значение время запаздывания в 1 или 10 секунд? Юм утверждал, что смежность в пространстве и времени существенна для вывода о взаимозависимости, однако мы не всегда наблюдаем каждое из звеньев в причинной цепи. Чтобы изучить действие эффекта запаздывания на восприятие каузальности, Мишотт создал сценки вроде наблюдаемых с двумя шарами, с паузой между окончанием движения первой фигуры и началом движения второй, как на рис. 4.1 (г). Он обнаружил, что, несмотря на пространственную смежность (фигуры не соприкасались), запаздывание движения уничтожало всяческое восприятие причинности[150].
Помимо проблем с профессиональным уровнем участников (и их осведомленностью об экспериментах и о гипотезах Мишотта), одно из ограничений экспериментов заключается в том, что участники только описывают поведение фигур на экране, а не пытаются выявить свойства системы, взаимодействуя с ней. Попробуйте подумать об этом как о различии между ситуациями, когда вы видите, как некто нажимает кнопку вызова лифта, и просто наблюдаете за его прибытием и когда можете сами нажимать кнопку с любыми выбранными вами интервалами по времени.
Труды Мишотта доказали, что люди при определенных обстоятельствах описывают сценки в терминах каузальности. Но что именно происходит в физической системе, когда участник может контролировать проявление причины?
Взяв за основу работы Мишотта, Шэнкс, Пирсон и Дикинсон (1989) провели капитальное исследование, задачей которого было установить, как фактор времени формирует суждения о каузальности. В отличие от Мишотта, система здесь была инструментом, с которым взаимодействовали участники. Нажатие пробела на клавиатуре вызывало появление на дисплее мигающего треугольника, и участники должны были определить степень, с которой нажатие клавиши становилось причиной появления фигуры.
Исследователи обнаружили, что при интервале запаздывания от 0 до 2 секунд между нажатием клавиши и появлением треугольника участники считали маловероятным, что клавиша вызывала визуальный эффект. При интервале запаздывания от 0 до 16 секунд было обнаружено, что фактор причинности снижался по мере увеличения задержки между действием и его следствием.
Имея дело с физическими объектами, мы вполне обоснованно подозреваем, что один не заставляет двигаться другой, если есть длительная задержка от контакта между объектами до начала движения. Но в иных случаях нельзя ожидать немедленного эффекта. Воздействие патогенного вируса не сразу вызывает болезнь; требуются годы, чтобы политика властей дала измеримый результат; похудение за счет физических упражнений – процесс постепенный. И то, что, согласно результатам экспериментов, запаздывание всегда снижает восприятие причинности или приводит к ложным умозаключениям, представляет некоторую проблему.
Недавние исследования обнаружили, что, хотя запаздывание мешает корректно судить о каузальности, суждения частично могут зависеть от ожидаемого временного паттерна. Десятиминутная задержка между ударом по мячу для гольфа и началом его движения серьезно противоречит нашим знаниям физики; но интервал в 10 лет между воздействием канцерогенного фактора и развитием рака нельзя назвать неожиданностью.
Значимость времени запаздывания может частично зависеть от того, что уже известно о проблеме и ходе развития событий, по нашему мнению. Во многих из упомянутых психологических экспериментов подготовленные сценарии заставляют вспомнить о знакомых ситуациях, в которых ожидается немедленный эффект. К примеру, движущиеся кружки Мишотта обозначают шары (и ожидается, что один из них, ударяя по другому, должен немедленно заставить его катиться, а запаздывание будет ситуацией необычной), а в экспериментах Шэнкса с коллегами использовалась клавиатура (где ожидается, что нажатие клавиши вызовет быстрый ответ). С другой стороны, если участникам предлагался определенный сценарий (например, оценить, был ли рак легких вызван курением, на основе данных о курении конкретного лица и диагностике рака), они могли обнаружить, что если между фактом курения и постановкой диагноза прошла всего неделя, такая ситуация совершенно неправдоподобна, поскольку курение не может вызвать заболевание за такой короткий срок.
Чтобы изучить эту проблему, Бюхнер и Май (2003) провели такое же исследование, как Шэнкс и его коллеги, за одним исключением: они манипулировали ожиданиями участников, изначально сообщая, что между нажатием клавиши и высвечиванием треугольника может быть задержка. Сравнение результатов двух групп, из которых только одна получила сведения о возможном запаздывании, показало: хотя последнее всегда снижало восприятие действенности причины, предоставление информации нивелировало эффект.
Порядок экспериментов (какой эффект отмечался сначала – запаздывание или смежность) также серьезно влиял на результаты. То есть если участники вначале наблюдали задержку, выводы о вероятности причинно-следственной связи делались чаще, чем если сперва демонстрировалась смежность. Подобные следствия эксперимента говорят в пользу идеи о том, что на суждения влияет не просто порядок событий или длительность отставания, но и имеющееся знание.
Участники экспериментов Мишотта наблюдали, как на экране двигаются кружки, но интерпретировали их как физические объекты, перенося на них собственные ожидания по передаче импульса.
Базовая информация ограничивала влияние запаздывания на вывод о причинно-следственной связи в исследованиях Бюхнера и Мая, но этот эффект, как ни удивительно, все равно не исчезал полностью, даже если участники знали о задержке. Полученные результаты можно объяснить, например, тем, что экспериментальный сценарий так или иначе предусматривал нажатие клавиши и появление эффекта. Возможно, устойчивые сформированные ожидания относительно того, как быстро компьютер обрабатывает ввод данных с клавиатуры, не устранила даже полученная инструкция. Участники все равно действовали на основе имеющегося опыта о временном паттерне нажатия клавиш и ответных реакций, даже если руководство утверждало иное.
Позднее, воспользовавшись историей об обычной и энергосберегающей лампочках (когда участники наблюдали, с какой задержкой они загорались), команда исследователей смогла устранить негативное влияние отставания во времени на силу каузальных суждений. Так, группа, получившая инструкции, демонстрировала те же средние рейтинги причинности, независимо от факта запаздывания[151].
В каждом из сценариев факт запаздывания уже не оказывал отрицательного воздействия на вывод о причинности, но участники по-прежнему считали мгновенные эффекты каузальными, даже если это не поддерживалось полученной информацией.
Трудно спланировать эксперимент, где участники имели бы очень сильные ожидания относительно интервала запаздывания, которые при этом соответствовали бы их базовому знанию о работе тех или иных вещей. В позднейших опытах использовалась доска, установленная под углом. На ее верх ставили шарик, который катился вниз, исчезая из виду, и активировал внизу маленький выключатель. Угол наклона доски можно было менять. При вертикальном ее положении долгая задержка между началом движения шарика и включением света кажется невероятной; если доска почти горизонтальна – возможной. Здесь наблюдается сходство с механизмами быстрого и замедленного действия, как в психологических экспериментах (см. главу 2).
Используя этот сценарий, Бюхнер и Макгрегор (2006) показали, что в ряде случаев немедленное следствие снижает вероятность причины. Согласно большинству ранних исследований, запаздывания затрудняют поиск причин или в лучшем случае не влияют на логические заключения. Но ученым удалось показать, что иногда задержки способствуют выявлению причин (при малом отставании и низком столике, стоящем под уклоном, вероятность каузальных выводов снижалась). Эти результаты очень важны, поскольку доказали: запаздывание не всегда мешает выводам о причинности или делает причину менее правдоподобной. Напротив, главное, как наблюдаемый временной паттерн соотносится с нашими ожиданиями.
Заметим, что эти эксперименты отвечали на единственный вопрос: в какой степени нажатие клавиши становится причиной визуального следствия (действительно ли шарик включает свет), а не различение между многочисленными возможными причинами. В целом нужно не только оценить, с какой вероятностью конкретное событие оказывается поводом для исхода, но и сформулировать гипотезу о факторах, которые становятся причинами. Если вы, к примеру, получили пищевое отравление, то вам нужно не просто оценить, мог ли его спровоцировать отдельный продукт. Чтобы определить «виновника», вы проанализируете все, что употребляли в пищу. И время становится важным фактором, ведь под подозрение попадут блюда, которые вы ели совсем недавно, а не на прошлой неделе.
В некоторых психологических трудах представлены свидетельства подобного типа мышления, а именно: когда нет информации о причинно-следственных связях, сведения о временных паттернах могут перевесить другие возможности (к примеру, как часто события происходят одновременно). Однако это часто приводит к некорректным выводам. При пищевом отравлении вы можете ошибочно возложить вину на продукт, который съели последним, исходя только из временного паттерна и игнорируя другую информацию (например, какие рестораны или еда чаще всего ассоциируются с отравлениями).
Согласно Лагнадо и Сломэну (2006), даже когда участникам эксперимента сообщали о возможных задержках по времени, из-за чего порядок наблюдений мог оказаться недостоверным, они часто делали неверные заключения о причинных связях. То есть при определении взаимозависимостей они по-прежнему полагались на временной фактор, даже если он вступал в противоречие с данными о частоте одновременности событий.
А теперь представим, что вы щелкаете переключателем. Вы не знаете, чем он управляет, поэтому щелкаете несколько раз. Иногда свет зажигается сразу же, а иногда – с задержкой. Порой запаздывание составляет 1 минуту, а порой – 5 минут. Действительно ли кнопка становится причиной включения света?
Это похоже на ситуацию, когда вы нажимаете кнопку на пешеходном переходе: при этом не похоже, что сигнал светофора меняется быстрее. Причина, по которой сложно определить наличие каузальной взаимосвязи, состоит в том, что задержка между нажатием кнопки и сменой сигнала светофора сильно варьируется. Эксперименты со сменой последовательности запаздываний показали, что статичные отставания между причиной и следствием (например, треугольник всегда появляется на экране точно через 4 секунды после нажатия клавиши или отставание варьируется от 2 до 6 секунд) повышают вероятность определения причинной связи, а усиление изменчивости задержек ее понижает[152].
Как подсказывает интуиция, если запаздывание остается в узком диапазоне средних значений, довольно правдоподобно, что небольшие вариации других факторов или даже отставание наблюдения способны это объяснить. С другой стороны, при сильной изменчивости временного паттерна может существовать более одного механизма, посредством которого причина вызывает следствие. Например, если побочные эффекты лекарства проявляются в интервале от 1 дня до 10 лет после его приема, то с большей достоверностью присутствует иной фактор, влияющий на временной паттерн, – ускорение или задержка следствия. Это называется смешанным следствием.
Направленность времени
Скажем, подруга утверждает, что новое лекарство помогло ей справиться с аллергией. Если она убедительно расскажет, как препарат помог остановить выделения из носа, что вы подумаете о последовательности таких событий, как прием таблеток и прекращение симптомов аллергии? На основании этой взаимосвязи вы, вероятно, решите, что сначала подруга приняла лекарство, а затем проблема была устранена. Действительно, временной паттерн помогает обнаружить причины, а тесная связь между ними также заставляет делать вывод о времени из каузальных зависимостей. Ряд исследований показал, что знание о причинах может влиять на наше восприятие временного интервала между двумя событиями[153] и даже их последовательности[154].
Одна из проблем заключается в том, что два события могут казаться происходящими одновременно лишь в силу детальности измерений или нашей ограниченной наблюдательности. Например, в микроматричном анализе одномоментно измеряется деятельность тысяч генов, причем уровни такой активности обычно замеряются регулярно, скажем, раз в час. При анализе данных может показаться, что два гена показывают одинаковый паттерн активности (бывают одновременно сверхэкспрессированы и неэкспрессированы), даже если один из них, с повышенным уровнем экспрессии, вызывает аналогичное состояние у другого. И все-таки, не видя последовательности событий и не имея базового знания, согласно которому один ген обязательно проявляется в действии прежде второго, все, что можно утверждать, – это что их уровни экспрессии коррелируют, а не что один регулирует действие другого.
Точно так же в медицинские карты пациентов сведения не заносятся ежедневно: скорее, они формируют серию временных точек с нерегулярными пространственными промежутками (данные регистрируются, только когда люди обращаются за врачебной помощью). Таким образом, видно, что в некую конкретную дату пациент принимает лекарство, которое проявляет побочные эффекты; однако мы знаем только, что оба эти фактора присутствуют, но не можем быть уверены, что пациент сначала принял лекарство и именно оно стало потенциальной причиной побочного эффекта. В долгосрочных когортных[155] исследованиях опрос отдельных лиц может проводиться всего раз в год. Таким образом, если окружающие условия или иные факторы оказывают влияние на более коротком временном горизонте, подобная последовательность ими не охватывается (а значит, события могут оцениваться объективно). Во многих случаях любое событие может наступить первым с высокой правдоподобностью, и их совместное наступление не обязательно предполагает определенное направление причинности.
Самый вопиющий случай – если информации о времени нет совсем: к примеру, при перекрестном исследовании, когда данные собираются в одно время. Так, чтобы определить наличие взаимосвязи между раком и конкретным вирусом, обследовалась случайно выбранная группа населения. Не зная, какой фактор был первым, нельзя разобраться, что оказывается провокатором, если между ними заметна корреляция (вирус вызывает рак или рак повышает подверженность вирусу?), и можно ли говорить о причинности вообще.
Если предположения о направлении причинности делаются на основе предыдущего убеждения о том, что было первым, а не факта, мы можем некорректно увидеть причинно-следственную связь там, где есть только корреляции. К примеру, многие исследователи пытались определить, способны ли такие явления, как ожирение и развод, распространяться в соцсетях за счет социальных связей (например, в результате распространения на других людей эмоциональных состояний и психозов). Без информации о временных паттернах нет способа определить, какое направление достовернее[156].
Ряд философов, например Ганс Рейхенбах[157], пытались дать определение причинности в терминах теории вероятности, не используя данные о временных паттернах и стараясь вместо этого вывести направление времени из направления каузальности[158]. Есть и вычислительные методы, в определенных ситуациях способные идентифицировать причинные взаимосвязи на основе временных данных[159]. Но большинство подходов строится на том, что причина предшествует следствию, и именно эта информация используется при ее наличии.
Один из редких примеров действительно одновременного наступления причины и следствия, когда применяемая для измерения временная шкала не имеет значения и мы не можем сказать, что произошло первым, дает физика. Существует так называемый парадокс Эйнштейна – Подольского – Розена (ЭПР)[160], когда две частицы связаны таким образом, что при изменении импульса или положения одной из них эти же свойства другой частицы меняются в полном соответствии с первой[161].
Парадоксальность ситуации в том, что частицы разделены в пространстве, но изменение все равно происходит моментально, для чего неизбежно должна иметь место каузальная связь в отсутствие пространственной смежности или предшествования по времени (два свойства, которые мы считаем ключевыми). Эйнштейн называл нелокальную причинность «жутким дальнодействием»[162], поскольку каузальные взаимосвязи в космосе требуют, чтобы информация путешествовала со скоростью выше скорости света, в нарушение законов классической физики[163]. Заметим, однако, что этот вопрос вызывает немало дебатов как среди физиков, так и среди философов[164].
Одна из идей решения ЭПР-парадокса – это обратная причинность (которую иногда именуют ретропричинностью). Она допускает, что причины могут влиять на события прошлого, а не только будущего. Если частица, меняя состояние, послала сигнал другой, связанной с ней частице в некий момент времени в прошлом, чтобы та также изменилась, тогда перемена состояния не требует, чтобы информация передавалась быстрее скорости света (хотя это предполагает некие квантовые «путешествия во времени»)[165]. Мы примем за данность, что время течет в одном направлении, и даже если мы не наблюдаем события как последовательные, причина наступает раньше следствия.
Когда вещи изменяются со временем
Может ли исчезновение пиратов вызвать повышение температуры в глобальном масштабе? Правда ли, что поедание сыра моцарелла побуждает изучать информационные технологии?[166] В самом деле поставки лимонов в страну снижают количество аварий на дорогах?
На рис. 4.2 (a) показана взаимосвязь между импортом лимонов и количеством погибших в ДТП: чем выше объемы импорта, тем меньше смертельных случаев[167].
Рис. 4.2. Объемы ввоза лимонов в США (в тоннах) и смертность на дорогах в США [число летальных случаев на 100 человек]: а) как отношение одной переменной к другой и б) как временная функция
Хотя коэффициент корреляции Пирсона для этих данных составляет –0,98, что означает практически абсолютное отрицательное соотношение, никто почему-то до сих пор не предложил увеличить импорт цитрусовых, чтобы снизить количество погибших на дорогах.
А теперь взглянем, что получится на рис. 4.2 (б), если выстроить график данных по импорту и смертельным случаям в виде временной функции. Выходит, импорт со временем неуклонно падает, а смертность за тот же период растет. Данные на рис. 4.2 также представляют динамический ряд в обратном хронологическом порядке. Но мы можем заменить импорт лимонов любым другим динамическим рядом, падающим во времени (долей рынка Internet Explorer; акваторией арктических вод, покрытой льдом; распространением курения в США), и обнаружить точно такую же зависимость.
Причина в том, что подобные временные ряды не стационарны, а это значит, что их свойства – к примеру, средние значения – со временем меняются. Например, дисперсия свойства может модулироваться: средний объем импорта цитрусовых окажется стабильным, а годовые колебания – нет. Спрос на электроэнергию при двух подсчетах в год может проявить нестационарность, поскольку общая потребность будет, вероятнее всего, со временем расти, а тенденции – зависеть от сезонности. С другой стороны, результаты длинных серий подбрасывания монеток считаются стационарными, поскольку вероятность выпадения орлов или решек в каждой временной точке абсолютно одинакова.
Если на длинном временном горизонте наблюдается одинаковый (или абсолютно противоположный) тренд, некоторые ряды будут коррелировать, но это не значит, что один фактор станет причиной другого. Существует и другой метод поиска корреляций без соответствующей каузальной зависимости. Если цена на все акции в определенной группе за конкретный промежуток времени растет, можно обнаружить корреляцию между этими ценами, даже если дневные тренды совершенно отличаются.
В другом примере, который показан на рис. 4.3, количество диагнозов аутизма растет в том же темпе, что и число кофеен Starbucks[168], поскольку и те и другие показатели растут по экспоненте – но то же справедливо и для многих других временных рядов (ВВП, количество веб-страниц и научных статей). Здесь причинно-следственная связь весьма правдоподобна, но это далеко не всегда так, и можно придумать кучу убедительных историй, объясняя различные корреляции динамических рядов. Если бы я вместо этого взяла, скажем, процент домохозяйств[169] с высокоскоростным интернетом, вряд ли можно было найти убедительные свидетельства взаимосвязи, кроме того, что – уж так случилось – оба фактора растут со временем. Хотя кое-кто мог бы и придумать объяснение их взаимоотношений. Но это всего лишь корреляция, которая легко исчезнет, если мы учтем разную степень детализации данных по времени или сделаем поправку на их нестационарность.
Рис. 4.3. Два нестационарных динамических ряда, которые кажутся коррелирующими только потому, что оба со временем растут по экспоненте
Еще один вид нестационарности – если группа населения, среди которого проводилась выборка, изменяется со временем. В 2013 году Американская кардиологическая ассоциация (American Heart Assosiation, AHA) и Американская коллегия кардиологов (American College of Cardiology, ACC) выпустили новые справочники по борьбе с избытком холестерина вместе с онлайн-калькулятором, чтобы прогнозировать риск инфарктов и инсультов на 10 лет вперед[170]. Однако некоторые исследователи обнаружили, что калькулятор завышает риски на 75–100 %, что может вести к назначению избыточного объема лекарств, потому что рекомендации основаны на уровнях риска для каждого пациента[171].
Калькулятор учитывает такие факторы риска, как диабет, гипертензия и курение, но не берет – и не способен брать – в расчет все возможные моменты, влияющие на уровень риска, к примеру, подробную историю курения в прошлом. Коэффициенты в уравнениях (значимость каждого фактора) оценивались на основании данных, собранных в 1990-х годах, поэтому допущение заключается в том, что и другие свойства этой группы населения совпадут для ее текущего состава. Однако привычки курильщиков и другие важные факторы касательно образа жизни со временем изменились. Согласно анализу Кука и Ридкера (2014), 33 % белого населения на дату начала долгосрочного исследования курили по сравнению с 20 % той же группы на сегодня[172], что дало иной базовый уровень риска и в потенциале привело к переоценке этого фактора[173].
Мы часто говорим о внешней валидности, то есть можно ли экстраполировать некое заключение за пределы исследуемой выборки (подробнее об этом – в главе 7). Но есть и другой тип валидности – по времени.
Внешняя валидность определяет, как то, что мы узнаём в одном месте, способно информировать, что будет происходить в другом: к примеру, смогут ли результаты выборочного контролируемого эксперимента в Европе сказать что-либо об эффективности этого лекарства в США? Со временем также могут наблюдаться изменения в причинно-следственных взаимосвязях (новые законы спровоцируют перемены, влияющие на цену акций) или их силе (если люди начнут читать новости только в Сети, печатные объявления утратят воздействие на умы). Точно так же рекламный агент может выяснить, как конкретная социальная сеть влияет на объем продаж; но если цель, с которой люди пользуются соцсетями, со временем изменится, эта зависимость прекратит существование (например, вместо того чтобы «френдить» только близких друзей, люди начнут массово расширять знакомства).
Используя причинные зависимости, можно сделать косвенное предположение, что вещи, образующие взаимосвязь, со временем проявляют стабильность. Аналогичный сценарий реален, если мы рассматриваем, скажем, данные о повторной госпитализации пациентов на некоем временном отрезке. Возможно, количество рецидивов со временем возросло, и это было вызвано новой политикой или сменой руководства. Но могло случиться так, что население, лечившееся в больнице, также изменилось: к примеру, люди стали менее здоровыми. Получается, политика сама по себе привела к изменениям в населении. Мы узнаем об этом подробнее в главе 9, так как нередко стараемся понять, как причинные зависимости влияют на политику, хотя она сама приносит перемены. В результате первичные причинные зависимости могут прекратиться, и вмешательство окажется неэффективным. Один из примеров – программа сокращения числа учащихся в калифорнийских школах, когда внезапный рост спроса на учителей привел к снижению их профессионального уровня.
Могут также образовываться новые причинно-следственные связи, такие как появление нового канцерогена. Может меняться значение переменных. К примеру, язык постоянно трансформируется, возникают новые слова, а существующие используются иначе (например, слово «плохо» в значении «хорошо»). Или сначала речи политика повышали его рейтинг, поскольку его слова одобрялись обществом, а затем, когда люди перестали с ним соглашаться, его популярность снизилась. В результате прогнозы о повышении рейтингов не сработают, а действия – к примеру, написание новых речей – окажутся неэффективными. А на более коротком временном отрезке зависимость может оказаться истинной, если не учитывать дневные колебания.
Существует несколько стратегий для работы со нестационарными временными рядами. Можно, конечно, проигнорировать нестационарность, однако лучшие подходы используют более короткое время (набор рядов должен обладать стационарностью), если для этого достаточно данных, или же трансформируют временные ряды в стационарные.
В качестве примера нестационарности очень часто берется ситуация, предложенная Эллиотом Собером[174], [175], – зависимость между уровнем воды в Венецианской лагуне и ценами на хлеб в Англии, которые видимым образом коррелируют и со временем растут. Действительно, если взять данные Собера из этого примера с рис. 4.4 (а) (единицы переменных не приводятся), корреляция Пирсона для переменных составляет 0,8204. Хотя два временных ряда всегда растут, точный размер этого роста каждый год варьируется. Что мы действительно хотим понять – как эти изменения соотносятся.
Рис. 4.4. Уровень моря и цены на хлеб
Простейший подход заключается в изучении различий, а не голых фактов. Иными словами, насколько сильно увеличивается уровень моря или цены на хлеб относительно измерений предыдущего года?
Если взять изменения по годам, как показано на рис. 4.4 (б), корреляция падает до 0,4714.
Такой подход называется дифференцированием (что буквально означает вычисление разности между последовательными точками данных): это простейший способ превратить временной ряд в стационарный.
Даже если два временных ряда показывают одинаковые долгосрочные тренды (например, неуклонный прирост), дифференцированные данные могут уже не коррелировать, если разнятся дневные или годовые колебания. В целом одно только дифференцирование не гарантирует стационарность измененного временного ряда; требуются более сложные трансформации данных[176].
Это одна из причин, по которым работа с фондовым рынком обычно использует прибыли (изменение цены), а не фактические ценовые данные. Обратите внимание: именно здесь обнаружилась связь с лимонами и смертностью в ДТП, и именно поэтому можно выявить одинаковые зависимости для многих пар динамических рядов. Если общие тренды аналогичны и значимы, они обеспечивают основную часть измерений корреляции, доминируя над любыми различиями краткосрочных трендов, которые могут совершенно не коррелировать[177].
Использование причин. Все дело во времени
Можно ли назвать оптимальный день недели для заказа билетов на самолет? Когда лучше заниматься спортом: утром или вечером? Сколько нужно выждать, прежде чем просить о прибавке жалованья?
Экономисты часто упоминают сезонные эффекты – паттерны, которые проявляются каждый год в одно и то же время и представляют собой форму нестационарности. Однако временные тренды обнаруживаются во многих других видах динамических рядов, таких как посещение кинотеатров (на которое влияет фактор сезонности и выходных дней) или травмопунктов (резкий рост совпадает с сезонными болезнями). То есть, если мы найдем условия, активирующие продажи билетов в кино зимой, они могут оказаться неприменимыми, если мы попытаемся приложить их к росту летних продаж. Другие паттерны могут объясняться днем недели (к примеру, тренды внутригородской ежедневной миграции) или графиком государственных праздников.
Последовательность событий способна помочь при выяснении причин и качества прогнозирования (или получения информации о том, когда ожидать некое следствие). Но эффективное использование причин требует больше информации, чем простое знание о том, что случилось первым.
Во-первых, мы должны узнать, не оказывается ли некая зависимость истинной только в некоторых случаях, а во-вторых, каково запаздывание между причиной и следствием. Вот почему необычайно важно собирать сведения о временных паттернах и делиться ими. Немедленное лечение может улучшить исход многих болезней (к примеру, инсульта), но эффективность не всегда демонстрирует линейный спад по времени. К примеру, сообщалось, что если лечение синдрома Кавасаки[178] начать не позднее 10 дней после его проявления, риск будущего повреждения коронарных артерий значительно снижается. Еще лучше, если лечение начнется не позднее 7 дней; но, если атаковать болезнь через 5 дней, это не окажет дополнительного влияния на благоприятный исход[179]. В других случаях прием препарата утром или вечером мог сказаться на его действенности: если в процессе тестирования лекарство давалось в конкретные часы или просто каждый день в одно и то же время, но в реальной жизни, вне рамок тестирования, график приема существенно варьировался, оно могло не оказывать действия, предсказанного на основе клинических испытаний.
Чтобы определить, когда именно действовать, надо знать, сколько времени нужно, чтобы причина вызвала следствие. То есть необходимо определить, когда именно до начала выборов распространять конкретный агитационный материал; когда продавать акции, получив определенную информацию; или в какой момент до поездки в тропики принимать таблетки против малярии. В ряде случаев действия могут оказаться неэффективными, если совершаются без учета времени: к примеру, слишком ранний показ рекламы (когда воздействуют иные причины), принятие торгового решения до того, как акции окажутся на пике, или запоздалый прием профилактического средства (которое не успевает оказать эффект).
Точно так же временные паттерны могут влиять на наши решения, предпринимать ли некие действия вообще, поскольку от них зависят наши суждения как о полезности причин, так и об их потенциальных рисках. Полезность причины зависит и от вероятности того, что наступит следствие (при прочих равных причина, дающая 90 % успеха, предпочтительнее той, что обеспечивает только 10 %), и от срока ее срабатывания. Известно, к примеру, что курение вызывает рак легких и сердечно-сосудистые заболевания, но они не развиваются немедленно после начала курения. Знания только о вероятности рака недостаточно, чтобы принять обоснованное решение учесть риск курения, если вам также неизвестны временные паттерны. Возможно, кому-то невысокая вероятность заболевания в ближайшем будущем покажется более рискованной, чем почти стопроцентное ее проявление в отдаленное время.
Однако, принимая решение о вмешательстве, мы, как правило, не просто думаем, использовать ли некую конкретную причину для получения результата: мы выбираем между потенциальными вмешательствами. В одном из эпизодов сериала Seinfeld[180] Джерри задумчиво рассуждает о многочисленных средствах от насморка и кашля: «Это действует быстро, а у этого действие запоздалое, но пролонгированное. Так когда мне нужно чувствовать себя хорошо – теперь или потом?»[181]
Хотя такая информация усложняет принятие решений, она дает возможность лучше строить планы, исходя из ограничений (например, важная встреча через час или долгий день на лекциях в институте).
Время обманывает
Время – одно из ключевых свойств, позволяющих отличать причины от корреляций. Просто мы исходим из предпосылки, что там, где наблюдается соотношение, проявляющийся первым фактор и есть единственная потенциальная причина.