Почему. Руководство по поиску причин и принятию решений Клейнберг Саманта

Чтобы наглядно продемонстрировать полезность этой идеи, добавим причину рекламных объявлений.

Если маркетинговые стратегии влияют на покупки только посредством рекламы, то и вероятность покупки зависит лишь от рекламы – ее прямой причины. Как только значение объявления установлено, причина его появления теряет важность. Даже если мы обнаружим множество других причин объявлений, это не изменит фактора информации, которая нужна для прогнозирования покупок, так как все воздействия других переменных работают через объявления.

Перейдем к следующему рисунку.

Если мы захотим что-нибудь узнать о статусе покупок, не нужно выяснять, были ли объявления частью спланированной кампании или просто запущена массированная реклама. Чтобы понять, совершится ли покупка, важно лишь знать о факте показа рекламных объявлений. Эта идея аналогична скринингу, который мы наблюдали в главе 5. В теории это говорит о том, что если мы в силах прямо воздействовать на рекламу, никак не меняя при этом маркетинговые стратегии или бюджет, увидим и изменение в покупках. Дело в том, что они полностью определяются тем, как мы установим значение рекламных объявлений. На деле, однако, может оказаться невозможным вмешаться только в одну переменную, независимо от остальных на рисунке (подробнее об этом в главе 7). Рекламу нельзя включить и отключить по мановению волшебной палочки, а вмешательства порой провоцируют непредвиденные побочные эффекты.

Рисунки такого вида не могут отобразить все возможные зависимости. Увеличение покупок также может приводить к расширению рекламы или к изменению стратегии, а это создает на изображении цикличность. Предложенные здесь иллюстрации – это графический режим представления данных, известный как байесовские сети[238],[239], а именно тип ориентированных и ациклических графов[240]. «Ациклический» означает всего лишь отсутствие петель на графе, так что нижеследующее недопустимо.

Если представить, что вы прокладываете себе путь через ациклический граф, то закончить маршрут в том узле, с которого вы начали, невозможно. Такое свойство оказывается до удивления важным, когда мы применяем эти структуры в целях упрощения вероятностных расчетов. Скажем, требуется узнать вероятность одновременно покупок и рекламы, и мы ограничимся простым случаем, когда и то и другое может быть истинным или ложным. В отсутствие цикла, когда есть только ориентированное ребро (стрелка) от рекламы к покупкам, вероятность обоих событий вместе становится простой вероятностью покупки при условии рекламы, помноженной на вероятность того, что реклама истинна[241]. То есть поскольку покупки зависят только от рекламы, просто нужно знать вероятность покупки, если известно, что реклама истинна, а затем учесть вероятность того, что происходит в действительности. К примеру, если вероятность покупки после просмотра рекламы составляет 1, но реклама имеет более низкую вероятность – скажем, 0,01, – шанс увидеть то и другое вместе будет равен 0,01.

Но если между двумя факторами есть петля обратной связи, вероятность рекламы также зависит от вероятности покупки. Это затрудняет расчеты, если мы хотим, чтобы воздействие случилось одновременно, однако проблему можно решить, добавив фактор времени.

Скажем, покупка в некоторый момент времени воздействует на рекламу с запаздыванием, не моментально. Чтобы это представить, понадобится множество графов.

Здесь мы имеем один граф, где показано, как переменные связаны по времени t, и еще один для следующего за этим момента времени t + 1. Реклама и покупки разобщены на каждом графе, поскольку не оказывают немедленного воздействия друг на друга. Каждый из графов для отдельных временных сегментов представляет собой байесовскую сеть и, следовательно, не может иметь циклов. Однако мы можем получить моментальное следствие между рекламой и покупкой или наоборот, поскольку на одном графике и то и другое присутствовать не может. Вместо этого соединим графы по времени, чтобы отобразить обратную связь.

Затем эта структура неоднократно повторится во времени, так что каждый раз покупка будет зависеть от значения рекламы в предыдущий раз, и наоборот.

Такой граф называется динамической байесовской сетью, хотя сама структура фактически неизменна во времени[242].

Возможны более сложные структуры со множественными задержками по времени, и необязательна связь со следующим моментом на временной шкале. Задержки могут быть и более долгими (например, запаздывание между подверженностью вирусу и развитием симптомов). Главное возражение – сложность осмысления таких структур существенно возрастает по мере увеличения числа переменных и задержек по времени.

Когда графическая модель становится каузальной

Мы можем использовать графы для представления причинно-следственных связей, но это не значит, что каждый граф, который мы создаем или о котором узнаём, имеет характер причинности. До сих пор мы всего лишь изображали, как вероятность одной вещи зависит от вероятности другой. Мы могли с такой же легкостью получить графы, показывающие, как перейти от аудиохарактеристик к распознаванию речи, фильтровать спам на основе его содержания и идентифицировать лица на изображениях. Может существовать множество графов, соответствующих набору вероятностных отношений (то есть представляющих тот же набор зависимостей).

Так как же узнать, каузальна ли графическая модель? Ответ кроется прежде всего в допущениях, связывающих графы с теориями, о которых мы уже говорили.

Первые графические модели причинных умозаключений были разработаны философами (Спиретс и др.) и специалистом по информационным технологиям (Перл), которые объединили философию причинности с графическими моделями. Скажем, реклама есть причина одновременно покупок и узнаваемости бренда, как на рис. 6.4 (а). Если бы у нас не было переменной, представляющей рекламные объявления, и мы пытались вывести зависимости из набора данных, то обнаружили бы граф на рис. 6.4 (б), где некорректно показаны покупки в качестве причины узнаваемости бренда.

Рис. 6.4. Истинная структура показана слева. Если реклама не наблюдаемая переменная, может появиться некорректная структура справа

Вспомните допущение об отсутствии скрытых общих причин, или о каузальной достаточности, из начала этой главы. Она необходима, чтобы избежать подобных ошибок. В целом может присутствовать общая причина любого ряда переменных, и, если она не измерена, мы не можем быть уверены, что результирующие выводы о каузальности окажутся корректны.

А что будет, если наша рекламная переменная указывает, действительно ли было куплено рекламное время на ТВ, но истинная причина – это просмотр рекламы определенное количество раз?

Как уже говорилось, нам нужны правильные переменные. Каузальные взаимосвязи могут включать в себя сложные их наборы: если выкурить одну сигарету, это вряд ли приведет к раку легких, но многолетнее курение – уже более сильная причина; лекарства часто имеют порог токсичности, так что 5 мг препарата могут не вызвать опасных последствий, а вот 50 мг – уже смертельная доза; грейпфрут не вреден, но он взаимодействует со многими лекарствами, вызывая серьезные побочные эффекты. Если к числу переменных относится факт курения (а не его продолжительность), факт приема лекарства (а не доза) и потребление грейпфрутов (а не их потребление на фоне приема определенного лекарства), то можно не найти причинных зависимостей или определить их неверно.

Такие структуры представляют собой вероятностные отношения и сообщают, какие переменные необходимы для прогнозирования значения остальных, однако для фактического расчета вероятности требуется еще один элемент информации.

Байесовская сеть состоит из двух частей: это структура (то есть как именно связаны между собой переменные) и набор распределения условных вероятностей. Если не слишком вдаваться в детали, это всего лишь таблицы, которые позволяют узнать вероятность каждого значения переменной, исходя из значений ее причин. Для простого графа с рекламой и покупкой хватит двух рядов и двух колонок.

Сумма каждого ряда составляет 1, поскольку, независимо от значений, которые принимает реклама, покупка также должна иметь некое значение, а сумма вероятностей равняться 1. Колонки не суммируются до единицы, потому что они дают вероятность конкретного значения покупки при условии двух значений рекламы. Наш простой граф не завершен, так как для него нужна еще одна таблица с вероятностью рекламы. То есть теперь известно, как определить вероятность покупки с учетом значения рекламы; но как выяснить вероятность рекламы? В этой таблице будет только два числа, поскольку у рекламы в графе нет родительских переменных, и ее вероятность ни от чего не зависит (точно так же вероятность того, что бросок монеты будет иметь конкретное значение, обычно не зависит от значения другой переменной).

Для каждого узла в сети мы получим аналогичную таблицу. Знание структуры существенно упрощает расчеты, так как значение каждой переменной задается ее исходными переменными. Напротив, если мы ничего не знаем о связи между переменными, нам придется включить их все в каждую строку таблицы. Если есть N переменных, которые могут быть истинными или ложными, количество строк будет равняться 2N. Мы можем получить знание о структуре и вероятностях из имеющихся данных или создать структуру на основе уже известного и отсюда выяснить вероятности.

В обоих случаях, однако, мы должны быть уверены, что данные корректно представляют истинные зависимости между переменными. Это возвращает к допущению о репрезентативном распределении, или верности. К примеру, мы не получим варианта, когда реклама способствует покупкам только в одном направлении, но мешает, если они ведут, скажем, к усталости от принятия решений. Если такое случится, мы можем не увидеть зависимости между рекламой и покупками, даже если это присутствует в истинной структуре. Мы также можем не найти правильных вероятностей, если на графе мало точек.

Верность может не иметь места в ряде других случаев, например при парадоксе Симпсона. Или когда в зависимости от разделения данных (например, все пациенты против только мужчин или только женщин) мы могли наблюдать независимость, а в действительности ее не было (например, больше женщин принимали лекарство А, чем лекарство B) и результаты отличались (например, у женщин были лучше, чем у мужчин, независимо от лекарства).

Еще один проблематичный случай – детерминизм взаимосвязей. Скажем, каждый раз, когда приходит электронное сообщение, компьютер подает сигнал, который, в свою очередь, заставляет моего пса лаять.

Если вероятность лая при условии сигнала равна 1 и вероятность сигнала при условии электронного сообщения также равна 1 (так что оба события происходят, когда имеют место их причины), сигнал не приводит к независимости сообщения и лая, даже если согласно структуре это должно происходить.

Представьте, что вам известно только, получено сообщение или нет. Теперь вы также знаете статус других переменных, потому что, если есть сообщение, сигнал также звучит и ведет к лаю. Вы можете некорректно заключить, что сообщение напрямую становится причиной других переменных. Эта проблема, однако, свойственна не только графическим моделям, а вообще большинству вероятностных методов.

Итак, повторим. Причинность графическим моделям придают следующие допущения.

• Вероятность переменной зависит только от ее причин (причинное условие Маркова).

• Все общие причины измерены (достаточность).

• Данные, на основе которых мы получаем знание, точно представляют реальные зависимости (верность).

Есть и другие неявные допущения, обеспечивающие корректность причинно-следственных заключений (должно быть достаточно данных, переменные должны быть корректно представлены и т. д.), но три вышеназванных допущения чаще всего становятся предметом обсуждений и отражают основные различия между графами, которые представляют и не представляют причины.

От данных к графу

Скажем, о сотрудниках компании есть некоторые данные: о рабочих часах, отпусках, о производительности и тому подобное. Как найти сеть причинно-следственных связей между ними?[243]

Один из подходов – разработать меру для описания данных моделью, найти все возможные модели и выбрать одну с лучшим результатом. Это методы поиска и оценки[244]. Допустим, в массиве данных истинно единственное отношение: «отпуск есть причина продуктивности». Значит, модель с этим ребром должна иметь балл выше, чем имеющая и другие отношения или в которой это ребро направлено в обратную сторону (от продуктивности к отпуску). То есть граф на рис. 6.5 (а) должен иметь более высокую оценку.

Рис. 6.5. Если О П, первый граф будет иметь самую высокую оценку

Имея только эти три переменные, можно перечислить все возможные графы, проверить каждый и сделать выбор. Но, чтобы выбрать, нужен способ рассчитать, какой из них лучше соответствует данным. Есть много оценочных функций[245], и в итоге всегда выявляется, насколько хорошо мы описываем данные, не подстраивая граф под помехи и специфические свойства конкретного набора. Мы можем идеально учесть каждую точку в наборе данных с очень сложной структурой, но, вместо того чтобы моделировать каждый бит помех, стоит найти модель, которая охватывает более общие взаимосвязи между ее переменными.

Итак, обычно имеется фактор, исключающий граф, когда тот становится слишком сложным. Однако мы не можем выбирать между всеми возможными графами. Для набора из 10 переменных существует более 1018 вероятных графов[246]. Это более чем в миллион раз превышает количество американской валюты[247]. При этом не стоит даже пытаться искать взаимосвязи между всеми акциями в индексе S&P 500[248]. Всего при 25 переменных количество возможных графов (свыше 10110) оставляет далеко позади число атомов во Вселенной (по прикидкам, их сравнительно мало – 1080)[249]. Ни при каких обстоятельствах нельзя протестировать их все, однако на практике это и не требуется. Мы можем выборочно сгенерировать столько, сколько возможно, и выбрать лучший, хотя с учетом их количества вряд ли вероятно, что мы натолкнемся как на раз на нужный. Вместо этого для алгоритмов проще задать некоторые индикаторы важности графов.

Скажем, мы тестируем первые три графа на рис. 6.6: рис. 6.6 (в) имеет высший рейтинг. Тогда наилучшая стратегия – не выборочное генерирование четвертого графа, а исследование ближних к нему. Мы можем добавить ребро, изменить его направление или удалить и посмотреть, как изменится рейтинг. Тем не менее может случиться так, что лучшим графом окажется изображенный на рис. 6.6 (г) и мы не сможем протестировать его с помощью этой стратегии, поскольку доводим до оптимума третий граф и останавливаемся еще до получения истинной структуры. Но, не тестируя каждый граф, нельзя узнать наверняка, что лучший из них попал в диапазон проверки.

Рис. 6.6. При переменных А, В, С и D рисунки а – в отображают возможные графы для тестирования. На рисунке г показана истинная структура

На рис. 6.7 проиллюстрирована проблема локальной оптимизации. Если ось Y – это рейтинг графа и мы тестируем только графы рядом с отмеченной точкой, можно думать, что это лучший из возможных рейтингов, потому что он самый высокий. Это называется «застрять в локальном оптимуме», потому что мы оптимизировали рейтинг в конкретной области. Но это не лучший из возможных результатов.

Рис. 6.7. Иллюстрация локального оптимума

Чтобы разрешить эту проблему, в алгоритмах изучения причинных структур используются «умные» методы ограничения набора графов, которые необходимо протестировать, и исследования максимально большего поискового пространства. К примеру, если нам известно, что пол – это всегда причина, но никогда не следствие, можно избежать тестирования графов, показывающих следствия.

Если у нас есть представление о видах вероятных структур, можно сгенерировать вероятностное распределение на основе набора графов и с его помощью сориентироваться по поводу возможных структур для исследования[250].

Как вариант, вместо изучения устрашающе огромного набора потенциальных графов можно использовать зависимости между переменными для построенияграфа. Методы на основе ограничений предназначены именно для этого: для тестирования по критерию независимости и применения результатов, чтобы добавлять, удалять или ориентировать ребра графа.

Одни методы предусматривают добавление переменных по очереди, а другие начинают со связывания всех переменных друг с другом и удаления ребер по одному[251].

Возьмем следующий граф, где три переменные соединены всеми возможными путями.

Если мы обнаружим, что А и В независимы при условии С, сможем удалить ребро между ними и продолжить поиск иных взаимосвязей, позволяющих так же снимать ориентировочные ребра. Порядок тестирования, однако, имеет значение, поэтому ошибка на первых шагах может привести к заблуждениям в последующих. Имея реальные данные, вряд ли можно обнаружить точную независимость, однако придется решить, в какой точке принять или отвергнуть гипотезу. То есть, если вероятность А при условии В в точности равна вероятности А, имеет место их независимость. Однако можно обнаружить, что вероятность А при условии В и С очень близка к вероятности только при условии С, но не равна ей.

На практике необходимо выбирать статистический порог, чтобы принять заключение об условной независимости на основе таких тестов. И если необходимо провести большое количество тестов, мы столкнемся со множеством проблем по проверке разнообразных гипотез, о которых говорилось ранее (вспомните эксперимент с дохлым лососем)[252].

Измерение причинности

Один из подходов к причинному осмыслению – попытка найти модель, удовлетворяющую данным или объясняющую их. Но сделать это вычислительными методами крайне сложно, и в ряде случаев мы просто хотим узнать о взаимосвязях в некоем наборе уже измеренных переменных. То есть, возможно, нам нужно всего лишь выяснить причины рабочей производительности, а не выстроить полную модель, включающую все измеренные переменные. Рандомизированные испытания занимаются именно этими вопросами (каково действие конкретного лекарства на уровень смертности?), однако эксперименты можно проводить не во всех случаях, и им свойственны собственные ограничения (см. главу 7).

Еще один вид причинно-следственных рассуждений связан с квантификацией силы индивидуальных каузальных зависимостей. Если отпуск – причина производительности, а не наоборот, то сила отпуска как причины производительности должна быть выше, а обратной посылки – ниже. Эти корреляции симметричны, но мера каузальной значимости должна учитывать асимметрию таких отношений. Кроме того, она должна в некотором смысле быть пропорциональна информативности причины относительно следствия, а также ее полезности как цели вмешательства для получения следствия. Если отпуск случайно спровоцировал производительность, при этом многочасовая работа всегда ее повышает, тогда отработанные часы имеют больше каузальной силы, чем дни отдыха. Аналогично если принуждать людей брать отпуск – эффективная стратегия повышения производительности, а заставлять работать по многу часов – нет, перерыв в работе окажется более значимой причиной производительности.

Если, однако, отпуск ведет к производительности только потому, что снижает текучку персонала, а более опытные сотрудники демонстрируют более высокую производительность труда, желательно убедиться, что весомость опыта для производительности выше, чем значимость отпуска. То есть требуется найти самые непосредственные причины (на рассмотренных нами графах это родительские переменные, а не отдаленные потомки).

Но, если мы в силах оценить причины производительности совершенно независимо от причин любой другой переменной, можно выполнить меньше тестов, причем реально проводить их параллельно друг другу (что повышает эффективность компьютерных программ для расчета этих переменных). Также это означает, что вместо применения аппроксимации[253] (например, исследования подгруппы графов, а не всех возможных), когда многократный прогон программы каждый раз дает разные результаты, расчеты будут достаточно просты, чтобы использовать точные методы.

С другой стороны, есть ограничение: без структуры, показывающей связи между всеми переменными, нельзя брать полученные результаты непосредственно для прогнозирования. Скажем, мы обнаруживаем, что партийная поддержка – это причина, по которой сенаторы голосуют за законопроекты, и поддержка избирателей тоже может быть причиной. Но это ничего не говорит о взаимодействии между этими двумя видами поддержки, а также о том, будет ли результат сильнее, чем просто сумма двух причин. Одно из решений – найти более сложные взаимосвязи. Вместо того чтобы использовать любые измеренные переменные, можно выстроить конъюнкцию («законопроект поддерживают и партии, и избиратели»), выяснить, как долго некий фактор должен быть истинным (день, месяц, год и т. д.), и найти последовательности событий (будут ли результаты одинаковыми, если начать прием первого лекарства перед вторым?).

Не вдаваясь в детали, скажем, что существуют методы как для представления, так и для тестирования такого рода сложных взаимосвязей[254].

Значимость вероятностной причинной связи

Одна из возможных мер каузальной значимости – условная вероятность следствия при условии причины. Проще говоря, мы можем посмотреть, насколько отпуск повышает вероятность высокой производительности труда. Однако, как мы увидели в предыдущей главе, многие непричины также усиливают возможность других событий. Если отработанные часы и отпуск имеют общую причину, то они, по всей видимости, умножают вероятность друг друга.

Есть масса мер силы причинно-следственных связей[255], однако главное – каким-то образом включить сюда другую информацию и учесть общие причины. Так, допустим, мы знаем, что и отпуск, и сверхурочные увеличивают производительность труда, но, если присутствуют только сверхурочные, одно только знание об отпуске производительность не повысит.

На практике, однако, можно не измерять переменную напрямую. Возможно, мы не можем узнать точно, сколько часов люди работают, но мы в курсе, сколько времени они проводят в офисе. Некоторые из сотрудников на рабочем месте могут затягивать обеденный перерыв или тратить время на личную переписку и видеоигры. Используя только показатель офисных часов, не получится провести различие между этой категорией и теми, кто находится на месте меньше, но работает продуктивнее. С учетом этого обстоятельства такой индикатор рабочих часов не будет идеально экранировать следствия.

Подобный пример сродни тем, в которых мы изучали репрезентативность переменных (комбинации факторов против каждого отдельного) и ее влияние на результаты выводов о причинности. Итак, нам может понадобиться не только набор переменных для верного отделения причин от следствий. Также следует ожидать, что по этой и другим причинам (упущенные данные, ошибки измерений и т. д.) может иметь место некая вероятностная связь между переменными в отсутствие причинной зависимости, и придется выяснять, как с ними работать.

Если мы говорим, что отпуск – причина производительности, то имеем в виду, что факт отпуска важен для производительности. Если это действительно сильная причина, а требование эффективности не предъявляется ни к какому другому фактору (скажем, достаточный уровень дохода, чтобы отпуск не повлиял на финансы), то, независимо от значения других переменных (например, количества отработанных часов), производительность после отпуска должна повышаться.

И это не будет истинным для всех ситуаций, поскольку многие причины могут иметь как положительные, так и отрицательные следствия: к примеру, ремни безопасности в целом предотвращают летальные исходы дорожных происшествий, но иногда вызывают их, не давая выбраться из затонувшего автомобиля. Мы, однако, по-прежнему можем допустить, что даже если ремни безопасности иногда становятся причиной смерти, в среднем те, кто ими пользуется, имеют более низкие шансы погибнуть в автокатастрофе, чем остальные.

Чтобы квантифицировать (то есть выразить в численном виде) важность причин, можно в среднем вычислить, какое значение имеет причина с точки зрения вероятности ее следствий. Фактически идея заключается в том, чтобы выяснить, насколько изменяется вероятность следствия при отсутствии или наличии причины, если все остальное постоянно. Обстоятельства можно взвесить по критерию их вероятности; если причина значительно повышает вероятность следствия в часто повторяющемся сценарии, это значит больше, чем повышение вероятности в редких случаях.

Возьмем каузальную структуру на рис. 6.8, где партийная поддержка и идеология влияют на голосование политиков, но не предпочтения их избирателей. Если это истинный набор взаимоотношений, тогда в зависимости от того, поддерживают избиратели законопроект или нет, вероятность голосования «за» будет в точности такой же, хотя будут наблюдаться изменения при смене идеологии и партийных предпочтений.

Рис. 6.8. Средняя значимость избирателей для голосования будет стремиться к нулю. Обратите внимание, что графы без обведенных кружками узлов не представляют байесовские сети

Один из методов расчета причинной значимости – сразу зафиксировать значения всех переменных[256] и взглянуть на различия в следствии для каждого заданного значения. Партия может выступать за или против законопроекта, идеологические предпочтения могут совпадать с ним или нет, равно как и избиратели. Итак, мы можем взять каждую комбинацию и посмотреть, какое значение оказывает одобрение электората для любого соединения партийной поддержки и идеологических переменных. Поскольку эти две переменные полностью определяют исход голосований, разницы не будет никакой.

Однако при добавлении переменных каждый из возможных сценариев будет отмечен не слишком часто, и мы, возможно, не увидим достаточно примеров, чтобы вывести статистически значимые заключения. Более практичная мера значимости, чем разработанная мной, предусматривает наличие одновременно только одной константы, при этом для усреднения различий причина либо вводится, либо нет[257]. Для расчета этой меры причинной значимости avg мы выясним, какое значение оказывают избиратели, взяв константой партийную поддержку законопроекта, а потом сделаем то же самое для идеологии и так далее, в итоге сведя все отличия воедино, чтобы получить средний показатель для значимости избирателей.

По большей части в методах, основанных на вероятностях (например, как этот), берется набор данных и высчитывается число, обозначающее причинную значимость одной переменной по сравнению с другой. Это значение может находиться в диапазоне от – 1 до 1, где –1 – сильная отрицательная причина, мешающая следствию произойти, а 1 – сильная положительная причина следствия.

Поскольку обязательно будут помехи, ошибки и упущенные данные, нельзя сделать допущение, что нечто, не оказывающееся причиной, всегда будет иметь нулевое значение. Вместо этого, как правило, необходимо определить, какие значения меры причинной значимости будут статистически значимыми (вспомним разговор о p-значениях и тестирование множественных гипотез в главе 3)[258].

К примеру, когда мы рассчитываем среднюю причинную значимость большого количества потенциальных причин, при этом нет истинных причинных взаимосвязей, распределение рейтингов значимости (значений avg) будет выглядеть как колоколообразная (гауссова) кривая, или как светло-серые столбцы на рис. 6.9. Если в тестируемом наборе присутствуют некоторые истинные причинные взаимосвязи, их рейтинги значимости будут основаны на других распределениях (черные столбцы на том же рисунке). Можно применить это различие между наблюдаемым и ожидаемым, чтобы выяснить, какие значения меры могут считаться каузальными[259].

Рис. 6.9. Гистограмма рейтингов значимости для набора причинных зависимостей. Область светло-серого цвета (со средним значением 0, обозначающим незначимость) представляет ложные зависимости, черные столбцы – истинные причины. Из-за помех и иных факторов не все непричины будут иметь значимость 0, но будут распределены вокруг этой центральной области

Как обычно, чтобы высокие уровни причинной значимости соответствовали истинным причинам, нужно быть уверенными, что мы точно измерили силу (и, следовательно, вероятности репрезентативны относительно истинных значений) и, как в байесовских сетях, общие причины (или можно переоценить значимость других причин либо выявить ложные зависимости). Для этих временных рядов также понадобится сделать допущение, что отношения остаются стационарными во времени. Причина в том, что если отношения изменяются во времени, то, возможно, две переменные будут независимы для одной, но не для другой части временных рядов. Когда мы исследуем весь временной ряд сразу, отношения могут показаться слабыми, даже несмотря на их относительную силу на фоне некоторой части ряда.

Отвечая на вопрос «почему», мы часто забываем о вопросе «когда». В ряде методов можно уточнить временное запаздывание, или окно, так что нетрудно рассчитать значимость, скажем, близкого контакта с человеком, больным гриппом, для развития симптомов заболевания в период от одного до четырех дней. Но, если мы не имеем никакого понятия о том, что вызывает грипп, как поймем, что протестировали именно это «окошко»? Вот одно из слабых мест, присущих подобным подходам: если мы протестируем неверный набор временных рядов, то либо не сумеем выявить нескорые реальные причины, либо найдем только подгруппу в пределах истинного набора временных задержек.

Тестирование всех мыслимых запаздываний не слишком разумная стратегия, так как это значительно повышает сложность вычислений, при этом даже не гарантирует, что будут найдены правильные временные паттерны. Дело в том, что выборка данных часто берется неравномерно по времени и разброс может быть слишком велик (при малом количестве измерений и больших пробелах между ними), а пробелы не обладают свойством выборочного распределения.

Скажем, у нас есть результаты лабораторных испытаний для группы пациентов, а также врачебные предписания для них. Даже если лекарство однозначно повышает сахар в крови на протяжении недели, имеющиеся у нас измерения вообще (или в большей части) могли проводиться не сразу после приема препарата. Может также иметь место запаздывание от даты назначения до начала приема лекарства, так что кажущаяся длительная задержка между предписанием и повышением глюкозы на самом деле способна проявиться только через неделю после лечения. В результате для каждого отдельного временного интервала может не хватить объема наблюдений. Применение временных окошек может принести пользу (поскольку, если взять их вместе, удастся получить достаточное количество наблюдений за 5–10 дней), хотя по-прежнему не решается проблема с тем, какое именно временное окошко тестировать.

Один из способов выявления временных паттернов на основе данных – набирать потенциальные паттерны и потом корректировать, исходя из данных. Реальным этот метод делает мера значимости. Посмотрим на рис. 6.10, когда тестируемое временное окно перекрывает истинное, но отличается от него. Это и есть возможные сценарии. По мере того как окно растягивается, сужается или смещается, мы пересчитываем причинную значимость. В каждом случае, меняя некорректные окна, чтобы приблизиться к истинному, мы улучшаем рейтинг значимости. При наличии временного окна наша переменная-следствие и будет следствием, которое слчается в некотором временном диапазоне. Если окно намного шире истинного, как на рис. 6.10, будет множество примеров, когда можно ожидать, что следствие произойдет, но этого не случится (следовательно, рейтинг значимости будет исключен для всех этих следствий, по видимости не случившихся после причины). С другой стороны, если окно слишком узкое, следствие будет казаться вероятным, даже когда не вызывается потенциальной тестируемой причиной. По мере того как временные паттерны приближаются к реальным, значимость возрастает, и можно доказать, что она соответствует действительной[260].

Рис. 6.10. Возможные случаи, когда временное окно причины при тестировании образует перехлест, но отличается от истинной причины, в которой производит следствие

Причинность по Грэнджеру

Вероятности применяются чаще всего тогда, когда данные включают дискретные события: к примеру, наличие или отсутствие диагноза; лабораторные значения, сгруппированные по категориям «нормальное», «высокое» и «низкое». Но что, если требуется понять, как изменения в ценах на одну акцию приводят к модуляциям в объемах торгов другой ценной бумагой? Тогда на самом деле мы хотим выяснить не то, как одно ценовое значение приводит к росту объема торгов, а размеры ожидаемого роста.

В то время как вероятностные методы тестируют, насколько шансы того, что случится некое событие, меняются в зависимости от причины, мы также можем проверить, как меняется значение переменной относительно изменений в причине. Большинство методов, которые мы рассматривали до сих пор, доступны к использованию как раз подобным образом.

Хотя, строго говоря, традиционно это не считается каузальностью (по мотивам, которые мы вкратце рассмотрим), один из общеприменимых методов причинного осмысления на основе данных временных рядов с непрерывными значениями называется «причинность по Грэнджеру»[261]. Взяв за основу труды Винера (1956), который утверждал, что причины повышают предсказуемость следствий, Грэнджер разработал прикладной метод тестирования каузальности в финансовых динамических рядах, таких как прибыль от ценных бумаг. Идея в следующем: причина предоставляет некую информацию о следствии, которая не содержится в других переменных и позволяет лучше предвидеть значение следствия. И, если мы возьмем всю сумму знаний до определенного момента, вероятность того, что следствие имеет некоторое значение, будет отличаться, если мы удалим причину из этого набора сведений.

На практике мы не располагаем неограниченным набором информации и не можем использовать ее всю, даже если получим благодаря сложным вычислениям.

Не вдаваясь в детали, скажем: существуют две формы причинности по Грэнджеру, каждая из которых приводит к совершенно разным логическим заключениям. Важно понять, что ни та, ни другая по-настоящему не соответствуют причинности. Но, поскольку их часто применяют в поддержку каузальных утверждений, полезно разобраться, на что они способны, а на что нет.

Во-первых, двумерная причинность по Грэнджеру ненамного отличается от корреляции (хотя сама мера несимметрична). Она включает всего две переменные и просто сообщает, может ли одна помочь в прогнозировании другой. Так, если мы измеряем погоду, задержки авиарейсов и продажи кофе в аэропорту, то в состоянии выявить зависимости только между парами, например прогнозируя задержки авиарейсов по погоде. Даже если нет скрытых переменных, такой подход не дает никаких преимуществ для предотвращения искажений. Таким образом, двумерная причинность по Грэнджеру иногда приводит к обнаружению ложных мотивационных взаимосвязей между следствиями с общей причиной. Если плохая погода вызывает задержки отправления и самолетов, и поездов, мы можем некорректно заключить, что отложенные авиарейсы оказываются причиной запаздывания железнодорожного транспорта, и наоборот. В соответствии с этим методом легко сделать вывод, что все до единого более ранние звенья в цепочке причин становятся поводами для более поздних, вместо того чтобы выявить только непосредственные взаимосвязи. То есть если у нас есть последовательность событий, можно решить, что первое есть причина последнего, поскольку мы не принимаем в расчет промежуточные звенья.

Есть множество методов тестирования причинности по Грэнджеру, однако самый простой из них – регрессия. Скажем, требуется выяснить, что было вначале – курица или яйцо. Следуя Турману и Фишеру[262] (1988), возьмем два временных ряда: один будет показывать ежегодное производство яиц, а другой – годовую популяцию кур. В итоге получим два уравнения: одно покажет зависимость значений по курам от предыдущих значений и кур, и яиц, а другое – зависимость яиц от предыдущих значений по курам и яйцам. Количество предыдущих значений (интервалов) – это параметр, который выбирает пользователь.

Здесь возможен тест на зависимость между производством яиц в определенный год и популяцией кур в предыдущий год, два и т. д. Для каждого года производства яиц и популяции кур существует коэффициент, показывающий, насколько значение текущего года зависит от показателя предыдущего. Нулевой коэффициент означает отсутствие зависимости вообще. Итак, если коэффициенты производства яиц в уравнении для яиц отличны от нуля в некоем временном интервале, тогда куры – это грэнджеровская причина яиц (если значение для предыдущего года – два, это значит, что яйца в два раза превышают популяцию кур за предыдущий год).

Чаще всего увеличение интервалов означает повышение сложности, также может устанавливаться практический предел для тестирования, помимо ограничений, связанных с данными, например количество точек данных и детализация измерений.

Вернемся в наш аэропорт. Скажем, при прогнозировании продаж кофе мы возьмем в качестве переменных погоду, задержки вылетов и предыдущие значения продаж кофе. Это будет многомерная причинность по Грэнджеру, когда мы включаем в каждый тест все имеющиеся переменные. Нет возможности принять во внимание все сведения в мире, но нетрудно проверить, будет ли информативна некоторая переменная, если учтены все остальные, оказавшиеся в нашем распоряжении. Скажем, истинная зависимость такова: погода вызывает задержки рейсов, а задержки рейсов вызывают рост продаж кофе, потому что людям приходится ждать в аэропорту. Тогда, после включения в кофейное уравнение задержки, погода не сможет дать никакой новой информации, и ее коэффициент будет стремиться к нулю (а значит, не повлияет на прогнозирование объема продаж кофе). Нельзя утверждать, что наблюдается причинная взаимосвязь, поскольку коэффициенты все же отличны от нуля, однако нетрудно провести тесты и проверить статистическую значимость этого отличия от нуля.

Здесь мы подходим ближе к причинности, но нет гарантии, что наши выводы истинны. Что еще важнее, даже если многомерная форма гораздо сильнее и точнее, она применяется намного реже, поскольку требует слишком интенсивных вычислений[263].

И что теперь

Возможно, вы носите «умные часы», которые месяцами регистрируют данные о вашем сне и физической активности; или у вас есть данные полицейских отчетов по своему району, и вы хотите найти причину преступлений; а возможно, вы прочли, что некто вывел локальные тренды заболеваемости гриппом из постов в соцсетях. Как будете справляться с анализом собственных сведений?

Главное, что следует осознать, – нет какого-то единственного способа решения всех проблем с причинными зависимостями. Ни один из существующих подходов не дает возможности в каждом случае безошибочно определить причины (что оставляет широкий простор действий ученым). Некоторые позволяют сделать более общие выводы, чем другие, но все зависит от допущений, которые в реальности не истинны. Вместо того чтобы досконально освоить один метод и использовать его для решения всех проблем, нужен набор инструментов. Большинство методов можно адаптировать под основную массу ситуаций, но это не будет простейшим или самым эффективным подходом.

С учетом того, что ни один метод не совершенен, возможно, самая важная вещь – осознать пределы каждого. К примеру, если ваши логические выводы базируются на двумерной причинности по Грэнджеру, не забывайте, что вы ищете своего рода направленную корреляцию и учитываете многомерный подход. Байесовская сеть может быть неплохим выбором, когда каузальная структура (связи между переменными) уже известна и вы хотите вывести ее параметры (вероятностные распределения) из некоторых данных. Но, если для решения проблемы важно время, динамические байесовские сети (или методы для нахождения временных паттернов причинных зависимостей на основе данных) могут оказаться более приемлемыми.

Зная, непрерывны ваши данные или дискретны, можно сузить область вариантов, так как многие методы работают либо с одними, либо с другими (но не с обоими видами сразу). Если данные включают большое число переменных или вам не нужна полная структура, методы расчета причинной силы окажутся эффективнее тех, что работают с моделями. При использовании их, однако, нужно учитывать необходимость конструирования взаимодействий между причинами с целью прогнозирования.

Таким образом, цель использования причин так же важна, как и имеющиеся в наличии данные для выбора методов. Наконец, уясните для себя, что любые предпочтения, сделанные в рамках сбора и подготовки данных, влияют на характер логических выводов.

7. Эксперимент. Как найти причины путем вмешательства в действия людей и систем

Многие утверждения относительно здоровья имеют обратимый характер, если выждать достаточное время. Один из самых поразительных сдвигов заметен в понимании связи между гормонозаместительной терапией (ГЗТ) и сердечными приступами: ранние исследования утверждали, что ГЗТ предотвращает их, а позднейшие эксперименты не подтвердили этого вообще или даже отметили увеличение количества приступов.

Первое доказательство преимуществ ГЗТ было предоставлено в рамках исследования здоровья медицинских сестер[264], когда огромная группа зарегистрированных медсестер (почти 122 000) обследовалась каждые два года с начала проекта в 1976 году. Анализ данных в 1997 году показал, что у пациенток в период постменопаузы, получающих ГЗТ, риск летального исхода был на 37 % ниже, и такой результат объяснялся в основном снижением смертности от ишемической болезни сердца.

После этого были изданы справочники, предписывающие применение ГЗТ для снижения риска сердечно-сосудистых заболеваний[265]. Но в работе, опубликованной всего через год после исследования здоровья медицинских сестер, говорилось, что гормонозаместительная терапия не оказывает никакого воздействия на ИБС. В отличие от исследования медсестер, где просто отслеживалось поведение участниц, в изучении влияния эстрогена/прогестерона на сердце[266] пациенткам выборочно давали ГЗТ или плацебо. Таким образом обследовались 2763 женщины в течение четырех лет, но проект вызвал вопросы, поскольку частота сердечных приступов в группе ГЗТ на самом деле возросла в первый год его проведения, а в следующие два года эффект обратился вспять.

В рамках «Инициативы во имя здоровья женщин» было проведено рандомизированное контролируемое исследование большего количества пациенток ради изучения долгосрочных исходов: состояние здоровья участниц отслеживалось 8,5 года. Исследование было прекращено после 5,2 года из-за значительного увеличения случаев рака груди. Самое удивительное, что количество сердечных приступов возросло на 29 % (с 30 до 37 случаев на 10 000 человек в год)[267].

Как же получилось, что ГЗТ для женщин одновременно и снижала, и повышала риск сердечного приступа? Секрет кроется в методах эксперимента. Исследование медсестер занималось специфической группой населения и регулярно фиксировало их результаты, принимаемые медикаменты и другие показатели. В такого рода наблюдательном проекте не может быть известно, что отвечает за итог – конкретный препарат или же некая общая причина, которая определяет и выбор лечения, и лучший исход. Возможно, забота о здоровье привела одновременно и к снижению риска, и к выбору ГЗТ.

Напротив, рандомизированное исследование исключает любой паттерн между характеристиками пациента и методом лечения.

Вмешательства нередко воспринимаются как золотой стандарт причинного осмысления. Если мы можем выборочно распределять людей по группам (это могут быть пациенты, получающие реальное лечение, или трейдеры, применяющие различные торговые стратегии), это устраняет многие искажающие факторы, а стало быть, человек может выбирать вмешательство или стратегию. Реальность, однако, намного сложнее, поскольку такие воздействия не всегда возможны и могут давать побочные эффекты. К примеру, люди, принимающие препараты для снижения холестерина, менее внимательно следят за диетой.

В этой главе мы рассмотрим, каким образом экспериментальные исследования облегчают выяснение причин; почему эксперименты, утверждающие о найденных причинных зависимостях, не всегда удается воспроизвести; и почему порой так трудно повлиять на одну конкретную вещь. Наконец, мы проанализируем ситуации, когда вмешательства на деле дают ложное представление о базовых причинных зависимостях.

Как вывести причины из вмешательств

Скажем, нужно выяснить, какие удобрения обеспечат наилучший рост вашим посадкам. Вы испытываете подкормку А и замечаете, что розы не цветут. Затем пробуете B. Внезапно ваш сад оживает, и вы исполняетесь уверенности, что это все благодаря B – волшебному удобрению.

Итак, в чем же подвох?

Первый момент, который следует отметить: интересующий вас результат – «наилучший» рост растений – субъективен. Возможно, вы хотите поверить, что B работает лучше, потому что оно обошлось вам вдвое дороже, чем А. Или надеетесь, что дешевое удобрение такое же действенное, как и дорогое. В любом случае, эти убеждения придают различную окраску вашим суждениям об эффекте (вспомните предвзятость подтверждения из главы 3).

Теперь, допустим, мы решаем эти вопросы с помощью количественной оценки. Можно подсчитать число цветов больше 2 дюймов в диаметре и записать их высоту. Но та же схема сада будет применяться в обоих случаях, поэтому вполне допустимо, что отсроченное действие А окажется причиной того, что вы наблюдали при использовании B. Именно в этом часто кроется проблема с изысканиями, где тестируются лекарства, диеты и другие вмешательства. В перекрестном исследовании А и B тестируются последовательно на отдельно взятых участниках.

Имеет значение не только порядок, но и остаточные эффекты от А при оценке B. К примеру, диетическая добавка может оставаться в крови некоторое время после ее получения. В подобных случаях нужен интервал между окончанием одного вмешательства и началом другого, чтобы устранить любые остаточные эффекты от первого. Наконец, поскольку удобрения тестировались не одновременно, возможно, что между двумя периодами и другие факторы также изменились. Что, если в течение второго временного сегмента чаще шел дождь или было больше солнечного света и это обеспечило лучшие условия для роста? Получается, любые улучшения могли стать просто следствиями изменений в промежутке между использованием А и B.

Когда мы вмешиваемся для сравнения причин или их выявления, на самом деле хотим узнать, что случится, если все прочее останется без изменений, когда мы добавим или удалим возможную причину.

Связь между причинами и вмешательствами существует на интуитивном уровне, потому что нередко мы воспринимаем причины как стратегии реализации событий и стремимся выявить именно их. Втайне мы надеемся, что манипулирование поводом позволит управлять и следствием. Одна из проблем при использовании данных наблюдения для поиска причин состоит в том, что порой сложно провести различие между структурой с общей причиной для двух следствий и структурой с цепочкой причин.

К примеру, в одном случае речи кандидата от политической партии могут привести одновременно к росту его популярности и пожертвований на проведение кампании, а в другом изменится только популярность, которая затем приведет к увеличению взносов. Имея возможность манипулировать благотворительными дарами и популярностью независимо друг от друга, мы могли бы с легкостью провести различие между двумя возможностями.

В первом примере рост популярности не служит хорошим способом получения пожертвований (они только коррелируют), в то время как в другом – вполне (поскольку оказывается для этого непосредственной причиной).

Исходя из существования подобной связи, некоторые исследователи пытались дать определение причинности в терминах вмешательства. Грубо говоря, идея заключается в том, что правильное изменение причины приводит к перемене следствия[268]. Конечно, «правильное» изменение – это когда мы не вызываем одновременно другие причины или само следствие. Вместо этого хотим быть уверены, что любое воздействие на следствие проходит только через причину и что вмешательство не может обойти причину, оказывая прямое воздействие на другие причины или вызывая их к жизни.

К примеру, мы можем предположить, что отношение между речами, популярностью и пожертвованиями такое, как на рис. 7.1 (a). Чтобы проверить, действительно ли пунктирное ребро отражает реальную причинную зависимость, мы можем вмешаться (повысить популярность) и взглянуть, повлияет ли это на взносы. Но это способно повысить узнаваемость имени, что приведет к росту благотворительности напрямую, а не через популярность. Это изображено на рис. 7.1 (б), где узнаваемость имени – прямая причина пожертвований. Точно так же на рис. 7.1 (в) узнаваемость имени косвенно влияет на рост добровольных взносов, увеличивая количество выступлений (речей). В первом случае вмешательство напрямую вызывает следствие, а во втором активирует другую причину вместо изначальной цели. В обоих случаях проблема в том, что вмешательство ведет к следствию не напрямую через тестируемую причину, а косвенно.

Рис. 7.1. а) пунктиром отмечен объект тестирования; б) и в) сплошные ребра активны, пунктирные неактивны

Выборочный контролируемый эксперимент

Манипулирование единственным объектом таким идеальным путем, как показано выше, затруднительно; выборочные (рандомизированные) контролируемые эксперименты (ВКЭ, РКЭ) лишь частично решают проблему. В подобного рода экспериментах участники выборочно распределяются по двум или более группам, при этом различие в воздействии между этими группами предположительно единственное. Если исходы отличаются, это объясняется воздействием, поскольку распределение всех других свойств одинаково. На самом деле это не идеализированное вмешательство, когда можно напрямую изменить один параметр (к примеру, повысить потребление соли, не меняя объема жидкости). Но такой подход ближе всех к идеальному.

Однако этот жесткий протокол также становится ограничением, когда дело доходит до использования результатов ВКЭ. Здесь оценивается только один фактор, но в реальном мире результаты необязательно используются именно так. К примеру, мы можем решить, что лекарство эффективно и не имеет побочных эффектов в рамках ВКЭ, но в жизни, возможно, его часто принимают со вторым препаратом, и они интенсивно взаимодействуют. Как это случалось много раз, такое взаимовлияние трудно предположить, пока лекарство не выйдет на рынок.

ВКЭ обычно рассматривается в медицинском контексте, но это просто разновидность экспериментальных исследований, которая может применяться во многих других сферах. Как известно, Google использовал данные по кликам, чтобы сделать выбор из 41 оттенка синего для своего логотипа[269], а пользовательские предпочтения можно протестировать, рандомизируя визиты или пользователей по конкретным оттенкам или текущей цветовой гамме и сравнивая количество кликов. В политических кампаниях также применяют выборочные эксперименты, чтобы определить, какое послание обнародовать и каким образом[270]. Вместо того чтобы искать корреляции между поведением избирателей и демографическими данными или разрабатывать теории о способах голосования, политические гуру пользуются обширными списками рассылки электронных писем и детализированными персональными данными, чтобы тестировать эффективность различных вмешательств. К примеру, в рамках кампании можно рандомизировать группу лиц с конкретными характеристиками по различным текстам электронных сообщений или скриптам телефонных звонков с просьбой о благотворительности. Тут есть четкий результат (количество пожертвованных денег), и при достаточно большой выборке можно протестировать множество сообщений для разнообразных групп. Во время кампании Обамы 2012 года было сделано именно это: на небольшой группе сторонников тестировались адресные строки сообщений, предполагаемые суммы пожертвований и даже формат электронных писем[271].

Приобретенные таким образом знания могут изменяться со временем (если сообщение однажды сработало, как будет во второй раз?), но ВКЭ используются во многих сферах помимо медицинской, например в экономике и образовании. Даже если вы никогда не проводили собственный ВКЭ, важно уметь оценивать результаты экспериментов для принятия решений.

Почему рандомизация

В XVIII веке Джеймс Линд задокументировал то, что считается первым в истории контролируемым экспериментом, – выяснил, что цитрусовые быстро излечивают цингу. На судне с экипажем, страдавшим от цинги, он прописал шести парам моряков с аналогичными симптомами шесть различных видов лечения. Помимо тестируемых Линдом средств, в число которых входили уксус, морская вода и, конечно же, лимоны и апельсины, моряки питались одинаково[272]. Линд обнаружил, что те, кто ел цитрусовые, поправлялись очень быстро в сравнении с остальными, что привело его к заключению об эффективности такого лечения.

Но Линд назначил каждой паре только одно из средств, вместо того чтобы задействовать рандомизацию. Действительно, он отмечал, что пациенты, пившие морскую воду, болели сильнее остальных[273]. Известно, что его результаты на самом деле оказались верными, но, если бы лечение выбиралось по степени заболевания, такое смещение могло исказить результаты (например, если пациентам с легкой формой цинги, которые и так чувствовали себя лучше, были бы прописаны цитрусовые) или привести к ситуации наподобие парадокса Симпсона (например, если бы пациенты, получавшие цитрусовые, были неизлечимы). Рандомизация в ВКЭ очень важна, чтобы избежать смещения в назначении воздействия.

Свойственное подобным исследованиям ограничение выбора – когда действовать и действовать ли вообще – может исказить наблюдаемые зависимости. К примеру, трудно проверить, действительно ли любовь к жестоким видеоиграм формирует жестокость в поведении. Поскольку не проводилось выборочного исследования детей по группам определенных видеоигр, даже если тут вообще присутствует корреляция, мы не можем знать, видеоигры формируют склонность к насилию или же склонность к насилию определяет любовь к соответствующим увлечениям, а может, причиной обеих переменных оказывается некий третий фактор.

Точно так же в исследовании здоровья медсестер: то, что женщины выбирали ГЗТ, зависит от их риск-факторов заболеваний сердца и склонности заботиться о своем состоянии. ГЗТ могла вообще никак не влиять на болезни сердца, но женщины, выбравшие этот вид лечения, делали какие-то другие вещи, снижавшие риск, и именно предоставление информации об этом сделало ГЗТ индикатором прогнозирования лучших исходов. Аналогичный пример – «слепое» использование препаратов для лечения пациентов, на которых другие средства не подействовали.

Это делает факт получения больными вмешательства и, следовательно, соответствующего результата зависимым от серьезности заболевания, качества медицинского обслуживания и так далее. Остаточные эффекты многих препаратов, которые принимались ранее, могут усилить искажения наблюдений, затрудняя возможность выяснить, почему лекарство не дало результата.

Основное преимущество рандомизации – придание жесткости ребру между выбором вмешательства и исходом.

Скажем, мы рандомизируем тринадцатилетних учащихся одной школы: одни получили СМС, убеждающие по 30 минут в день заниматься физкультурой, другие – сообщения с прогнозом погоды. Поскольку обе группы контактируют, мы не можем быть уверены, что школьники не поделились содержанием посланий и что те, кто получил текст о пользе спорта, не пригласят друзей присоединиться. Еще один пример «перемешивания» участников – совместный прием лекарств в клинических экспериментах, когда пациенты из команды вмешательства делятся препаратами с контрольной группой[274].

Чтобы предотвратить перемешивание, применяется кластерный метод рандомизации по группам, а не по отдельным лицам. В таком подходе вместо работы с учениками распределение по разным текстам сообщений проводится между школами.

Другой пример – рандомизация медицинской практики или больницы по методике лечения вместо рассмотрения отдельных пациентов. Здесь, чтобы добиться аналогичного уровня надежности результатов, нужны масштабные выборки, потому что отдельные лица в кластере могут коррелировать, а кластеры способны иметь разные размеры. В качестве кластера может выступать семья (которая будет сильно взаимосвязана благодаря генетике и окружающим условиям) или учебное заведение (соотношение может оказаться ниже, но все-таки присутствует из-за общего местонахождения)[275].

* * *

В зависимости от уровня (индивидуального или группового) рандомизация двух одинаковых групп, отличающихся только вмешательством, грешит отсутствием детализации участников (группы не обязательно должны быть идентичны, просто сравнимы).

Давайте решим, кто подходит нам как участник эксперимента.

Скажем, мы тестируем лекарства от изжоги. Можно привлечь людей любого возраста и пола, однако у многих может не быть этого симптома. При условии, что данные для исследования ограничены и время эксперимента также имеет рамки, это неразумная трата ресурсов, и большинство не страдающих изжогой вряд ли захотят участвовать.

Очертим круг участников теми, у кого изжога в анамнезе. Следует ли включать сюда людей, страдающих изжогой из-за еще какого-то состояния, например беременности? Включать лиц любого возраста или исключить детей? Возможно, мы считаем, что физиологические процессы, лежащие в основе заболевания, фундаментально отличаются в каждом возрасте, поэтому решаем включить в наш пул всех, от 21 до 65 лет, с изжогой в истории болезни. Следующая проблема: некоторые, скорее всего, ежедневно принимают лекарства от этой хвори или страдают другими заболеваниями, способными влиять на действие тестируемого препарата. В идеале группа участников должна состоять из тех, кто не принимает никаких средств, потенциально готовых взаимодействовать с испытываемым медикаментом. Тогда мы протестируем препарат на участниках от 21 до 65 лет с изжогой в анамнезе, которые не принимают лекарства от нее ежедневно.

Выборка участников исследования может полностью определить результаты за счет ее смещения – из-за отдельных лиц, которые будут принимать решение о своем участии, или из-за иных факторов, определяющих, получат ли они такую возможность вообще. Как мы видели в главе 3, некоторые смещения могут приводить к поиску доказательств в пользу конкретного вывода или влиять на то, как мы оцениваем собранные аргументы. Методология эксперимента также способна смещать данные в том или ином направлении. К примеру, в политических телефонных опросах звонки только по стационарным аппаратам, исключая мобильную связь, могут исказить демографические данные участников. Так, в 2008 году исследовательский центр Пью обнаружил, что использование только домашних телефонов снизило перевес Обамы над Маккейном в среднем на 2–3 % в нескольких плебисцитах и на 5 % – в финальном, перед выборами[276].

Считается, что рандомизация ограничивает смещение выборки. Но множество выборов, необходимых при подготовке эксперимента, означает, что угроза такого смещения не устранена. Участие в эксперименте добровольное, поэтому характеристики испытуемых могут фундаментально отличаться от остальных. Если исследователь, набирающий состав, знает, к какой группе приписать каждого из них (например, если распределение просто изменяется в рамках команд или есть более сложный порядок, известный исследователю), это также может определять, кто получит возможность участвовать. Такое смещение влияет на способность эксперимента предоставить данные для причинно-следственных выводов (внутренняя валидность), а также на масштабы применимости его результатов в зависимости от репрезентативности выборки (внешняя валидность, которую мы обсудим далее).

Нужно определить, как быть, если отдельные участники не доходят до конца эксперимента. Одни могут сойти с дистанции по своим причинам, а другие, напротив, прекратить участие из-за вмешательства, которое посчитали неприемлемым, например из-за побочных эффектов, перевешивающих любой позитив[277]. Когда понадобится связаться с участниками, чтобы получить сведения об их показателях, кто-то окажется вне досягаемости (напротив его фамилии появляется пометка «утрачен контакт для дальнейшего наблюдения»). К примеру, чтобы оценить состояние пациентов с инсультом через 3 и 6 месяцев после пребывания в больнице, протокол может предусматривать необходимость позвонить им и задать вопросы. Но порой одни не отвечают, другие сменили номер телефона или переехали, и у исследователей нет никакой возможности с ними связаться[278].

Некоторые эксперименты просто игнорируют пациентов, которых проблематично отследить при анализе данных. Это приводит к смещению результатов, которые намеренно не берутся в расчет, поэтому масса «утраченных контактов» может стать «красным флажком» при оценке работы. К примеру, мы тестируем вмешательство в виде физических упражнений в пожилом возрасте. По сравнению с контрольной группой, у которой оно отсутствует, те, кто упражнялся 10 часов в неделю, продемонстрировали пониженное содержание холестерина и прожили на 2 года дольше. Если, однако, 75 % этой выборки по вмешательству выпали из эксперимента из-за травм или усталости, исследователи, вероятнее всего, обнаружат, что те, здоровье которых позволяло тренироваться дольше часа в день, прожили дольше прочих.

То, что некто останется в эксперименте до конца, соблюдая это условие, будет ключевым фактором при оценке приемлемости вмешательства. Таким образом, просто не учитывая лиц с неполными данными, мы можем преувеличить эффективность воздействия и недооценить потенциальные побочные эффекты.

«Ошибка выжившего» – это разновидность смещения выборки, существующая при анализе только тех, кто выжил или остался в эксперименте до определенного момента. Но в более широком смысле это смещение появляется, когда анализируются результаты исключительно группы участников, достигших некоего измеряемого результата. Это могут быть компании, подававшие отчеты о прибылях и убытках не менее двух лет (при этом не учитываются те, кто обанкротился раньше); политики после первого срока в должности (не учитываются те, кто умер, ушел в отставку или был уволен); музыканты, записавшие хит (не учитываются те, кто вообще не добился контракта на запись).

Если наша цель – понять, какое значение имеют регулярные гастроли очень успешных музыкантов, последние как раз и могут стать корректной группой для исследования. С другой стороны, если цель – определить влияние художественного образования на музыкальные достижения, тогда включение в выборку только успешных музыкантов даст искаженный подход.

В ряде ситуаций мы просто не имеем возможности провести рандомизацию людей или ситуаций по этическим соображениям или просто из-за затратности, поэтому нужны иные типы экспериментов.

Исследование здоровья медсестер – пример когортного исследования, где одну группу лиц отслеживают в плановом порядке в течение некоторого времени. Недостатки такого подхода (помимо смещения выборки) следующие: можно собрать одинаковые данные на каждого участника, но отслеживание в течение долгого времени дорого стоит, к тому же может наблюдаться значительное число выбывших. Если интересующие экспериментаторов результаты встречаются редко, понадобится расширенная выборка. При этом нет гарантии, что наблюдение охватит достаточное количество случаев.

Еще один вариант – исследование методом «случай-контроль», которое в целом направлено в прошлое. Берутся две группы, различные по некоторому свойству (например, люди с рыжими волосами и без), и изучается различие между ними (к примеру, генетическая вариация). Но, поскольку модуляции только наблюдаются (без активного вмешательства), нельзя быть уверенным в отсутствии неизмеренных искажений.

Как контролировать

Вехой в истории медицины – и, возможно, первым примером выборочного контролируемого эксперимента – стал 1946 год, когда Брэдфорд Хилл с коллегами из Совета медицинских исследований Великобритании провели сравнительное исследование постельного режима и антибиотика стрептомицина в лечении туберкулеза[279]. Каждый госпиталь, участвующий в исследовании, получил набор пронумерованных и запечатанных конвертов, в которых содержались врачебные предписания (пребывание в постели или стрептомицин). Когда все пациенты, участвующие в исследовании, были подобраны, конверты открывались строго по очереди[280].

Как и в исследовании Линда, ученые не просто смотрели на показатели до и после применения стрептомицина, но сравнивали препарат со стандартом лечения на тот момент, а именно постельным режимом. Это важно, поскольку сравнение состояния пациентов до и после воздействия может выявить улучшения даже при абсолютно неэффективной терапии, если самочувствие просто улучшается со временем или сам факт воздействия стал позитивным.

К примеру, больные, убежденные, что антибиотик поможет им справиться с вирусом гриппа, иногда требуют у врачей прописать лекарство, пока те наконец не сдаются. Если они в результате выздоравливают (как в целом большинство людей), это не имеет отношения к лекарству: просто таково неизбежное течение болезни. Что бы они ни предприняли в определенный момент заболевания – выпили чашку кофе или просидели несколько часов у телевизора, – все дало бы одинаковый эффект.

Еще один резон в пользу контрольной группы таков: в реальности мы не выбираем между новым лечением и его отсутствием вообще, мы хотим знать, какой набор вариантов самый эффективный. Соответствующая контрольная группа определяется как по этическим, так и по техническим соображениям, поскольку нельзя разграничивать действенную терапию и пациента, и важно учитывать роль воздействия на исход.

Иногда можно сравнить воздействие и стандартное лечение, иногда – применить плацебо. Это реально в отсутствие стандартной терапии или вследствие смещения в методике эксперимента. Как бы то ни было, лечение, которое намного хуже общепринятого, все же может оказаться лучше, чем ничего.

Определить соответствующее плацебо – штука непростая, но, по сути, оно сильнее всего напоминает реальное вмешательство, когда не известно ключевое эффективное свойство. В простейшем случае, если лекарство дается в виде таблетки, самое распространенное плацебо – это таблетка-пустышка. В другом случае, если воздействие – это рассылка сообщений на тему заботы о здоровье, в качестве плацебо могут выступать тексты с информацией, не касающейся здоровья. С другой стороны, пустышку для акупунктуры определить гораздо сложнее. В экстремальных экспериментах, объектом которых становится болезнь Паркинсона или другие проблемы со здоровьем, используется симуляция операционного вмешательства, чтобы учесть воздействие хирургии как таковой[281].

Эффект плацебо, когда вмешательство без применения известных активных ингредиентов все же улучшает исход, может дать странные результаты[282] и даже иметь место, когда пациенты знают, что им дают пустышку[283]. Отмечались случаи побочных действий при плацебо[284] и, при сравнении с ним, – различия результатов в зависимости от дозировки (больше таблеток – сильнее проявление) и вида лекарства[285].

Еще один ключевой показатель исследования со стрептомицином: эксперимент был слепой, и ни пациенты, ни те, кто оценивал их состояние, не знали, кто какое лечение получает[286]. Это важный шаг по предотвращению предвзятости, поскольку больные, ожидающие, что препарат принесет им пользу, могут по-разному сообщать врачу о симптомах, да и те могут предвзято судить о состоянии пациента, если будут знать о его терапии.

В исследовании, тестирующем виды борьбы с разными типами склероза, также оценивалось значение слепого эксперимента: одних и тех же пациентов проверяли неврологи, проводившие слепое лечение, и те, кто знал, кто в какой группе находится. Через два года регулярных наблюдений «слепые» неврологи обнаружили, что ни одно из применяемых ими воздействий не оказало эффекта[287]. А оценки «неслепых» докторов в одной из групп выявили улучшение. Причина в том, что оценка пациентов носила качественный характер, и неврологи, знающие, к какой группе принадлежит тот или иной пациент, могли находиться под влиянием этого знания, расставляя рейтинги. Если выявление результатов эксперимента основано на подобном знании (и не важно, анализируется состояние пациентов при клинических испытаниях или рост цветов в вашем саду), то информация о распределении по группам может изменить интерпретацию имеющихся доказательств.

В целом одностороннее слепое исследование – это эксперимент, в рамках которого пациентам неизвестна группа их принадлежности, а ученым – известна. При двустороннем слепом исследовании ни больные, ни врачи не знают, кто в какой группе. Однако даже после того, как все данные собраны, их нельзя просто засунуть в «черный ящик» и получить на выходе однозначный результат. Для анализа требуется принять множество решений (например, какие статистические эксперименты проводить), и здесь также может влиять смещение. Альтернативой будет тройной слепой метод – как правило, это двустороннее слепое исследование, когда те, кто анализирует данные, не знают о распределении по группам[288].

Это не всегда практично, однако возможно заранее определить все этапы анализа данных до их сбора и зафиксировать ради доказательства, что программа строилась независимо от результатов[289].

Протоколы экспериментов и испытания лекарственных препаратов применяют именно этот принцип, когда аналитики должны подготовить программу до сбора любых данных[290]. Такой подход не свободен от некоторых прикладных проблем, поскольку часто возникают неожиданные сценарии (хотя при этом выявляется смещение в сторону положительных результатов[291]). В нашем гипотетическом эксперименте с изжогой можно было заранее определить, какие первичные сведения подлежат измерению (например, частота приступов), какие вторичные (например, сила приступа), какой из слепых методов будет применяться и какова приблизительная численность участников. Однако можно не суметь обеспечить целевую выборку или не предвидеть, что придется остановить эксперимент на ранней стадии из-за недостатка финансирования. В связи с этим придерживаться подготовленного плана не всегда получается.

Применимость результатов

Скажем, мы проводим эксперимент с изжогой, и, кажется, он будет удачным. Прием лекарства заметно снижает тяжесть заболевания и частоту приступов по сравнению с другим лечением, а сам препарат в итоге одобрен и выведен на рынок. У доктора, знакомого с результатами исследования, есть новый пациент 80 лет, который принимал 10 разных лекарств[292] и имеет в анамнезе диабет и застойную сердечную недостаточность. Следует ли прописывать ему новый медикамент?

Контролируемый эксперимент, пытающийся обеспечить внутреннюю валидность (то есть возможность ответить на изначально поставленный вопрос), нередко выполняется ценой внешней валидности (то есть повышенной обобщаемости результатов). Изучение однородной группы населения может привести к изолированию возможной причины, но это ограничит полезность результатов для принятия решений по остальному населению. С другой стороны, высокая вариативность ведет к искажениям и невозможности выявить истинное следствие, если оно есть только в определенных подгруппах. Важно, что на каждом отдельном этапе выборочного эксперимента присутствует отбор.

Типовые клинические испытания начинаются с пула потенциальных пациентов. Они выбираются из числа тех, кто проходит лечение в рамках системы, проводящей исследование, или тех, к кому эта система имеет доступ. Но с самого начала не берутся в расчет те, кто не может или не хочет обращаться за медицинской помощью. Еще есть лечившиеся в отделении, где проводится эксперимент, и у врача, участвующего в нем. Здоровье этих пациентов может быть хуже, чем у населения в целом, или, напротив, эксперимент может исключать самых тяжелых больных, которые лечатся где-то еще. Существуют критерии отбора в рамках самого исследования, когда исключаются пациенты со множественными хроническими заболеваниями (как в нашем гипотетическом опыте с изжогой). К тому моменту, когда пациент соглашается участвовать, выборка весьма значительно сужается. Суть не в том, чтобы непременно охватить экспериментом всех и вся, однако немало практических факторов влияют на отбор участников. Это следует принимать во внимание, переходя от оценки валидности эксперимента к попытке применить его результаты.

О том, как определить применимость результатов некоего исследования к конкретному пациенту или группе населения, написано немало[293]. Как правило, нам не приходится принимать решения в идеальном мире выборочного эксперимента, где пациенты страдают только одним заболеванием, и в большинстве случаев нет возможности ждать, пока кто-то проведет исследование, соответствующее нужному сценарию. Это справедливо и для врачей, определяющих программу лечения пациентов и пытающихся понять, в какой степени отчеты об испытаниях применимы к конкретному случаю. Проблема с ВКЭ состоит в том, что он подтверждает: лечение может вызвать определенное следствие только у отдельной группы населения. Другая же группа может не обладать свойствами, обеспечивающими эффективность воздействия.

Например, если, согласно ВКЭ, лекарство А лучше лекарства B, а другое исследование утверждает, что B лучше C, мы, вероятно, сделаем допущение, что А также лучше С. В одном обзоре нейролептических препаратов описаны как раз подобные случаи, но при этом выборочные эксперименты подтвердили, что C лучше А[294].

Откуда появляются такие аномальные заключения?

Многие испытания спонсируются производителями тестируемых медикаментов, однако противоречивые результаты возникают вне зависимости от того, кто оплачивает эксперимент. Даже если отчетные данные абсолютно правдивы и никто ничего не подтасовывает, с учетом огромного множества решений, которые необходимо принимать при проведении испытаний, возможность смещения результатов в пользу какого-либо исхода по-прежнему остается. Выбирая конкретную дозировку, критерии отбора, меры результатов и виды статистических тестов, можно смещать выводы в пользу определенного лекарства, когда оно очевидным образом будет смотреться лучше остальных.

Как мы увидим в главе 9, чтобы действительно знать, что полученный вывод можно применить к другой выборке, нужно быть уверенными, что свойства, определяющие эффективность причины, присутствуют в обеих выборках и что вторая не обладает характеристиками, отрицательно влияющими на причину. Но это достаточно обременительно, поскольку мы часто не знаем, что в точности необходимо для эффективного действия причины.

К примеру, мы проводим рандомизацию людей по различным видам офисных кресел, чтобы выяснить, действительно ли сидение на физиомячах[295] помогает сбросить вес по сравнению с обычными креслами. В этом эксперименте физиомячи приводят к статистически значимой потере веса за шесть месяцев; но, если испробовать их на другой группе людей, эффект окажется нулевым. Такое может случиться, если люди из первой выборки решат, что сидеть на мячах неудобно, или будут с них постоянно падать, поэтому им придется либо стоять, либо прохаживаться в течение дня гораздо чаще. А люди из второй выборки будут использовать мячи как кресла, то есть сидеть на месте. Реальное вмешательство – это нечто (а не мяч), побуждающее людей чаще вставать, хотя в рамках эксперимента его выявить нельзя.

Точно так же метод реализации вмешательства в контролируемых условиях может не отражать реальности. Некоторые лекарства необходимо принимать каждый день в одно и то же время, и в реальных условиях их эффективность может оказаться ниже, чем в условиях эксперимента, если пациенты – участники исследования с большей вероятностью склонны следовать инструкциям.

На способ использования результатов исследования влияет множество других факторов, к примеру длительность периода отслеживания. Если в выборочном эксперименте по тестированию нового метода лечения пациенты наблюдаются непродолжительное время, стоит задуматься, будет ли терапия такой же эффективной в долгосрочном масштабе и не вызовет ли побочных действий, которые проявятся через несколько лет. Период исследования также влияет на внутреннюю валидность. Если в рамках тестирования влияния сообщений, напоминающих о необходимости принять препарат, на повышение приверженности к лечению пациенты отслеживаются только три дня, это не будет убедительным доказательством того, что СМС в целом повышают дисциплину заболевших на долгое время, поскольку энтузиазм в отношении новых вмешательств со временем сходит на нет. Но из-за затратности часто возникает компромисс между продолжительностью отслеживания и размерами выборки.

Были разработаны чек-листы и инструкции для оценки результатов и определения данных, которые необходимо включить в материалы исследования[296]. Но главное, что необходимо оценивать и внутреннюю, и внешнюю валидность эксперимента. Важность каждого из этих факторов зависит от наших целей. Некоторые исследования с низкой внутренней валидностью можно усилить за счет высокой внешней валидности (что лучше соответствует конкретной выборке участников)[297]. Необходимо дать ответы на следующие ключевые вопросы: «Кто стал объектом изучения? Как проводился отбор? Где выполнялось исследование? Какова длительность отслеживания результатов? Кто входил в контрольную группу? Какой слепой метод использовался?»

Когда n = вы

Часто нам нужно не определить лучшее лекарство или диетические рекомендации для определенной группы населения, а принять определенное решение для самих себя.

Какой препарат лучше снимет мою головную боль? Что поможет мне быстрее прийти в себя после долгой пробежки, ледяная ванна или горячий душ? Сколько мне нужно выпить кофе утром?

Но даже к этим вопросам мы, как правило, не подходим систематически. Наш процесс решения, скажем, относительно выбора лекарства от аллергии больше напоминает метод проб и ошибок.

Сначала вы, возможно, идете к врачу, который прописывает некое лекарство. Попринимав его некоторое время, вы замечаете, что оно вызывает дискомфорт в желудке, поэтому снова идете к врачу. Возможно, он изменяет дозировку, но возвращаются аллергические симптомы, и вы идете в больницу еще раз и спрашиваете, нет ли другого средства. Принимаете следующий препарат в течение предписанного срока или прекращаете прием раньше, потому что почувствовали себя лучше. Когда вы приходите ко врачу в очередной раз, он спрашивает, как подействовало лекарство; жалоб у вас нет, и вы отвечаете, что оно подействовало хорошо.

Значит ли это, что следовало с самого начала принимать второй препарат?

По сути, именно с подобной проблемой мы столкнулись в примере с удобрениями в начале этой главы. Такого рода несистематическое последовательное испытание двух лекарств не только не дает знания о том, какое из них лучше, но даже не сообщает, какое эффективнее конкретно для вас. Имея дело только с одним человеком, мы не способны провести рандомизацию между теми, кто получает экспериментальное или контрольное лечение.

Вместо рандомизации пациентов эксперимент с одним участником (который так и называется – исследование с участием одного пациента) рандомизирует последовательность воздействий[298]. Тест с удобрениями оказался особенно слабым, поскольку мы изучали только одну последовательность (А-B), не зная, действовало ли А, когда мы рассматривали действие B, или же тест B проходил в более благоприятных условиях.

Единичная проверка каждого воздействия не обеспечивает строгих результатов, поэтому в целом необходимо несколько итераций. Правда, определить порядок вмешательств довольно сложно. Может показаться, что стоит просто повторить последовательность А-B и получить больше данных, например А-B-А-B. Хотя теперь у нас удвоенные сведения по каждому вмешательству, B всегда следует после А. Если показатель результата со временем медленно улучшается, то, даже если воздействия эквивалентны, B всегда будет в выигрыше, поскольку оценивается позже А. При слепом эксперименте это простое чередование может привести к тому, что человек просто угадает, какое воздействие применялось.

Теоретически возможно выбирать наугад между двумя воздействиями для каждого временного интервала, но эта стратегия не без недостатков. Нельзя гарантировать, что каждое воздействие будет применяться одинаковое количество раз или что они равномерно распределятся, так что может образоваться последовательность, когда за всеми А будут следовать все B. Помимо смещения результатов, эксперимент окажется уязвим, если его остановить преждевременно, до того как будет реализована последовательность B. Вместо этого можно рандомизировать каждую пару, тогда выбор первого вмешательства будет означать, что B будет следующим. Это по-прежнему может сгенерировать знакопеременную последовательность, когда любая опция будет заключаться в том, чтобы сбалансировать каждую пару А-B последующей B-А. В итоге для первой пары выбирается А-B или B-А, а пара, которую не выбрали, будет следующей. Итак, одна возможная последовательность – это B-A-A-B-A-B-B-A. Возвращаясь к разговору о нестационарности (глава 4), скажем: идея в том, чтобы попытаться снизить воздействие временных трендов, а также результатов последовательности вмешательств.

Скажем, мы принимаем решение о последовательности тестирования двух видов лечения, при этом эффект первого со временем нарастает. Тогда, по сути, B может получить преимущество из-за эффектов А. В стандартном ВКЭ каждый участник получает только одно лечение, поэтому не надо беспокоиться о кумулятивных эффектах множественных влияний или о взаимодействии лекарств. В последовательном эксперименте, однако, не только имеет значение порядок (например, при тестировании двух интерфейсов предпочтение всегда получит второй), но могут иметь место длительные следствия каждого из вмешательств (например, больший опыт работы с системой улучшит показатели). В примере с садом, если воздействие удобрения А происходит медленно, но, начавшись, приобретает устойчивый характер, может быть перекрытие между интервалом активности А и временем применения и измерения B.

Одно из возможных решений – добавить «отмывочный период»[299] между окончанием А и началом B. Его цель – чтобы ко времени начала второго лечения все эффекты первого исчезли. Однако положительные следствия приема лекарства могут быстро спадать, в то время как побочные результаты будут иметь более длительный характер.

Есть еще ограничение: отмывочный период предполагает некоторый промежуток без всякого вмешательства, а отсутствие лечения даже короткое время может оказаться нежелательным (к примеру, если мы тестируем средства от боли). К тому же определение длительности отмывки требует базовых знаний о характере действия вмешательства.

Другой подход – применять терапию непрерывно, но не принимать в расчет некоторую часть данных в начале каждого вмешательства.

Эксперимент такого типа неприменим во многих ситуациях, поскольку целевой объект не должен быстро изменяться. Исследования одного пациента не имеют смысла при острых состояниях, например при гриппе, но успешно проводятся при хронических, таких как артрит[300]. Аналогично последовательный эксперимент с одноразовыми событиями (например, с выборами), когда многие вещи постоянно изменяются за недели до таких событий, также не будет иметь смысла. Хороший выбор – это ситуации более-менее стационарные.

Воспроизводимость

Мы рассматривали массив электронных медицинских записей, чтобы выявить факторы риска застойной сердечной недостаточности, и поняли, что главным можно назвать диабет. Но, когда мы повторили эксперимент, взяв данные по второй выборке, не нашли никакой связи с диабетом, обнаружив вместо этого фактором риска назначение инсулина[301]. Как интерпретировать такое расхождение?

Попытки репликации эксперимента с использованием аналогичной технологии в точно таких же условиях очень важны, чтобы методика была хорошо задокументирована, а сделанные на ее основе выводы стабильны. Отметим: это не воспроизведение вариации исследования, чтобы обобщить тест. Один из примеров репликации – совместный доступ к компьютерным кодам, необработанным данным и этапам выполнения операций. Если кто-то еще сможет воспроизвести на этой основе аналогичные результаты, анализ можно считать реплицируемым. Идеальное повторение довольно сложно выполнить, поскольку любые малые изменения легко вызывают весомые различия в ряде экспериментов. Даже если речь идет о компьютерной программе, которая, кажется, должна вести себя одинаково при каждом запуске, невыявленный баг может стать причиной ее непредсказуемого поведения.

Однако, говоря о репликации в научной сфере, мы часто имеем в виду именно воспроизводимость. То есть хотим знать, получат ли другие экспериментаторы результаты некоего исследования с иными вводными, если обстоятельства будут несколько отличаться[302]. Это даст более строгие доказательства того, что заявленные результаты не были случайностью.

К примеру, в ходе изучения было обнаружено, что настроение детей улучшалось сильнее, если они получали 50 граммов шоколада, чем после угощения морковью. Главный вывод – шоколад делает детей счастливее, чем овощи; поэтому в другом эксперименте этот результат может быть получен на примере конфет M&M’s и брокколи, а в третьем это будут Hershey’s Kisses и сладкий картофель. Ни один из них не будет репликацией первого исследования, но все воспроизводят главный вывод (шоколад приносит больше удовольствия, чем овощи).

Воспроизведение результатов особенно важно при исследованиях методом наблюдений (где невозможность сделать это может говорить о наличии неизмеренных общих причин), но репродукция выводов экспериментальных изысканий также может стать способом получения обобщаемого знания. С учетом множества решений, принимаемых в рамках изучения, неудачные попытки воспроизвести результаты могут стать признаком потенциальных источников смещений или даже нарушения условий эксперимента.

В последних работах проскальзывает беспокойство из-за неудачных репродукций ключевых выводов. Фармацевтические компании утверждают, что удалось воспроизвести всего 20–25 % мишень-ориентированных препаратов, упомянутых в научных материалах[303]. В другом исследовании выяснили, что только 11 % выводов из 53 ключевых экспериментов в области рака обладали воспроизводимостью[304], а статистика по нескольким примерам из области наблюдательных исследований еще хуже[305]. Пытались в психологии репродуцировать выводы высокопрофильных исследований (часто формирующие базу для изысканий) – аналогичный эффект[306].

Но отчего истинная причинная зависимость, выявленная в одном эксперименте, не обнаруживается в другом?

Помимо проблем с подтасовкой и ненамеренными ошибками (к примеру, опечатка в электронной таблице[307] или загрязнение лабораторных образцов), воспроизведение истинного взаимоотношения не так однозначно, как кажется. В случае с исследованием сердечной недостаточности условия репродукции результатов были соблюдены, однако потребовалась масса базовых знаний по значению переменной. Когда диагнозы диабета соединили в единый структурированный формат с временем их постановки, обнаружилась связь с болезнью сердца. Во второй выборке причиной оказался препарат инсулина. Дело в том, что лекарства были одним из нескольких сохраненных атрибутов, поэтому как их временной паттерн, так и факт присутствия/отсутствия оказались более определенными параметрами. В медицинских исследованиях с использованием больничных карт проблематично было даже выяснить достаточно определенно, кто и в каком состоянии находился.

Но в разных местах не всегда можно собрать одинаковые данные.

Скажем, воспроизведение не удалось. Значит ли это, что первый вывод оказался ложноположительным или просто он менее генерализован, чем ожидалось? Может, вывод не должен репродуцироваться на базе конкретной выборки. Например, в силу того, что исследования выявили культурные различия в причинном осмыслении, некий фактор может реально влиять на него в одном месте, но аналогичный результат нельзя воспроизвести в другом. Это не означает, что какой-то из экспериментов неверен; скорее конкретный вывод может быть специфически привязан к первичной выборке участников или некоему ее атрибуту, который не всегда известен. В этом случае ценной будет сама попытка репликации: она покажет, когда вывод применим, а когда нет.

Может также оказаться, что отношение было истинным на момент его обнаружения, но ко времени позднейших тестов система изменилась, так как стала известна каузальная зависимость. В финансовой сфере, например, подобная взаимосвязь влияет на поведение во время торгов[308].

Итак, взаимосвязь может быть истинной на момент исследования, но не реплицироваться, потому что теряет истинность с течением времени или из-за того, что используется для изменения поведения (подробнее об этом в главе 9). Действие телерекламы за или против политического кандидата также может ослабевать, потому что люди теряют восприимчивость к сообщению, а оппоненты начинают ответную кампанию. И все-таки если эксперимент выходит за рамки специфической выборки и определенного временного периода, стараясь обобщить поведение, то неудача воспроизведения результатов опровергает его выводы.

Конечно, часто неудача с репродукцией результатов может означать, что выявленные взаимосвязи оказались ложными. Возможно, дело в искажениях применяемой методики из-за ошибок в анализе, или исследование проводилось предвзято. Многие факторы, воздействующие на внешнюю валидность, влияют и на воспроизводимость. Вспомним эксперимент с дохлым лососем из главы 3, когда ложное заключение стало следствием большого числа тестов. Проблема была решена скорректированным количеством сравнений. Но, если полученные результаты не более чем помехи, попытки валидации с новым лососем (или двумя) должны выявить разные активные области.

Механизмы действия

Если я скажу, что пираты стали причиной глобального похолодания, вы, конечно же, сочтете это неправдоподобным. Но скептицизм не обоснован: вы же не вмешивались в поведение пиратов и не наблюдали за возможными температурными изменениями на планете, равно как и не выявляли корреляций между разными переменными. Нет, вы исходили из общего знания о том, как действуют мировые законы, потому что не можете представить себе способа, с помощью которого несколько пиратов могут менять климат. Точно так же некоторые причинные взаимоотношения объявляются достоверными именно в силу нашего механистического знания. Даже не имея данных наблюдения, можно предсказать возможную связь между посещениями солярия и раком кожи – при условии, что нам известно о зависимости между ультрафиолетовым облучением и онкологическими проблемами.

Такой тип знания относится к механизмам действия, или к пониманию схемы «причина-следствие». Мы можем обнаружить причины и, не зная, как именно они работают, увидеть механизмы действия – это еще одно доказательство в поддержку каузальности, которое способствует эффективному вмешательству. Причины объясняют, почему происходят те или иные вещи, а механизмы – как они происходят (сравним два утверждения: «курение – причина пожелтения пальцев» и «смолы сигаретного дыма вызывают пятна на коже»). Предпринималось несколько попыток определения каузальности в терминах механизма действия, где под механизмом понимается система взаимодействия частей, регулярно выполняющих некоторые изменения[309]. Для наших целей, однако, механизмы действия более интересны как способы предоставления доказательств причинности.

Страницы: «« 12345678 »»

Читать бесплатно другие книги:

Социальный аскетизм – модное течение, которое набирает обороты в США и Западной Европе, однако на те...
Как добиться от людей того, что вам нужно, – изящно и незаметно? Какие фразы и слова убеждают, напра...
Что знают о людях дожди? Как спасти маленького раненого дракончика? Что такое ветряки? За что мамы л...
Дорогой читатель!Ты держишь в руках книгу, которую вправе даже не открывать. Пройдя мимо, ты никогда...
Эта книга принадлежит перу одного из самых успешных финансовых менеджеров в мире. Питер Линч не пред...
Чтобы спасти любимого от смерти, я вынуждена отправиться за помощью к самому опасному человеку город...