Почему. Руководство по поиску причин и принятию решений Клейнберг Саманта

Если воздействие на человека меняется (он прекращает принимать лекарство, бросает курить, кладет в пищу меньше соли), это также должно изменять побочные эффекты, риск рака и гипертензии, если их причиной служит воздействие фактора риска. Но тогда необходимо допустить, что следствие не носит постоянного характера.

И все же здесь также применимы те же оговорки, что и в методе Милля. В случае с алкоголем и заболеванием сердца риск становится выше как при низком, так и при высоком уровне потребления, а снижается где-то посередине, и многие биологические зависимости характеризуются J-образной кривой подобного типа (как показано на рис. 5.1), когда риск выше при низкой дозировке, снижается к середине, а потом быстро растет по мере роста кривой.

Ключевые вопросы таковы.

• Как количество (или вероятность) следствия изменяется при различных значениях причины?

• Если мы можем контролировать воздействие на человека, изменит ли это для него риск или исход?

• Насколько точно измерена доза?

Правдоподобность и логическая связность

Если исходить из того, что нам известно на сегодня: существует ли потенциальный механизм, способный связать причину и следствие?[381]

Если мы предположим, что избыточное потребление кофе приводит к преждевременной смерти, в это поверить было бы гораздо легче, имей мы понятие о том, как это может быть, которое вписывалось бы в рамки наших текущих знаний в области биологии. К примеру, если избыток кофеина вызывает у людей нервозность и снижает понимание текущей задачи, они, видимо, будут чаще попадать в аварии. С другой стороны, если мы решим, что в тот момент, когда президент появляется на публике в одежде теплых оттенков, рынок идет вверх, а холодные тона пригибают цены вниз, разрыв между нашими знаниями о рыночных механизмах и этим допущением будет слишком велик.

Согласно Хиллу, правдоподобность не абсолютно необходимый фактор – главным образом потому, что наши знания могут оказаться ошибочными и мы, возможно, просто не понимаем, как работает новая причина.

Однако важность наличия гипотетического механизма, посредством которого причина могла бы произвести свое следствие, подчеркивали и другие ученые[382]. В конце концов, мы и не можем требовать подобного доказательства, однако оно повысит доверие к нашим выводам. Чем необычнее взаимосвязь, тем больше требуется информации в ее поддержку.

И аналогично: считается ли потенциальная зависимость логически связной, если исходить из имеющегося знания? Не противоречит ли она общепринятым фактам, совместима ли с нашим знанием?

Это, конечно, не крайний аргумент, так как наше знание может быть неверным. Если, однако, возможная причинная зависимость идет вразрез со всем, что нам известно из области физики, включая закон притяжения, тогда следует проявить достаточный скептицизм[383].

Стоит, однако, иметь в виду разницу между логической связностью и правдоподобностью. Правдоподобность означает: мы можем осознать, что взаимосвязь сработает, исходя из того, что нам известно. Что касается логической связности: мы можем не иметь представления о том, как причина производит следствие, однако связь между ними не противоречит нашим знаниям. Когда Сноу впервые обнаружил связь между зараженными водяными колонками и холерой, идея, что в грязной воде содержатся крошечные бактерии, шла вразрез с преобладающей точкой зрения, будто болезнь вызывается зараженным воздухом.

Итак, наша идея о том, что – логически связное, а что – возможное, со временем трансформируется, потому что меняются и наши знания.

Оценивая правдоподобность и логическую связность корреляции, мы должны также оценить то, что, по нашему мнению, знаем. И если новая взаимосвязь этому противоречит, в какой степени мы уверены в том, что наши знания (по нашему мнению) верны?

Эксперимент

Если мы вмешиваемся, чтобы включить в цепочку событий причину или повысить ее воздействие, наступит ли следствие?

Основное отличие между этим вопросом и другими в том, что здесь требуется активно манипулировать чем-то, в то время как иные соображения могут быть основаны на чистом наблюдении. Эксперименты, однако, не обязаны представлять собой выборочные контролируемые тесты на людях. В некоторых случаях это невыполнимо, или же понадобится слишком много времени, чтобы сделать вывод; поэтому результаты получают посредством изучения инвитро[384] или на животных. К примеру, не было экспериментов, где бы людей заставляли курить, но исследования, доказавшие, что табачная смола, нанесенная на уши животных, провоцировала рак этой части тела, предоставили убедительные доказательства возможной канцерогенности компонента в составе сигарет. Экспериментирование дает возможность усилить связь между тем, что вызывает вмешательство, и тем, что из него следует. Таким образом, если существует общий мотив как фиктивной причины, так и следствия, манипулирование фиктивной причиной не окажет никакого воздействия.

Мы обсуждали в главе 7, что, скорее всего, не сумеем увидеть истинную каузальную взаимосвязь исходя из эксперимента (например, если размер выборки слишком мал) или обнаружим мнимую корреляцию (как в неслепых выборочных экспериментах). Что касается исследований на животных, даже если результаты окажутся положительными, придется тщательно проанализировать имеющиеся доказательства в пользу того, что причина здесь работает так же, как и в изученных системах, и у людей. К примеру, методы лечения сепсиса, которые должны были работать, если исходить из тестов на мышах, оказались безуспешными для людей. В результате возник вопрос, а действительно ли мыши – хороший аналог для изучения человеческих воспалительных заболеваний[385].

Если эксперимент не предусматривает участия людей или проводится инвитро, важно определить репрезентативность модели с точки зрения механизма действия причины на людей.

Аналогия

Наконец, если известна сходная причинная взаимосвязь, стандарты доказательств могут быть понижены, так как когда-то уже было показано, что эта причина способна произвести предполагаемое следствие.

Скажем, мы узнали, что указание содержания калорий в ресторанной еде ведет к снижению жирности заказываемых блюд. Тогда мы скорее поверим, что информация об этом способна менять поведение, так как нам уже известно о подобном влиянии. В других примерах вирус стал считаться более правдоподобной причиной различных видов рака после получения данных о том, что папилломавирус человека вызывает определенные виды рака шейки матки.

Эта аналогия позволяет также использовать результаты экспериментов над животными, чтобы лучше понимать людей или соотносить системы различных масштабов.

Мы должны оценить, насколько близко соответствие экспериментальных установок и интересующей нас системы. Точно так же необходимо проверить, какими доказательствами мы обладаем, применяя к одному сценарию то, что стало известно на основании другого.

* * *

Не забывая о том, что нет никакого чек-листа причинности и набора критериев, которые должны или удовлетворяются в любых случаях, скажем, что эти свойства увязывают вероятностные, механические, интервенционные и экспериментальные методы в единую группу объектов, которые необходимо учитывать. Кроме того, в каждом случае следует учитывать качество информации.

Выборочные эксперименты могут проводиться с нарушениями, выявленные связи – проистекать из смещения выборки, а животные модели – не подходить для конкретного заболевания. Стандарты доказательств также зависят от того, какой именно аргумент используется в поддержку некоего утверждения, а также от потенциальных рисков и затратности итоговых действий. Философы разработали теории аргументов, чтобы описать, каким должно быть доказательство научной гипотезы. Правда, все эти теории в целом очень отличаются от того, как на самом деле ученые рассматривают и используют факты, и часто игнорируют роль контекста, в котором используется конкретное доказательство[386].

К примеру, стандарты аргументов будут выше в судебном разбирательстве по делу об убийстве, чем при попытке узнать, кто из детей разбил вазу, так как последствия ошибки в первом случае намного тяжелее, чем во втором. Малоубедительное утверждение, что ежедневная плитка шоколада улучшает настроение, может оказаться достаточным для человека, который хочет продолжать есть шоколад, но неубедительным, чтобы разработать программу питания, цель которой – заставить всех каждый день есть шоколад.

От причин – к политическим программам

«Уменьшить объем бутылок с газированными напитками. Размещать информацию о калорийности в ресторанных сетях. Запретить трансжиры. Снизить содержание соли в ресторанных блюдах».

Это лишь несколько программных позиций, которые рассматривала или ввела в действие мэрия Нью-Йорка, чтобы улучшить здоровье жителей.

Если известно, что существует причинно-следственная связь между сахаром, высококалорийной пищей, трансжирами, солью и различными состояниями здоровья, улучшить которое – наша цель, можно ли знать заранее, какие действия городских властей окажутся успешными? Чтобы в этом разобраться, нужно понимать, каким будет следствие конкретного вмешательства и как сделать выбор между потенциальными воздействиями. Результатом, однако, необязательно будет конкретное следствие, которое мы хотим получить. Из одной причины может проистекать множество вещей, и, что досаднее всего, сам акт воздействия способен нарушить причинные взаимосвязи между объектами. Мы можем обнаружить, что лекарство, снижающее уровень холестерина в одних условиях, окажется совершенно бесполезным в других. Просто люди перестают следить за диетой, решив, что препарат в любом случае снизит холестерин. Или, например, оценки стандартизированных тестов изначально связаны с профессионализмом учителя. Но эта корреляция может ослабнуть, если оценки будут использоваться для аттестации учителей, которые в результате начнут ориентироваться в первую очередь на подготовку учеников к прохождению тестов[387].

Несмотря на это, мы хотим, чтобы решения основывались на доказательствах, а не байках и чтобы эти аргументации базировались на причинных зависимостях, а не корреляциях.

В пользу такого тезиса говорят научно-доказательная медицина, образование, проектирование и множество других направлений, основанных на доказательном подходе. Аргументации использовались в этих областях и ранее, просто сторонники подобных подходов предпринимают попытки формализовать понятие «надежного доказательства». Вместо того чтобы определить, говорят ли некие факты в поддержку конкретной гипотезы, они стараются провести различие между сильным и слабым аргументом и способствуют использованию наилучших. Результатом часто становится иерархия доказательств, где ВКЭ (или, точнее, систематический анализ различных ВКЭ) занимает безусловное место на вершине пирамиды[388].

И все же такие иерархии необязательно указывают, какая информация необходима для наших целей и как ее применять. В то время как идеально осуществленный выборочный эксперимент теоретически может дать лучшие из возможных доказательств, в реальности нельзя сравнить идеальное изучение с исследованием посредством наблюдения. Можно получить противоречивые результаты на основе необъективного исследования с малой выборкой участников и крупного, хорошо спланированного наблюдательного эксперимента или же иметь в распоряжении только неэкспериментальные аргументы.

Так как на практике приходится исходить из информации подобного рода, чрезвычайно важно знать, как использовать ее наилучшим образом, и мы изучим, что нужно иметь в виду при реализации политики на практике и как обобщать результаты.

Когда я говорю «политика» или «вмешательство», это может быть запрет городских властей на курение в общественных местах ради охраны здоровья, изменение государством учетной ставки в целях стимулирования экономики или просто ваше решение не пить кофе после четырех часов вечера, чтобы избавиться от бессонницы. Во всех этих случаях ради конкретной цели совершается изменение. Иногда нашим доказательством может быть реализация политики в каком-то месте (скажем, размещение в кафе и ресторанах Нью-Йорка информации о калорийности), и мы хотим использовать этот аргумент, чтобы достичь аналогичной цели где-то еще.

* * *

Многие города, например Нью-Йорк, Лондон и Париж, реализуют общественные программы проката велосипедов, когда его можно взять в одном месте и оставить там, куда направляешься. Цель этих программ – сократить количество поездок на личном автотранспорте и улучшить здоровье населения за счет физической активности[389]. Достижение этой цели зависит от следующих допущений: 1) езда на велосипеде – эффективная форма физических упражнений; 2) результатом программы станет развитие велосипедного спорта (а не просто то, что люди пересядут с собственных велосипедов на прокатные). Но как узнать, разумны ли такие допущения и что случится, если мы попытаемся внедрить подобную программу в другом городе?

Модели, с которыми мы знакомились в главе 6, можно использовать для прогнозирования последствий вмешательств. При этом, однако, приходится допускать, что используемая модель полная и корректная, а то, что мы узнали из эксперимента или пилотного исследования, можно транслировать на реальный мир. В таких моделях вмешательство было точным инструментом, который устанавливал значение переменной как истинное или ложное, более ничего не изменяя. Модели, как правило, способны лишь сказать, что происходит, если мы манипулируем одним объектом за раз, но в реальности наши вторжения вносят перемены и приводят к результатам, которых модели не спрогнозируют.

Как только принимается решение о поддержке велосипедного спорта в целях улучшения здоровья, появляется множество способов его реализации. Можно дешево продавать технику, давать уроки езды, развивать прокат и т. д. Но каждое вмешательство может привести к разным последствиям.

Даже если выбрать одну цель воздействия – скажем, прокат транспорта, – доступно реализовать ее множеством способов. Необходимо определить, из каких средств проект будет финансироваться, где размещать велосипеды и стоит ли предлагать ездокам шлемы (или требовать их наличия) – это всего несколько соображений. Итак, мы не просто пытаемся выяснить, какую причину применить, чтобы вызвать следствие, но и как заставить случиться саму причину.

Контекст

Одна из первоочередных вещей, которые необходимо осмыслить, – это контекст вмешательства.

Будет ли работать прокат транспорта только там, где есть выделенные дорожки? Требуется ли наличие большого количества велосипедистов? Будет ли зависеть успех программы от ее реализации в густонаселенном городе, имеющем много пунктов, где можно оставлять велосипеды?

Метод Маки и секторные диаграммы из главы 5 исходят из наличия набора условий, необходимых для того, чтобы причина произвела следствие.

Чтобы вмешательство оказалось успешным, нам нужно знать, какие факторы обусловливают эффективность причины и есть ли они там, где мы планируем реализовать нашу политику. Также надо убедиться в отсутствии факторов, способных помешать эффективному действию причины. Например, новое лекарство окажется бесполезным, если из-за высокой цены пациенты не смогут принимать рекомендованные дозы[390]. Прокат велосипедов не приживется там, где нет велосипедных дорожек, потому что люди сочтут небезопасным делить проезжую часть с городским транспортом.

Согласно одному исследованию, наблюдалась корреляция между частотой использования станции проката велосипедов в Вашингтоне и наличием поблизости велосипедных дорожек[391].

Понимание контекста помогает спрогнозировать успешность вмешательства и объяснить его провал. Говоря «контекст», я подразумеваю другие части секторной диаграммы или иные условия INUS, необходимые, чтобы причина произвела следствие. Если они отсутствуют, возможно, не удастся воспроизвести результаты экспериментального исследования, доказывающие, что вмешательство уже где-то сработало.

Противомоскитные сетки – хорошая защита от малярии, но на пути их применения есть разнообразные препятствия, в том числе цена. Бесплатная раздача сеток должна, таким образом, снизить уровень заболеваемости малярией. Но это утверждение будет истинным, только если приспособления употреблять по назначению. Хотя в большинстве случаев это именно так, порой сетки использовались для рыбной ловли, потому что людям не хватало пищи, а голод – более насущная проблема для целевой группы населения, чем малярия[392]. Таким образом, до вмешательства необходимы либо доказательства, что сетки будут применяться в установленных целях, либо политика, учитывающая препятствия[393].

Одно из затруднений в том, что не все факторы могут быть известны, потому что их никто никогда не измерял. Если правда, что велосипедные дорожки (а не пункты проката рядом с ними) способствуют езде на двухколесном транспорте, тогда программа может провалиться, если мы не будем располагать сведениями о наличии таких дорожек в новом месте или не будем убеждены в их необходимости.

Действенность и эффективность

Вмешательство, которое абсолютно не сумело достичь цели, – случай исключительный, однако то, что происходит в реальном мире (эффективность, effectiveness), порой существенно отличается от спрогнозированных результатов вмешательства, изученного на основе идеализированных установок (действенность, efficasy)[394]. Отличие между действенностью и эффективностью чаще всего встречается в медицине, однако оно достойно осмысления в каждом случае, когда для реализации вмешательств в ином контексте мы используем информацию, полученную на основе контролируемых установочных параметров.

К примеру, измерение уровня сахара с помощью глюкометров[395], берущих кровь из пальца, менее точно в домашних условиях, чем в контролируемых, потому что люди в быту гораздо менее внимательно следят за чистотой проб и реже моют руки[396]. Лекарства, демонстрировавшие высокую действенность в условиях эксперимента, когда их принимали в одно и то же время каждый день, могут оказаться куда менее эффективны в реальности, когда график приема соблюдается не так четко. Итак, если исходить из простого допущения, что эффективность вмешательства будет такой же, как та, что наблюдается в условиях контролируемого эксперимента или исследования с другой выборкой участников, ее показатель может оказаться завышенным. Пациенты решат не принимать лекарство в нужное время и в правильных дозах или прервать курс лечения.

Вероятность расхождения (и его степени) между действенностью и эффективностью влияет на выбор вмешательства. Есть ли у нас основания верить, что можно поддерживать эффект аналогичного уровня в реальных условиях? Выбирая воздействие, мы должны не только проверить, какие из них работают (например, что действительно снижало калорийность блюд в заказе), но и в какой степени (например, на сколько именно снизилась жирность в расчете на заказ). Если в идеализированных условиях, которые, как правило, представляют собой самый оптимистичный сценарий, калорийность заказанных блюд снизилась незначительно, следует скептически отнестись к возможности существенно увеличить эффект в реальности. Точно так же нужно учитывать распределение степени воздействия эффекта. Если в среднем питательность блюд снизилась незначительно, стоит определить, будет ли этот показатель одинаковым при всех условиях или же среднее значение затемняет нижний и верхний экстремумы (в одном месте калорийность намного выше, в другом – намного ниже).

Понимание, как установочные параметры вмешательства могут отличаться от условий, принятых в исследованиях, которые выявили причинную зависимость, поможет спрогнозировать потенциальные неудачи и разработать стратегии воздействия, чтобы избежать провала.

Итак, одно из соображений, которые следует учитывать, принимая решение о вмешательстве, – это не только степень его эффективности, но и возможность его успеха с учетом реально существующих условий.

Непреднамеренные последствия

Выборочный эксперимент под названием Tennessee STAR program («Программа звезд Теннесси») обнаружил, что ученики из классов меньшей численности лучше сдавали стандартизированные экзамены, чем школьники из классов большей наполняемости[397]. В этом случае нам известны подробности эксперимента с сокращением учащихся в классах. С помощью рандомизации групп эксперты устранили влияние любых факторов, которые могут стать причиной одновременно классов меньшей численности и лучших оценок на экзаменах. В конце концов, школы с малыми классами могут показывать лучшие результаты из-за чего угодно, и может оказаться, что небольшие классы – просто индикатор присутствия неких атрибутов.

Сомнения относительно больших классов в Калифорнии и положительные результаты Tennessee STAR program вызвали к жизни инициативу стоимостью в несколько миллиардов: сократить размеры учебных классов в Калифорнии[398]. В теннессийском эксперименте ученики и учителя случайным образом были распределены по классам разных размеров. Чтобы стимулировать сокращение размеров классов, штат выплачивал бонус в размере 650 долларов на одного ученика.

Программа была быстро реализована, но, конечно, чтобы иметь небольшие классы и стабильную группу учеников, понадобилось намного больше учителей. Поскольку предложение преподавательских услуг не успевало за растущим спросом, возросла доля неопытных педагогов[399].

Районы с низкими доходами и населенные главным образом этническими меньшинствами, где реализация программы заняла больше времени из-за недостатка аудиторий, оказались в невыгодном положении: учителей не хватало, а новых поздно вводили в проект. В результате более 20 % учителей, начавших работать в этих школах, не имели достаточной квалификации[400].

И все-таки ВКЭ Tennessee STAR program дал возможность сделать ключевой вывод: от сокращения размеров класса максимальную пользу получили ученики из числа меньшинств. Быстрая реализация в Калифорнии этого подхода как программы льгот для всех школ, которая привела к резкому спросу на учителей и конкуренции между ними, означала, что как раз те учебные заведения, которые получили бы максимальную выгоду от проекта, остались за бортом.

В итоге затея была сочтена неудачной. Любые заявления о ее преимуществах звучали неубедительно или незначительно, и считалось, что программа увеличила неравенство в области образовательных возможностей. В то же самое время, несмотря на очень скромный эффект вмешательства в Калифорнии, проект внедрялся далеко не бесплатно. Он стоил миллиарды долларов, которые не были использованы на другие цели, к тому же потребовал дополнительных помещений для классных комнат, которые приходилось откуда-то забирать, например у специального образования, компьютерных лабораторий и библиотек[401].

Исследования, фокусирующиеся на доказательстве причинных зависимостей, в целом не занимаются подобным анализом стоимости/эффективности. Но этот момент очень важен с точки зрения реализации вмешательства, когда ресурсы ограничены и выполнение одной вещи означает, что сделать другую уже не получится[402].

В маломасштабной программе сокращения численности классов в Теннесси участвовали только школы, где уже имелось достаточно места для новых групп, а сам масштаб эксперимента был недостаточен, чтобы вмешаться в спрос на педагогический персонал.

Чтобы успешнее просчитать эффективность программы в Калифорнии еще до реализации, понадобилось бы учесть контекст и ограничения (например, наличие места) и определить, как изменятся другие переменные, например ресурсы, которые придется направить на реализацию этого проекта, забрав у других.

Непреднамеренные последствия принимают разные формы. В простейшем случае вмешательство имеет побочный эффект, означая, что оно становится причиной не только запланированного исхода, но и других моментов. К примеру, лекарство может снимать головную боль, одновременно вызывая слабость. Это, правда, не изменяет присущих системе свойств. С другой стороны, одна из проблем с прокатом велосипедов заключается в возможном ее негативном влиянии на здоровье, если, например, в программе примут участие неопытные велосипедисты, а езда на этом транспорте в городах – дело небезопасное.

Именно поэтому программа сокращения численности учеников в калифорнийских классах пошла не так. Она была просто введена, без изменения чего-либо другого. Масштабное и при этом скорое воплощение привело к различиям профессионализма учителей в некоторых районах, а также к сокращению финансирования и ограничению места для других проектов.

Сосредоточиваясь на вопросе о непосредственном достижении цели вмешательства, нужно проанализировать, к каким еще последствиям оно может привести. Если прогнозы делаются на основе модели, где переменная «размер класса» просто назначается истинной или ложной, они не учитывают, что случится, если сократить размеры классов за счет финансовых льгот, перенаправляя ресурсы из других программ, и если персонал для этих новых классов будет набран неквалифицированный.

Правда, более детализированная модель (каузальная, которой мы научаемся, или симуляционная, которую мы строим), предусматривающая не только причину, но и метод ее воплощения, поможет сравнить различные способы сокращения численности учеников. То есть мы сможем оценить следствия сначала таргетированием[403] областей, где цель труднодостижима, вместо того чтобы перейти прямо к реализации программы в масштабе всего штата; сможем протестировать различные программы льгот и т. д.

Однако далеко не все непреднамеренные последствия негативны. Некоторые на самом деле могут дать лучшие доказательства в пользу результативности программы, если ее преимущества окажутся выше ожидаемых. Например, если прокат велосипедов снизил загрязнение воздуха, это положительный побочный эффект.

Такие побочные действия порой возникают потому, что мы не имеем возможности манипулировать единственной вещью изолированно от прочих. Вместо «того самого» вмешательства может понадобиться изменить много факторов одновременно. Мы, скорее всего, не сможем просто предоставить велосипеды для проката; вероятно, понадобится одновременно устроить выделенные велосипедные дорожки – либо желая развивать велосипедный спорт в целом, либо как необходимое условие безопасности программы.

Таким образом, в одно и то же время может быть введено в действие множество программ, непредсказуемо взаимодействующих. Например, программа проката велосипедов, не предусматривающая выдачи защитных шлемов, может стартовать одновременно с принятием закона, требующего носить такие шлемы. Следствием закона будет низкий уровень пользования программой, если люди не хотят носить с собой шлемы повсюду.

Ко множеству вещей, изменяющихся одновременно, добавляется проблема планирования и оценки вмешательств, так как нельзя сразу сказать, какое именно вызвало некие очевидные следствия. Если, однако, известно о различных компонентах, есть возможность их учесть[404].

10. Двигаемся дальше. Почему же все-таки причинность

Потребность в причинности

Тысячи лет спустя после эпохального труда Аристотеля о причинности, через сотни лет после того, как Юм сформулировал два ее определения, и десятилетия после того, как автоматизация причинно-следственных выводов стала возможной благодаря новым мощным компьютерам, каузальность по-прежнему остается неразрешенной проблемой. Люди склонны видеть причинно-следственные связи там, где их нет, а наши алгоритмы не имеют «защиты от дурака». Более того, как только мы находим причину, все равно остается трудность использования этой информации для предотвращения или продуцирования определенного результата, поскольку существуют ограничения относительно того, какую именно информацию мы собрали и до какой степени способны ее осмыслить.

Теперь, рассмотрев все случаи, когда методики не работают, а ученые и политики совершают досадные каузальные ошибки, вы можете спросить: а какое нам до этого дело? Мы же более не связаны рамками маломасштабных экспериментов, когда приходится систематически изменять только один объект за раз, чтобы узнать, как работает система. Теперь мы располагаем громадными объемами данных о покупательских привычках, медицинских записях и активности в Сети, и все это – в цифровом формате. Теперь, куда бы вы ни направлялись, можете взять с собой датчик ускорений и GPS «в одном флаконе» (то есть смартфон), а ваша деятельность в Сети отслеживается множеством способов. Природа интернета, распространение электронных медкарт и вездесущие сенсоры сделали возможным генерирование огромного объема информации о великом количестве видов деятельности большего числа людей, чем когда бы то ни было. При таком массиве исходного материала, может, и не слишком важно, как что-то там работает. Можно отыскать информацию для корреляции – и хватит[405].

Когда есть столько информации, да еще такой детальной – последовательность книг, которые приобретает человек; каждый шаг, который он делает; результаты миллионов телефонных звонков в рамках политической кампании, – продавцы могут составлять рекламные объявления в расчете на целевых покупателей, фитнес-центры – оценивать, сколько калорий вы сожгли, а политики – выискивать избирателей, которых можно привлечь на свою сторону. Да, огромный объем данных в самом деле может повысить точность прогнозов, и если все, что мы желаем знать, это кто с большей вероятностью купит пару туфель, увидев рекламу, тогда, возможно, и не важно, как эта реклама работает. Даже если какие-то прогнозы окажутся ошибочными.

В таком случае забудьте про теорию и объяснения механизмов действия; все ответы уже содержатся в имеющихся данных.

Конечно, слово «причина» используется не всегда. Анализ данных может охватывать ассоциации, корреляции, связи, тенденции, взаимоотношения, взаимосвязи и факторы риска. И даже в тех случаях, когда язык каузальности звучит уж слишком туманно, выводы и заключения часто все равно применяются так, как если бы они причинами и были. В конце концов, мы оперируем сведениями, чтобы выяснить вероятный итог и иметь возможность изменить его или проконтролировать.

Даже если вам не приходится анализировать данные такого рода по долгу службы и неинтересно забираться в дебри функционирования девайсов вроде вашего фитнес-трекера, вам все равно не укрыться от результатов аналитической работы, которую выполняют другие.

Стоит ли поддерживать новую политику, предусматривающую снижение страховой премии людям, которые носят шагомеры? Почему мы выбираем одно лекарство, а не другое? Как мы уже видели, корреляции здесь не помогут. Даже если бы мы могли делать безошибочные прогнозы и осуществлять вмешательства на их основе, мы все равно всегда хотим знать, почему происходит то или иное, – и дети со своим назойливым «почему», и взрослые, которым нужно решить, где ошибка и кто виноват.

Ни в коей мере не выступая в роли «реликта ушедшей эпохи», как утверждал больше века назад Бертран Рассел[406],[407], причинность – и способность ее критического осмысления – необходима больше, чем когда-либо, именно сейчас, когда мы собираем эти громадные базы данных. Осознание того, когда можно, а когда нельзя выяснить причину, – умение столь же фундаментальное, как способность читать и писать. Мы проводим миллионы экспериментов, чтобы вычленить какой-нибудь значимый сигнал в горах цифрового щебня, и шансы найти нечто ценное по чистой случайности все растут, как и необходимость скептического отношения ко всем находкам без исключения[408].

Там, где невозможна экспериментальная валидация каждой отдельной находки, на помощь приходит статистика, с помощью которой мнимые открытия можно контролировать (до известной степени). Но знание о том, почему возникают ложные взаимосвязи, также поможет понять, когда полученный вывод – всего лишь корреляция.

Существует неверное понимание, что так называемые большие данные[409] – это всего-навсего больше сведений: больше людей, временных точек, переменных. Но сбор таких данных – это не просто расширение малого массива.

Чтобы получить несколько телефонных номеров, можно просмотреть адресную книгу и методично проверить каждый контакт. Звоня приятелю по телефону, мы точно знаем, кому соответствует этот номер, персональный он или принадлежит всему домовладению, домашний или мобильный. С другой стороны, когда нам нужны миллионы телефонных номеров, мы просто не способны знать каждого человека лично и должны собирать сведения из совокупности таких источников, как коммерческие базы данных и списки обзвона, которые, возможно, устарели или неверны и которые нельзя верифицировать в индивидуальном порядке. Кто-то мог переехать, кто-то зарегистрировал несколько номеров под разными именами, а кто-то просто отключил телефон.

Чем больше данных, тем выше шансы помех и ошибок, поэтому сопоставление не настолько однозначно, как кажется. По сравнению с небольшими контролируемыми наборами сведений возникает больше вопросов о качестве данных и потенциальных источников ошибок, смещений и упущенных моментов. При больших массивах информации переменные сложнее интерпретировать, а данные часто собираются по другим временным графикам.

Вместо того чтобы исчезнуть, становится только насущнее необходимость знать, почему происходит то или иное.

* * *

Мы нуждаемся не только в причинной зависимости, но и в глубоком знании соответствующего предмета, чтобы просто понять, был ли эксперимент успешным, и интерпретировать его результаты.

В ходе одного проекта я анализировала данные пациентов неврологического отделения интенсивной терапии, чтобы выяснить, что вызывает вторичные мозговые травмы у больных с инсультом. Чтобы ускорить исцеление, они содержатся в прохладных условиях, и у некоторых регистрировалась температура тела 20 °C. Этот показатель кажется необычно низким, но у таких пациентов вообще многие показатели аномальные, потому что они серьезно больны. Чтобы понимать, что 20 °C означают очень сильную гипотермию, и скептически отнестись к такому значению, нужно обладать определенными знаниями из области физиологии. А чтобы точно определить, почему зарегистрирована такая низкая температура, требуется еще больше специальных знаний. Многие клиницисты, однако, способны только взглянуть на этот показатель и немедленно понять, что произошло. Температура измеряется катетером, который вводится в мочевой пузырь, поэтому, если катетер выскальзывает, он начинает измерять температуру комнаты, которая как раз составляет около 20 °C. Это очевидно, если взглянуть на ситуацию в ретроспективе, но только тот, кто разбирается в данных и знает, откуда они берутся, способен все объяснить.

Без подобного понимания человек, перед которым просто вывалили беспорядочную кучу информации из базы и сказали «Ройся в ней, как твоей душе угодно», может ошибочно обнаружить, что низкая температура – индикатор улучшения состояния пациента, потому что медсестры после случая с выскользнувшим катетером начинают уделять ему больше внимания и быстро устранять проблемы. Действия на основе подобной корреляции способны стать причиной неэффективных вмешательств, когда охлаждение пациентов приблизится к опасному уровню.

В добавление к необходимости определять корректность значения переменной, узнавать, что она означает и когда ее нет, тоже может оказаться сложнее, чем представляется. Практически все вычислительные методы исходят из допущения, что общие причины измерены и мы располагаем «правильным» набором переменных. Этого, однако, недостаточно, если данные не показательны в отношении истинного состояния переменной или если общее следствие – единственный надежный индикатор того, что причина имела место.

Среди прочего, диагноз может упоминаться в медицинской карте пациента для выставления счета, потому что это предполагаемый диагноз или данные наследственности, а также по иным причинам (например, ошибка копирования)[410]. Даже если значение указано, оно может неэффективно экранировать последствия причины, наличие определенного заболевания отражается неточно, а если не указано, это может быть результатом недосмотра регистратора. Если пациент болен диабетом, но это неадекватно отражено в документации, можно вывести некорректное соотношение между высоким содержанием сахара в крови и инсулином.

В некоторых случаях необходимо обладать обширными знаниями, чтобы проводить различие между переменными, измеренными в разных временных рамках (сюда входят все теоретически измеримые временные точки), и теми, для которых недостает данных. Биллинговые[411] коды в медицинских картах могут сказать, от чего лечился пациент, а иногда в картах содержатся перечни патологических состояний пациента.

Если в ходе одного визита к врачу астма указывается, а в ходе другого нет, как это истолковать? Маловероятно, чтобы астма обладала свойством истинности только в один конкретный момент: это хроническое состояние. Однако пациент мог получать соответствующее лечение только в одном случае (и, следовательно, счет выставили только за этот визит). Все же, чтобы узнать, какие сведения упущены (врач некорректно не указал астму в списке проблем), а какие ложные (острое состояние вроде гриппа со временем ослабевает), нужно понимать не только саму проблему, но и как именно генерируются данные[412].

Наиболее оптимистичный сценарий – когда ошибки представляют собой просто случайные помехи, влияющие на все переменные в равной степени. В реальности, однако, устройства имеют разные уровни помех, а люди могут отвечать на одни вопросы точнее, чем на другие. К примеру, если мы спросим некую группу, курят ли они, одни солгут, а другие решат, что их спрашивают, курят они сейчас или курили ли в прошлом. Измерения артериального давления печально известны своей ненадежностью, поэтому мы можем обнаружить, что лекарство от гипертензии – лучший индикатор, указывающий, страдает ли человек от повышенного давления на самом деле. Конечно, затем мы увидим корреляции между этим препаратом и другими состояниями, а не между гипертензией и сопутствующими патологиями. Необходимы знания в конкретной области, чтобы понять: лекарство – просто индикатор гипертензии, оно не может быть причиной заболеваний.

Наконец, корреляции, выведенные на основе крупных наборов данных, которые изначально не предназначались для научных целей, могут отличаться низким уровнем обобщаемости, ограничивая нашу способность применить новое знание к будущим ситуациям.

В 2010 году ученые проверили, действительно ли пользователи Facebook с большей вероятностью пойдут на выборы в американский Конгресс, если получат информацию о голосовании при входе в соцсеть. И в частности, действительно ли процент пришедших на избирательные участки вырастет, если люди узнают, что их друзья уже проголосовали[413]. Более 60 миллионов человек получили извещения от Facebook с перечнем их друзей, которые указали, что уже проголосовали, а две группы поменьше (примерно по 600 000 человек в каждой) либо получили такую информацию в виде ссылки на местный избирательный участок, либо не получили никакой. Сравнив эти группы и кросс-ссылки с данными голосования, ученые заявили, что, по их оценкам, информирование в соцсети привело к увеличению числа проголосовавших примерно на 60 000 (а по косвенным данным – еще на 280 000).

И все же дополнительные 60 000 избирателей после рассылки извещений 61 миллиону – это прирост голосов менее чем на 0,1 %. Необработанные данные могут выглядеть внушительно, но только наличие громадной соцсети позволило применить подобный нецелевой метод. Если бы его пришлось реплицировать на соцсети меньшего охвата, то, чтобы получить значимую цифру новых голосов, понадобился бы иной, более прямой подход. В действительности фотографии близких друзей оказались намного эффективнее информации о том, что какие-то дальние знакомые посетили избирательные участки, однако фильтр подобного рода потребовал бы сведений о взаимоотношениях между людьми. С учетом слабого эффекта такого подхода, различий между пользователями Facebook и других соцсетей, а также несбалансированных размеров групп нельзя сказать, что это вмешательство эффективно и его можно с успехом использовать на примере других соцсетей или во время избирательных кампаний вне США. Вместо того чтобы отказываться от преимуществ причинности, лучше отказаться от идеи заиметь «черный ящик», который поглощает некий набор данных прямо из их источника и выдает поток причин, не требуя ни интерпретации, ни человеческого вмешательства. Каузальное осмысление необходимо и возможно, однако оно не идеально и, что более важно, требует специальных знаний.

Основные принципы

Легко может создаться впечатление, что множество не связанных между собой отраслей знания работают в изоляции друг от друга над мелкими частями проблемы, потому что ученые, затворившись в своих узкоспециальных башнях из слоновой кости, спорят о наилучших способах выявления и применения причин. Очевидного консенсуса не видно, а каждый подход страдает таким количеством ограничений, что все предприятие кажется просто безнадежным. Нужно понимать, что, даже если мы искренне хотим узнать причины, скорее всего, сделать этого так и не сможем.

Проблема каузальности не решена, и здесь нет никакой великой и единой теории. Мы не можем дать определение причины, работающее в каждом отдельном случае, с которым столкнемся, и не существует метода выявления причин на основе данных любого и каждого типа. Безусловно, азарт исследователей подогревается недосягаемыми горизонтами неизведанного. Но если вы не из их числа, что можете для себя вынести?

Нам, конечно, известно не все, но кое-что все-таки понятно. Еще важнее и обнадеживает, что наше понимание причинности постепенно совершенствуется.

Это стало возможным отчасти за счет лучшей информации и более мощных вычислительных систем, а отчасти за счет сближения узкоспециальных и междисциплинарных познаний.

Причинность и корреляция не синонимы

Итак, один из главных «сухих остатков» этой книги – понимание, как сложен поиск причин.

В подавляющем большинстве случаев, когда мы уверены, что отыскали причину, на самом деле мы обнаружили всего лишь корреляцию. А иногда даже и она мнимая. Это может быть результатом искажений (когда, не замерив правильные переменные, мы обнаруживаем ложную взаимосвязь между следствиями с общей причиной), смещений поиска и оценки информации (предвзятость подтверждения означает, что мы видим только положительные примеры) или многих других проанализированных нами факторов.

Очень важно знать все возможности обнаружения корреляций, которые не считаются причинными зависимостями, так как это поможет критически оценить наши выводы и допущения и предотвратить неэффективные вмешательства.

Скажем, я увидела корреляцию между дистанцией своих пробежек и уровнем энергетики организма. Неожиданный вывод: чем дольше я бегаю, тем энергичнее себя ощущаю. Но, если это происходит лишь потому, что я дольше бегаю в те дни, когда у меня больше свободного времени и я могу позже лечь спать, тогда в действительности я выяснила только следующее: энергией заряжает долгий сон, и любое предположение по поводу громадного вброса энергии после марафона определенно не сбудется. Также это значит, что для меня лучшая стратегия восстановиться – больше спать, а не бегать часами.

И не важно, насколько велик массив данных, – все равно не уйти от необходимости подвергнуть свои выводы сомнению и задать вопрос «почему».

К примеру, компания Google использовала корреляции между поисковыми критериями пользователей интернета и случаями заболевания гриппом, чтобы спрогнозировать тенденции болезни еще до того, как это успевали сделать Центры по контролю заболеваемости[414]. Но подобный подход работает только в том случае, если люди ищут информацию в Сети, потому что уже наблюдают симптомы, а не потому, что их заботит распространение гриппа, симптомы появились у членов их семьи или стало известно об исследованиях Google. На деле эффективность сервиса Google Flu Trends[415] со временем снизилась. В 2011 году предсказанные им уровни заболеваемости оказались намного выше того, что было в действительности, и завышение показателей продолжалось еще некоторое время после эпидемии[416]. Не понимая, почему нечто становится прогностическим индикатором, нельзя избежать непредвиденных неудач.

Критический подход к смещению

Аналогично существует много областей, где мы можем ошибаться, но их выявление и учет помогут разработать усовершенствованные методы, избегать мнимых причинно-следственных выводов и проводить более эффективные вмешательства. Одна из причин, по которой мы посвятили целую главу психологии каузальности, такова: зная, где мы добились отличных результатов в поиске причин, мы сможем разработать лучшие методы автоматизации этого процесса, а зная, где кроются ошибки в осмыслении, сумеем уделить особое внимание слабым звеньям цепи. То есть мы будем внимательнее отслеживать когнитивные искажения и избегать их[417], разрабатывать алгоритмы, способные эффективно справляться со смещением выборки[418], или передавать обязанности по очистке и анализу данных другим людям. Главное – чтобы они не были знакомы с гипотезой, на которой строится конкретное исследование, чтобы избежать случайной предвзятости подтверждения[419].

Психология позволила глубже осмыслить извечные философские вопросы (такие как зависимости между моральными и каузальными суждениями), а также сформулировала предположение, что стоит обращать гораздо больше внимания на внешнюю валидность и на то, как именно мы оцениваем методы причинного осмысления и объяснения.

Во многих случаях необходимо собирать больше данных (притом из разных источников), чем планировалось изначально. Один из ключевых выводов психологической науки звучит так: люди могут в действительности расходиться во мнениях как насчет того, что именно стало причиной события, так и насчет относительной значимости различных причин единичного события. Эти разногласия могут корениться в культурных различиях, которые необходимо учитывать, разрабатывая методы поиска каузальных объяснений. В философии, где тестовые случаи оцениваются аналитически, чтобы доказать некую теорию, это означает, что интуитивные прозрения конкретного человека необязательно формируют общие понятия путем синтеза.

То, что, по мнению канадского профессора, заставило студента мошенничать на экзамене, необязательно совпадет с предположением фермера из индийской деревни. Даже в простейших исследованиях каузального восприятия, например в экспериментах Мишотта, не все участники воспринимают сюжеты одинаково.

Конкретная причинность намного более сложна, и потенциально могут быть правильными разные ответы, которые все же более-менее релевантны в различных случаях. Дорожные происшествия могут быть вызваны недосмотром автопроизводителя, невнимательным вождением и плохими погодными условиями – и все это в одно и то же время. Однако то, что будет важным в судебном разбирательстве, приобретет иную значимость в других целях. Подобные различия в объяснении также влияют на решения, принимаемые судьями, и в конечном счете на выбор присяжных. Труды в области экспериментальной философии ставят задачей определить вариативность подобных суждений и выяснить, какие факторы обусловливают разницу мнений и методов оценок различных случаев. Хотя мы до сих пор не располагаем идеальной теорией, объясняющей, как именно люди определяют виновность или идентифицируют токен-случаи, применение экспериментальных методов из области когнитивной психологии для решения философских проблем помогает выходить за рамки интуитивных прозрений отдельных лиц, оценивая сработавшие методы.

Для валидации методов необходима фундаментальная истина (то есть знание реальной причины события), чтобы иметь возможность сравнить ее с результатами, которые дало применение этого метода. Но, если объяснения субъективны, а истина изменяется в зависимости от того, кому задают вопросы, необходима переоценка наших схем валидации. К примеру, при опросе краудворкеров[420] платформы Amazon Mechanical Turks или пользователей конкретной соцсети необходимо учесть культурные смещения в полученных результатах и реплицировать эксперимент в различных контекстах, чтобы обеспечить разнообразие демографических характеристик участников.

Время имеет значение

Вечером в день президентских выборов 1948 года Chicago Tribune опубликовала статью под печально известным заголовком «Дьюи победил Трумэна»[421],[422]. Газету требовалось отдать в печать до того, как стали известны финальные результаты, а опросы Гэллапа, Ропера и Кроссли единодушно предсказывали убедительную победу Дьюи. В дополнение к проблемам, связанным с методом выборки участников плебисцита, который привел к преобладанию сторонников республиканской партии, агентства слишком рано приостановили работу – некоторые даже в сентябре, за два месяца до выборов[423], так как исходили из допущения, что желание участвовать в голосовании и выбор кандидата в последние месяцы уже не переменятся.

Но даже результаты опросов способны повлиять на исход процесса, поскольку видимая победа Дьюи могла вселить в его сторонников избыточную уверенность, и они легко проигнорировали выборы, в то время как сторонники Трумэна имели стимул прийти на избирательные участки.

Те, кто оценивает риск заболевания расчетными методами, могут переоценивать риск для целевой группы, беря за основу многолетние данные. И мы должны задать себе вопрос, не могли ли эти данные и причинные взаимосвязи со временем поменяться и применимы ли они по-прежнему в интересующий нас момент.

Устанавливаем ли мы причинную взаимосвязь между физическими явлениями (когда запаздывания при отсутствии механистического знания ослабляют каузальные суждения) или оцениваем политику (когда временные паттерны необходимы как для оценки рисков, так и для определения действенности), нельзя игнорировать временные паттерны событий. Время – центральный аспект нашего восприятия причинности, поскольку мы ожидаем, что следствие проявится вскоре после своей причины. Мы можем ожидать определенного запаздывания, если нам известно что-то о процессе, посредством которого причина производит следствие (например, курение провоцирует рак только по прошествии некоторого времени). Однако идея о первичности причины по отношении к следствию – ключ ко множеству философских теорий, которые мы рассматривали, и в ее поддержку говорят эксперименты из области психологии.

Эксперимент не лучше наблюдения

Вопрос, что лучше – исследования с использованием эксперимента или наблюдения, – представляет собой ложную дихотомию. В реальности мы не в состоянии проводить эксперименты в любом возможном случае (кто захочет войти в контрольную группу исследования, цель которого – узнать, правда ли парашюты предотвращают гибель во время прыжков?) и не всегда нуждаемся в этом (физика и инженерные знания, а также немного симуляций с успехом заменят парашютный ВКЭ). К тому же выборочные эксперименты нередко проводятся недобросовестно, а в некоторых случаях посредством наблюдения можно узнать больше.

Недовольная медленными темпами медицинского исследования, группа пациентов с диагнозом «амиотрофический боковой склероз»[424] разработала собственное исследование, чтобы выяснить, действительно ли экспериментальное лечение замедляет прогрессирование заболевания[425]. В подобного рода исследованиях проблема заключается в организации контрольной группы, поскольку пациенты сильно мотивированы и активно действуют, когда речь идет об их здоровье. Однако это исследование было основано на большом количестве данных, которыми участники и другие пациенты делились на социальном ресурсе PatientsLikeMe[426]. При поддержке врачей экспериментальная группа добавляла литий в прописанное им лекарство и 12 месяцев тщательно отслеживала и документировала состояние своего здоровья.

Поскольку это исследование не было слепым или рандомизированным, оно оказалось несвободным от различных смещений. Чтобы решить эту проблему, каждому пациенту сопоставили не одного, а множество других, которые не принимали литий и у которых наблюдалось аналогичное течение болезни до начала исследования. Сравнив показатели после приема лития, можно было увидеть, наблюдаются ли различия в прогрессировании заболевания. Различий не было, и этот отрицательный результат был подтвержден многочисленными выборочными экспериментами[427].

В некотором смысле отрицательный результат имеет большую силу, чем результаты ВКЭ, поскольку множество факторов могли исказить результаты в пользу приема лекарства. Пациенты действовали не вслепую, а поскольку свои итоги они фиксировали сами, когнитивные смещения могли способствовать разной оценке значимости состояния. Больные же хотели, чтобы препарат сработал. Во множестве ситуаций продуманное комбинирование данных эксперимента и наблюдения способно снять ограничения, присущие методам. И еще: когда оба подхода дают одинаковые результаты, повышается доверие к каждому.

Богатый арсенал

Если все, что у вас есть, это молоток, вы попытаетесь каждую проблему свести к гвоздю.

Цель самого жесткого и подробного обсуждения слабых мест каждого метода не создать впечатление, будто ни один из них не работает, а скорее показать, что ни один метод не будет работать всегда и везде. Вероятностные модели нельзя считать единственным подходом к осмыслению причинности; точно так же контрфактуальность не единственный способ объяснения событий. Кроме того, в различных областях знания эти методы используются самым неожиданным образом. Причинность по Грэнджеру изначально разрабатывалась для финансовых временных рядов, однако применяется в анализе пакетов нейронных импульсов[428]. Байесовские сети создавались для представления вероятностных зависимостей, а используются в моделировании психологических процессов, лежащих в основе причинного осмысления[429]. Ни один метод и ни одна модель не работают всегда; возможно, в поисках решения своей проблемы вам придется выйти за рамки узкоспециальной области.

Если и существует какой-то ответ, то он может быть таким: мы нуждаемся в плюрализме методов. Каждый из них работает в конкретном случае, так что если у вас в наличии лишь один инструмент, которому вы доверяете, рано или поздно вы уткнетесь в его границы. Приложив массу усилий и пролив много пота, вы сможете адаптировать большинство из них к разным сценариям. Правда, это аналогично тому как, скажем, приспособить молоток к переворачиванию блинов на сковороде, прикрепив к нему клейкой лентой металлическую пластинку. Если вам известно о существовании кухонной лопаточки, вы избавитесь от массы разочарований.

В последние годы растет осознание необходимости иметь набор комплементарных методов в противовес поискам панацеи, решающей все проблемы разом[430]. К примеру, Иллари и Руссо (2014) недавно представили подход, который назвали методом причинной мозаики (causal mosaic view). Точно так же, как невозможно понять роль отдельной плитки в мозаичной картине, выбор методик для применения зависит от контекста, то есть от насущной проблемы и заданной цели.

Это вписывается в рамки общей тенденции каузального плюрализма, и ко множеству вещей следует применять такой подход. Можно использовать его для определения причины[431], свидетельств в ее поддержку и сбора фактического материала[432].

Когда мы ставим перед собой практические задачи, нас, как правило, мало заботит метафизика каузальности или природа причин, однако следует помнить о различии между ними. Кто-то согласится, что есть множество типов свойств, на основе которых можно отличить причину от корреляции: к примеру, вероятностные, интервенционистские (воздействующие) и механистические подходы позволяют проникнуть в суть причин. Но, даже если вы сочтете вмешательство единственным способом обосновать причинные утверждения, существуют другие пути, которые могут представить аналогичную фактуру (вспомните разнообразные экспериментальные методы из главы 7).

Точно так же есть множество мер причинной значимости для расстановки приоритетов в рамках различных свойств.

Для решения некоторых задач машинного обучения, таких как оптимизация, существует набор теорем под названием «Бесплатных обедов не бывает» (TANSTAAFL[433]). То есть если метод заточен под один тип проблем, с другими он будет работать хуже, и ни один нельзя назвать наилучшим для всех[434]. Это означает, что нереально провести оптимизацию для устранения всех проблем. Нет способа улучшить одно, не заплатив за это чем-то другим. В этом заключается некоторая трудность, поскольку, начав работу с новой проблемой, мы не знаем, какой метод применить.

Но мы не всегда приступаем к работе, не имея в багаже совсем никаких знаний. Если хоть что-то известно о поставленной проблеме и о том, на какой компромисс мы готовы пойти (к примеру, принять больше ложноотрицательных результатов, чтобы сократить количество ложноположительных), то не понадобится «лучший» метод – просто надо знать, как выбрать один из способов решения конкретной задачи.

Например, если я хочу оценить, действительно ли информация о калорийности блюд в ресторанах привела к снижению потребления калорий в отдельном городе, это будет вопрос из области конкретной каузальности, поэтому здесь лучше применить контрфактуальный подход, а не причинность по Грэнджеру. С другой стороны, если у меня есть данные шагомера и подключенных к Сети весов, а также информация о полученных калориях и мне нужно спрогнозировать вес, исходя из своих привычек в еде и отношения к физическим упражнениям, придется задавать другие вопросы и применять иной подход. Здесь хорошим выбором может стать байесовская сеть, так как она лучше прогнозирует вероятные значения переменной, исходя из показателей других объектов сети. Но, если бы я хотела узнать, как быстро после интенсивных занятий поднимется уровень сахара в крови, этот метод вряд ли подойдет. Вместо него стоит выбрать тот, который позволит узнать о временном паттерне этой зависимости на основе имеющихся данных.

Главное – причинность скрывает немало того, о чем нам пока неизвестно, и, адаптируя существующие методы под текущие задачи, мы загоняем себя в узкие рамки, упуская важные открытия.

Потребность в знании

С появлением новых и лучших методов выявления причин и прогнозирования будущих событий растет искушение автоматизировать все больше процессов, постепенно устраняя из цепочки человеческий фактор. Люди предвзяты, иррациональны и непредсказуемы, а компьютерные программы неуклонно ведут себя одинаково, каждый раз получая одинаковые вводные. Пока, однако, человеческие знания и суждения необходимы на каждом этапе: мы решаем, какие сведения собирать, подготавливаем их, выбираем метод анализа, интерпретируем результаты и, исходя из этого, определяем, как действовать.

Мы уже видели, как уводит в сторону поиск «черного ящика», который безукоризненно выполняет весь процесс от ввода «сырых» данных до причин на выходе, без ошибок и человеческого вмешательства. Но столь же неверно использовать причины аналогичным способом, исключающим человеческие суждения.

Если компания рекламирует продукт, который вам неинтересен, или сайт рекомендует фильм, который вам не нравится, стоимость ошибок в выборе не слишком велика. Но в массе иных случаев, таких как неправильное осуждение Салли Кларк или некорректное употребление каузальности, это приводит к очень серьезным последствиям. Возможно, мы слишком доверяем причинно-следственным выводам в одном сценарии, а в другом использованный алгоритм слишком зависит от общих знаний и не принимает в расчет специфику конкретной ситуации.

Когда доктор говорит, что у вас высокое давление и с этим нужно что-то делать, вы вряд ли обрадуетесь, если он слепо последует шаблонным инструкциям. Конечно, вы захотите, чтобы он принял в расчет другие лекарства, которые вы принимаете (и которые могут взаимодействовать с препаратами, снижающими давление), ваши предпочтения и задачи относительно терапии. Результат, возможно, не будет наилучшим с точки зрения общих рекомендаций по коррекции гипертензии, однако окажется оптимальным именно для вас. Дело в том, что высокое артериальное давление имеет серьезные последствия для состояния организма, но его снижение не единственная задача, и решать ее нужно в контексте других целей. Возможно, вы принимаете лекарства, которые взаимодействуют с предлагаемыми медикаментами, больше подходят для ежедневного приема, а не других временных интервалов[435] или имеют ограничения, не вписывающиеся в вашу медицинскую страховку.

Поскольку на основании известной зависимости на уровне типа мы не можем сделать вывод, что некая вещь служит токен-причиной, информацию на уровне типа не следует использовать, чтобы принимать решения о токен-случаях.

И после того как мы нашли причины, решая, как их использовать (и использовать ли вообще), необходимо принимать в расчет не только валидность конкретной зависимости.

* * *

Как минимум 20 американских штатов приняли форму вынесения приговоров по уголовным делам на основании доказательств, когда при определении наказания рассчитывается риск рецидива[436]. Во многом аналогично тому, как медицина продвигалась от стандартизированных процессов к целостному и качественному лечению, основанному на фактах, а не интуитивных догадках, новый подход предполагает использование более твердых принципов при определении риска, который собой представляет человек, и сокращение возможных искажений из-за особых полномочий или выводов отдельных судей.

С этими принципами и задачами трудно не согласиться. Однако подобные калькуляторы риска учитывают множество характеристик, помимо криминальных досье отдельных лиц (к примеру, финансовое положение и статус занятости), а также факторы вне контроля личности (например, пол). То есть, если два человека совершают одинаковые преступления, риск рецидива в одном случае будет считаться ниже, если обвиняемый имеет постоянную работу или проживает в районе с низким уровнем правонарушений. Расовый признак напрямую в расчет не принимается, но он коррелирует со многими учитываемыми условиями. Суть не в том, есть ли у человека криминальное прошлое и релевантность этого фактора совершенному преступлению. Скорее, этот подход напоминает использование таблиц смертности[437] страховыми компаниями, которые устанавливают стоимость своих продуктов. На самом деле конкретная продолжительность жизни – величина неизвестная, поэтому с помощью таблиц она рассчитывается для индивидуальных клиентов исходя из показателя для соответствующей группы (например, на основе пола и возраста).

Если оставить в стороне вопрос, действительно ли разные сроки наказания снижают вероятность рецидива преступлений, и если не задумываться о корректности показателей, увязывающих последнее значение и число людей с различными характеристиками[438], следует ли пользоваться подобной информацией, определяя срок наказания по приговору суда?

Нельзя дать положительный ответ только потому, что некую причину можно использовать для более точного прогнозирования или принятия решений. Методы установления причинно-следственных связей могут только сказать, действительно ли среди каких-то групп больше рецидивистов, но умолчат о том, должно ли справедливое общество использовать подобные групповые свойства, чтобы суровее наказывать отдельных граждан.

Одна из опасностей, подстерегающих тех, кто слишком углубляется в большие объемы данных в поисках корреляций, состоит в незнании механизма действия отдельных вещей. При этом выводы о причинности могут применяться в оправдание несправедливых и дискриминационных практик, сохраняя видимость справедливости и объективности.

Ответственное использование причин означает, что необходимо оценивать не только статистическую и методологическую основательность заключений, но также их этический базис и последствия.

Вместо того чтобы все автоматизировать, лучше комбинировать преимущества вдумчивого человеческого суждения с достоинствами компьютеров, которые способны обрабатывать громадные количества данных. Каждый раз, оказавшись лицом к лицу с причинными зависимостями, мы должны не просто выискивать доказательства в их пользу, а подвергать их допросу, словно следователь с подозреваемым.

Не косвенное ли доказательство (как корреляция), прослеживается ли мотив (механистическое объяснение того, почему причина должна произвести следствие)? Имеются ли смягчающие обстоятельства, например общая причина или некоторое искажение данных?

Если затратность и риск, сопутствующие нашим заключениям, возрастают, так же должна расти и весомость доказательств. И если невозможно с достаточной долей достоверности определить причину, нужно быть готовыми учесть эту неопределенность, когда мы просто не знаем, что за причина имела место. И продолжать поиск.

Благодарности

Эта книга стала возможной только благодаря организациям, финансировавшим мои труды в области причинности. Во время исследований и написания книги я получала помощь Национальной медицинской библиотеки Национальных институтов здравоохранения США (НИЗ) и Национального научного фонда (ННФ). Любые мнения, выводы, заключения и рекомендации, которые приводятся в этой книге, принадлежат мне и необязательно отражают взгляды ННФ или НИЗ.

Я посвящаю книгу моей матери, которая стала ее истинной причиной.

Библиография

Afari, N. and Buchwald, D. (2003). Chronic Fatigue Syndrome: A Review. American Journal of Psychiatry, 160(2): 221–236.

Ahn, W.K. and Bailenson, J. (1996). Causal Attribution as a Search for Underlying Mechanisms: An Explanation of the Conjunction Fallacy and the Discounting Principle. Cognitive Psychology, 31(1): 82–123.

Ahn, W.K. and Kalish, C. W. (2000). The role of mechanism beliefs in causal reasoning. In F. C. Keil and R. A. Wilson (eds.), Explanation and cognition, pp. 199–225. The MIT Press, Cambridge, MA.

Ahn, W.K., Kalish, C. W., Medin, D. L., and Gelman, S. A. (1995). The role of covariation versus mechanism information in causal attribution. Cognition, 54(3): 299–352.

Alberts, B. (2011). Retraction of Lombardi et al. Science, 334(6063): 1636–1636.

Alexander, J. (2012). Experimental philosophy: An introduction. Polity, Cambridge, UK.

Alicke, M. D., Rose, D., and Bloom, D. (2011). Causation, Norm Violation, and Culpable Control. The Journal of Philosophy, 108(12): 670–696.

Alter, H. J., Mikovits, J. A., Switzer, W. M., Ruscetti, F. W., Lo, S. C., Klimas, N., Komaroff, A. L., Montoya, J. G., Bateman, L., Levine, S., Peterson, D., Levin, B., Hanson, M. R., Genfi, A., Bhat, M., Zheng, H., Wang, R., Li, B., Hung, G. C., Lee, L. L., Sameroff, S., Heneine, W., Coffin, J., Hornig, M., and Lipkin, W. I. (2012). A Multicenter Blinded Analysis Indicates No Association between Chronic Fatigue Syndrome/Myalgic Encephalomyelitis and either Xenotropic Murine Leukemia Virus-Related Virus or Polytropic Murine Leukemia Virus. mBio, 3(5): e00266– е00212.

Andersen, H. (2013). When to Expect Violations of Causal Faithfulness and Why It Matters. Philosophy of Science, 80(5): 672–683.

Anderson, C. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Retrieved from http://archive.wired.com/science/discoveries/magazine/16–07/pb_theory.

Appelbaum, B. (2011). Employment Data May Be the Key to the President’s Job. The New York Times, June: p. A1.

Aristotle (1924). Metaphysics. Oxford University Press, Oxford. Edited by W. D. Ross.

Aristotle (1936). Physics. Oxford University Press, Oxford. Edited by W. D. Ross.

Badler, J., Lefvre, P., and Missal, M. (2010). Causality Attribution Biases Oculomotor Responses. The Journal of Neuroscience, 30(31): 10517–10525.

Badler, J. B., Lefvre, P., and Missal, M. (2012). Divergence between oculomotor and perceptual causality. Journal of Vision, 12(5): 3.

Baird, S., Ferreira, F. H. G., zler, B., and Woolcock, M. (2013). Relative Effectiveness of Conditional and Unconditional Cash Transfers for Schooling Outcomes in Developing Countries: A Systematic Review. Campbell Systematic Reviews, 9(8).

Baker, S. G. and Kramer, B. S. (2001). Good for Women, Good for Men, Bad for People: Simpson’s Paradox and the Importance of Sex-Specific Analysis in Observational Studies. Journal of Women’s Health & Gender-Based Medicine, 10(9): 867–872.

Bareinboim, E. and Pearl, J. (2012). Controlling selection bias in causal inference. In Proceedings of the 15th International Conference on Artificial Intelligence and Statistics.

Barnett, L. and Seth, A. K. (2014). The MVGC multivariate Granger causality toolbox: A new approach to Granger-causal inference. Journal of Neuroscience Methods, 223: 50–68.

Beasley, N. A. (1968). The extent of individual differences in the perception of causality. Canadian Journal of Psychology, 22(5): 399–407.

Bechlivanidis, C. and Lagnado, D. A. (2013). Does the “Why” Tell Us the “When”? Psychological Science, 24(8): 1563–1572.

Beecher, H. K. (1955). The Powerful Placebo. Journal of the American Medical Association, 159(17): 1602–1606.

Begley, C. G. and Ellis, L. M. (2012). Drug development: Raise standards for preclinical cancer research. Nature, 483(7391): 531–533.

Bennett, C. M., Baird, A. A., Miller, M. B., and Wolford, G. L. (2011). Neural Correlates of Interspecies Perspective Taking in the Post-Mortem Atlantic Salmon: An Argument For Proper Multiple Comparisons Correction. Journal of Serendipitous and Unexpected Results, 1: 1–5.

Bhatt, A. (2010). Evolution of Clinical Research: A History Before and Beyond James Lind. Perspectives in Clinical Research, 1(1): 6–10.

Bickel, P. J., Hammel, E. A., and O’Connell, J. W. (1975). Sex Bias in Graduate Admissions: Data from Berkeley. Science, 187(4175): 398–404.

Blackwell, B., Bloomfield, S. S., and Buncher, C. R. (1972). Demonstration to medical students of placebo responses and non-drug factors. The Lancet, 299(7763): 1279–1282.

Blatchford, P. and Mortimore, P. (1994). The Issue of Class Size for Young Children in Schools: What can we learn from research? Oxford Review of Education, 20(4): 411–428.

Bohrnstedt, G. W. and Stecher, B. M. (eds.) (2002). What We Have Learned about Class Size Reduction in California. American Institutes for Research, Palo Alto, CA.

Bollinger, B., Leslie, P., and Sorensen, A. (2011). Calorie Posting in Chain Restaurants. American Economic Journal: Economic Policy, 3(1): 91–128.

Bond, R. M., Fariss, C. J., Jones, J. J., Kramer, A. D., Marlow, C., Settle, J. E., and Fowler, J. H. (2012). A 61-million-person experiment in social influence and political mobilization. Nature, 489(7415): 295–298.

Born, M. and Einstein, A. (1971). The Born Einstein Letters: Correspondence between Albert Einstein and Max and Hedwig Born from 1916 to 1955 with commentaries by Max Born. Macmillan Press, Basingstroke, UK. Translated by Irene Born.

Boyd, C. M., Darer, J., Boult, C., Fried, L. P., Boult, L., and Wu, A. W. (2005). Clinical Practice Guidelines and Quality of Care for Older Patients With Multiple Comorbid Diseases: Implications for Pay for Performance. JAMA, 294(6): 716–724.

Brandt, M. J., IJzerman, H., Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R., Grange, J. A., Perugini, M., Spies, J. R., and Van’t Veer, A. (2014). The Replication Recipe: What makes for a convincing replication? Journal of Experimental Social Psychology, 50: 217–224.

Broadie, S. (2009). The Ancient Greeks. In H. Beebee, C. Hitchcock, and P. Menzies (eds.), The Oxford Handbook of Causation, pp. 21–39. Oxford University Press, Oxford; New York.

Buchanan, M. (2007). Statistics: Conviction by numbers. Nature, 445: 254–255.

Buck, D. and Buehler, R. (2012). Bike Lanes and Other Determinants of Capital Bikeshare Trips. In 91st Transportation Research Board Annual Meeting.

Buehner, M. J. and May, J. (2003). Rethinking temporal contiguity and the judgement of causality: Effects of prior knowledge, experience, and reinforcement procedure. The Quarterly Journal of Experimental Psychology, Section A, 56(5): 865–890.

Buehner, M. J. and May, J. (2004). Abolishing the effect of reinforcement delay on human causal learning. The Quarterly Journal of Experimental Psychology, Section B, 57(2): 179–191.

Buehner, M. J. and McGregor, S. (2006). Temporal delays can facilitate causal attribution: Towards a general timeframe bias in causal induction. Thinking & Reasoning, 12(4): 353–378.

Campbell, M. K., Elbourne, D. R., and Altman, D. G. (2004). CONSORT statement: Extension to cluster randomised trials. BMJ, 328: 702–708.

Caporael, L. R. (1976). Ergotism: The Satan Loosed in Salem. Science, 192(4234): 21–26.

Carels, R. A., Konrad, K., and Harper, J. (2007). Individual differences in food perceptions and calorie estimation: An examination of dieting status, weight, and gender. Appetite, 49(2): 450–458.

Carey, B. (2012). Father’s Age Is Linked to Risk of Autism and Schizophrenia. The New York Times, August: p. A1.

Carey, B. (2013). Sleep Therapy Seen as an Aid for Depression. The New York Times, November: p. A1.

Carpenter, C. E. (1932). Workable Rules for Determining Proximate Cause. California Law Review, 20(3): 229–259.

Cartwright, N. (1999). Causal Diversity and the Markov Condition. Synthese, 121(1–2): 3–27.

Cartwright, N. (2001). What Is Wrong with Bayes Nets? The Monist, 84(2): 242–264.

Страницы: «« 12345678 »»

Читать бесплатно другие книги:

Социальный аскетизм – модное течение, которое набирает обороты в США и Западной Европе, однако на те...
Как добиться от людей того, что вам нужно, – изящно и незаметно? Какие фразы и слова убеждают, напра...
Что знают о людях дожди? Как спасти маленького раненого дракончика? Что такое ветряки? За что мамы л...
Дорогой читатель!Ты держишь в руках книгу, которую вправе даже не открывать. Пройдя мимо, ты никогда...
Эта книга принадлежит перу одного из самых успешных финансовых менеджеров в мире. Питер Линч не пред...
Чтобы спасти любимого от смерти, я вынуждена отправиться за помощью к самому опасному человеку город...