Путеводитель по лжи Левитин Дэниел
Эту книгу хорошо дополняют:
Решение проблем по методикам спецслужб
Морган Джонс
Джордан Элленберг
Чарльз Уилан
Авинаш Диксит и Барри Нейлбафф
Чип Хиз и Дэн Хиз
Информация от издательства
Библиотека фонда «Эволюция»
Научный редактор Надежда Шихова
Издано с разрешения Insula Corporation c/o The Wylie Agency (UK) LTD
Все права защищены.
Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.
© A Field Guide to Lies, 2016, Daniel Levitin. All rights reserved
© Перевод на русский язык, издание на русском языке, оформление. ООО «Манн, Иванов и Фербер», 2018
О фонде «Эволюция»
Просветительский фонд «Эволюция» основан в 2015 году сообществом российских просветителей. Цель фонда — популяризация научного мировоззрения, продвижение здравомыслия и гуманистических ценностей, развитие науки и образования. Одно из направлений работы фонда — поддержка издания научно-популярных книг. Каждая книга, выпущенная при содействии фонда «Эволюция», тщательно отбирается серьезными учеными. Критерии отбора — научность содержания, увлекательность формы и значимость для общества. Фонд сопровождает весь процесс создания книги — от выбора до выхода из печати. Поэтому каждое издание библиотеки фонда — праздник для любителей научно-популярной литературы.
Больше о работе просветительского фонда «Эволюция» можно узнать по адресу www.evolutionfund.ru
Фонд «Эволюция» выражает огромную благодарность Евгению и Алине Дябиным за поддержку издания этой книги.
Посвящается моей сестре Шари, чей пытливый ум заставил меня мыслить лучше
ВВЕДЕНИЕ
Критическое мышление
Для начала я скажу две вещи, которые обязательно кого-нибудь да разозлят. Во-первых, язык, который мы используем, стал стирать грань между выдумкой и фактами. Во-вторых, это становится опасным побочным эффектом недостаточного образования, которое повлияло на целое поколение. В силу этих двух фактов ложь разрослась до неимоверных масштабов, и нам становится все сложнее принимать правильные решения, касающиеся нас самих, а также наших сограждан.
Так что же случилось с нашим языком? В 2016 году словом года в Оксфордском словаре стало понятие «постправда», которое определяют как «нечто, относящееся к обстоятельствам или обозначающее обстоятельства, в которых объективные факты влияют на формирование общественного мнения меньше, чем обращение к эмоциям и личным убеждениям». Это слово стало победителем, так как количество его использований в течение года взлетело до небес. Уверен, нам нужно снова вернуться к старому доброму слову «правда» — и поскорее. А также нужно отказаться от мысли о том, что правды больше не существует.
Нам всем свойственно более чем осторожно относиться к фальши. Возможно, пытаясь избежать личных разногласий и «просто поладить», мы стали использовать эвфемизмы, говоря о том, что иначе чем чистым безумием не назовешь. Ложная информация о том, что в пиццерии Comet Ping Pong в Вашингтоне велась сексуальная работорговля под руководством Хиллари Клинтон, привела к тому, что 28-летний житель Солсбери Эдгар Уэлч проехал 560 километров от своего дома до Вашингтона и в воскресенье 4 декабря (через несколько дней после того, как «постправда» стала словом года) открыл внутри пиццерии огонь из полуавтоматического оружия. Нью-йоркская газета Daily News назвала эту ложь «странной теорией». Теория, между прочим, не просто идея — это идея, выведенная путем тщательного анализа данных. И не просто данных, а только тех, что имеют отношение к рассматриваемой проблеме, отобранных строго и беспристрастно.
Другие эвфемизмы, используемые для лжи, — «контрзнания», «полуправда», «экстремистские взгляды», «альт-истина», «теория заговора» и недавнее название «выдуманные новости».
Словосочетание «выдуманные новости» звучит слишком игриво, это слишком похоже на ситуацию, когда школьник прикидывается больным, чтоб пропустить контрольную. Эти эвфемизмы скрывают тот факт, что история про сексуальное рабство — беспардонная ложь. Те, кто об этом писал, знали, что это неправда. Не может быть двух мнений, если одно из них — заведомая ложь. Журналисты, да и все мы, должны перестать уделять внимание суждениям, если они не подкреплены фактами. Две точки зрения возможны тогда, когда каждая из них опирается на объективные данные. Разумные люди могут спорить относительно того, как оценивать эти данные и какие выводы из них следуют. Каждый, конечно, имеет право на собственное мнение, но не имеет права на собственные факты. Ложь — это отсутствие фактов, а во многих случаях и прямое противоречие им.
Истина имеет значение. Эпоха постправды — это эпоха умышленной иррациональности, сводящая на нет все великие достижения человечества. Возможно, журналисты не называют «выдуманные новости» ложью, потому что не хотят оскорблять лжецов. А я говорю: не бойтесь их оскорбить! Вызовите их на ковер.
Возможно, лучше сформулировать вопрос иначе: «Что происходит с системой образования и институтами в преддверии наступления эпохи постправды?» Количество книг, которые читают студенты, в среднем уверенно снижается каждый год начиная со второго класса. Пятнадцать лет назад Департамент образования Соединенных Штатов обнаружил, что один из пяти взрослых американцев не может даже найти информацию в тексте, не говоря уже о том, чтобы мало-мальски проанализировать его и сделать выводы. По-видимому, мы не сумели обучить наших детей тому, что такое доказательство и как его оценивать. Наше возмущение оправданно. Эдгар Уэлч, стрелок из Comet Ping Pong, рассказал властям, что поверил в эту историю после того, как прочитал о ней в интернете. Наша информационная инфраструктура могущественна. Она может приносить пользу, но может и причинять вред. И каждый из нас должен знать, где одно, а где другое.
Возможно, Уэлч относился к ситуации исходя из этой амбивалентности, однако никаких доказательств, что какое-либо расследование вообще имело место, нет. Похоже, этот невежда даже не знает, что значит собирать и оценивать доказательства. В таком случае кто-нибудь мог намеренно поискать связь между Хиллари Клинтон и рестораном, увидеть в поведении Клинтон интерес к ведению секс-бизнеса и даже мотив, подтолкнувший ее извлечь из этого выгоду (конечно, она не могла быть финансовой, если вспомнить недавнюю суматоху, связанную с гонораром за ее выступления). Он мог заметить, выходили ли дети, занимавшиеся проституцией, и их клиенты из заведения. А за неимением необходимого склада ума и образования для проведения собственного расследования можно почитать профессионалов, занимающихся расследовательской журналистикой, и поинтересоваться, как они видят ситуацию. Ни один преданный профессии журналист не поверит в эту историю, что уже говорит о многом. При этом я прекрасно понимаю, что есть люди, которые считают журналистов коррумпированными и утверждают, будто те продались правительству.
Бюро трудовой статистики Соединенных Штатов сообщает, что в стране насчитывается 45 790 репортеров и корреспондентов. По оценкам Американского общества новостных редакторов, являющегося независимой торговой группой, 32 900 репортеров работают в 1400 газетных изданиях, выходящих ежедневно. Некоторые журналисты могут быть коррумпированы, но при таком количестве весьма маловероятно, что все.
Facebook прилагает все усилия, чтобы оправдать свои социальные обязанности как источник информации, «с помощью которого 1,8 миллиарда пользователей могут сообщать выдуманные новости». Иными словами, распространять ложь.
Возможно, когда-нибудь в будущем и другие социальные сети будут играть стратегически более важную роль. По крайней мере мы можем надеяться, что их роль в том, что ложь используют в качестве оружия, уменьшится.
Многие новостные организации изучали, откуда взялась история о растлении малолетних в той пиццерии. Компания NBC сообщила о процветающем сообществе, распространяющем «выдуманные новости», в Велесе, Македония, — оно вполне могло быть источником. До 1991 года этот регион относился к коммунистической Югославии. Новостная медиакомпания BuzzFeed совместно с газетой Guardian обнаружила более сотни появившихся там поддельных названий новостных доменов. Молодые люди из Велеса, не имеющие никакого отношения к политическим партиям Соединенных Штатов, сочиняют лживые истории, реклама которых хорошо оплачивается по принципу «пенни за клик» на таких платформах, как Facebook. Подростки могут зарабатывать тысячи долларов в городах с небольшими экономическими возможностями. Должны ли мы винить их за выстрелы в пиццерии? Или это вина социальных сетевых платформ? Или виновата образовательная система, воспитавшая граждан, не умеющих осмысливать заявления, с которыми мы сталкиваемся каждый день?
Вы можете возразить: «Но я не обязан критически оценивать статистику. Есть газеты, блогеры, правительство, Википедия, которые должны делать это за нас». Да, должны, но не всегда могут, им становится все труднее и труднее поспевать проверять информацию, так как ложь размножается быстрее, чем они могут с ней справиться. Это как компьютерная игра «Убей крота». Репортаж о пиццагейте собрал более миллиона просмотров, в то время как материалы по разоблачению этой истории, собранные сайтом Snopes, просмотрели менее 35 тысяч человек. Нам очень повезло, что в США свободная пресса, — исторически у большинства наций было намного хуже. Но мы не должны принимать свободу, честность и принципиальность СМИ как должное. Журналисты и те компании, которые им платят, будут и дальше помогать нам выявлять и разоблачать обман, но они не смогут делать это в одиночку — ложь победит, если доверчивое и неподготовленное общество окажется готово эту ложь принять.
Конечно, большинство из нас не поверили бы, что Хиллари Клинтон могла управлять подобным притоном в Вашингтоне. Данная книга не только о такого рода нелепостях. Действительно ли вам нужно это новое лекарство или же миллиардная маркетинговая кампания, стоящая за ним, раскручивает вас на покупку с помощью тщательно отобранных псевдоданных? Как нам узнать, действительно ли виновен человек, оказавшийся в суде? Как оценить ту или иную инвестицию или объем противоречивых данных, полученных в результате голосования? Что остается за пределом наших когнитивных способностей просто потому, что нам предоставили недостаточно информации?
Лучшая защита против хитрых и изворотливых людей — умение критически мыслить. Нам не удалось объяснить детям, как бороться со склонностью к доверчивости, подаренной нам эволюцией. Мы — социальный вид и склонны верить тому, что нам говорят. Наш мозг — такой механизм, который прекрасно придумывает и рассказывает истории: если нам дать оригинальную идею, мы можем легко придумать заковыристое объяснение, почему она хороша. Но в этом и заключается различие между образным и критическим мышлением, между ложью и истиной: истина подкрепляется фактами, объективными доказательствами. Некоторые утверждения могут быть истиной, но истинные утверждения истинны всегда.
В ходе изучения Стэнфордским университетом умения пользователей рассуждать относительно информации из интернета за полтора года (вплоть до июня 2016-го) было протестировало более 7800 учеников старших классов школы и студентов колледжа. Исследователи ссылаются на «потрясающую и вместе с тем тревожную тенденцию. В целом умение молодых людей рассуждать об информации из интернета можно обозначить одним словом: „никакое“». Они с трудом могли отличить новости высокого качества от лжи. Мы должны начать учить их этому незамедлительно. И пока часть из нас занята этим, другая часть может пойти на курсы повышения квалификации. К счастью, мышление, в основе которого лежит работа с фактами, доступно для большинства 12-летних.
Многие говорили, что история про пиццагейт была одним из примеров «выдуманных новостей», но давайте называть вещи своими именами — это была наглая ложь. В выдуманных новостях нет «новости» как таковой. Вера в ложь может быть безобидной, так же как и вера в Санта-Клауса или в то, что новые джинсы меня стройнят. Не СМИ и не Facebook делают ложь инструментом воздействия на умы. Опасность заключается в силе убеждения — в чрезмерной, безоговорочной уверенности в том, что это правда.
Критическое мышление учит нас смотреть на ситуацию немного со стороны, оценивать факты и делать выводы, основываясь только на них. То, что заставило Уэлча расчехлить огнестрельное оружие в вашингтонской пиццерии, стало следствием его полной неспособности понять, что его взгляд на проблему был в корне неправильным. Самый важный компонент критического мышления, которого так не хватает в нашем обществе, — смирение. Это простая, но очень глубокая мысль: если мы поймем, что знаем далеко не всё, то сможем узнать больше. Если мы будем думать, что знаем всё, научиться чему-нибудь будет невозможно. Так получилось, что наша система образования, равно как и наша зависимость от интернета, привели к появлению поколения, которое не знает, что оно не знает. Если мы смиримся с этим и примем как правду, то сможем воспитать американский ум, вернуть былую образованность и обезвредить огромное количество лжи, ставшей орудием воздействия на умы и угрожающей нашему миру. Это единственная возможность добиться процветания демократии.
Три вида стратегической защиты
Я начал писать эту книгу в 2001 году, пока читал в колледже курс по критическому мышлению. Я усердно работал над ней в период с 2014 по 2016 год, книга вышла под названием A Field Guide to Lies и имела несколько другое введение. С тех пор, однако, опасность, равно как и охват действия лжи, стали просто ошеломляющими. Теперь уже ложь — это не то, о чем можно говорить с сарказмом в голосе или над чем можно похихикать. Она стала оружием. И опасность эта, возможно, будет только усиливаться и приведет к проблемам, которых мы не знали на протяжении многих поколений. Может, однако, случиться и так, что она пройдет стороной и не будет иметь никаких серьезных последствий. В любом случае инструменты, предложенные на страницах этой книги, — такие же, как и в первом издании: они не зависят от политических, социальных и экономических веяний.
Часто проблема заключается в том, каким источником вы пользуетесь. В старину бумажные книги и новостные статьи вызывали доверие, в отличие от отсебятины, которую какой-нибудь псих мог напечатать в подвале на домашней пишущей машинке. Интернет, конечно же, все изменил. Фальшивый сайт может выглядеть так же подлинно, как и авторитетный, проверяющий факты, — я приведу позже несколько примеров. Дезинформация чертовски плотно переплетена с информацией настоящей, из-за чего становится трудно отличить одно от другого. А еще дезинформация не структурирована — она объединяет людей самых разных социальных слоев, имеющих самое разное образование, и появляется в местах, где вы и не ожидали ее увидеть. Ложные данные переходят от одного человека к другому, публикуются в Twitter, Facebook, Snapchat, Instagram, Tumblr и других социальных сетях, получая таким образом глобальное распространение. Дезинформация может завладеть миром — и получится так, что люди вдруг начнут верить в то, что на самом деле неправда.
Это книга о том, как разрешать с помощью тех фактов, которые вам встречаются, затруднения, которые могут привести вас к неправильным выводам. Иногда те, кто предлагает вам какие-то факты, так и ждут, что вы сделаете неверное заключение. Иногда они и сами не видят разницы. Сегодня информацию можно получить практически мгновенно, государственные лидеры появляются в ваших социальных сетях, сигналы об «экстренных сообщениях» привлекают ваше внимание ежедневно, даже ежечасно. Но где найти время, чтобы определить, не содержатся ли в новостях псевдофакты, искажения данных или откровенная ложь? Нам нужны эффективные стратегии, чтобы понимать, стоит ли доверять тому, что нам говорят.
За последние пять лет мы создали больше искусственной информации, чем за всю предшествующую историю человечества. К сожалению, наряду с истинным знанием есть много того, что знанием назвать нельзя: сайты, видео, книги и социальные сети. И это не просто новая проблема. Дезинформация известна человечеству на протяжении тысячелетий, о ней говорили в библейские времена, существовала она и в Классической Греции (V–IV вв. до н. э.)[1]. Уникальная проблема, с которой мы столкнулись сегодня, состоит в том, что дезинформация очень быстро распространяется, а ложь может стать мощным инструментом в формировании социальной и политической стратегии, ошибочных путей развития которых мы могли бы избежать.
В последующих главах я объединил эти стратегии в категории. Часть 1 этой книги посвящена числовой дезинформации. Она показывает, как неправильное обращение со статистикой и графиками искажает перспективу и заставляет нас делать ошибочные выводы (а также принимать необоснованные решения). В части 2 я исследую ошибочные аргументы, показывая, как легко быть убедительным, рассказывать истории, которые, пусть ненавязчиво, уводят от фактов. Кроме того, в книге описываются способы, помогающие критически оценивать новости, рекламу, отчеты. Последняя часть раскрывает, что лежит в основе нашей способности определять, что есть истина, а что ложь: научный метод. Это лучший из когда-либо созданных инструментов для разгадывания самых сложных тайн. Он отсылает нас к таким великим мыслителям в истории человечества, как Аристотель, Бэкон, Галилей, Декарт, Земмельвайс и Поппер. В этой части книги я говорю о границах наших знаний, о том, что мы можем и чего не можем знать, в том числе о том, что мы знаем на данный момент и чего пока еще не знаем. Я предлагаю ряд конкретных примеров применения логического мышления в совершенно разных условиях: во время дачи свидетельских показаний в зале суда, при принятии медицинских решений, в магии, в отношении современной физики и теорий заговора.
Мыслить критически не значит ставить под сомнение все подряд — это значит пытаться различать те утверждения, что имеют под собой доказательства, и те, что не обоснованы.
Фанаты статистики и графиков умеют обманывать с их помощью, потому что знают: большинство людей не станут вникать в то, как работают диаграммы. Возможно, этим людям даже кажется, что они недостаточно умны. Но любой человек может с этим разобраться, и как только вы поймете самые базовые принципы работы с графиками, диаграммы быстро раскроют вам свою изящность — или уродство.
Возьмем приведенный ранее пример о том, что количество книг, которые читают учащиеся, начиная со второго класса неуклонно снижается с каждым годом. Как следствие можно говорить о том, что наша система образования испортилась: у детей не вырабатывается полезная привычка к обучению, их не волнует саморазвитие, они не вовлечены в процесс интеллектуально. А теперь остановитесь и задайте себе вопрос: а можно ли считать количество прочитываемых книг адекватным мерилом? Можем ли мы с его помощью делать выводы на эту тему? Второклассники обычно читают очень короткие рассказы, и объем книг увеличивается с возрастом. К средней школе дети могут прочесть «Повелителя мух» (две сотни страниц), а к колледжу — «Войну и мир» (1225 страниц). Возможно, следует оценивать количество прочитанных страниц или то время, которые было проведено за чтением. К моменту окончания школы или уже работая в таких сферах, как юриспруденция, управление, промышленность, финансы и наука, люди могут читать меньше художественных книг, но больше сухих научных статей. Если чиновник не читал никаких книг, но тратил время на изучение Конституции, законов, читал журналы и газеты, можно ли сказать, что он не вовлечен в процесс интеллектуально? Тот факт, что в каком-то материале приводятся статистические данные, не означает, что они имеют отношение к теме статьи. Более того, это исследование, похоже, было проведено компанией, разрабатывающей и продающей программное обеспечение для улучшения читательских навыков, — ребята извлекли выгоду из сообщений о низком уровне чтения. Вот оно, критическое мышление в действии.
Обнаружение ошибочных аргументов, представляющих собой часть каких-то историй, поможет вам оценить, ведет ли цепь рассуждений к обоснованным выводам. Информационная грамотность включает знание о том, что существует иерархия источников, что псевдофакты могут легко маскироваться под истины, а предвзятое отношение — искажать информацию, из-за чего мы делаем неверные выводы и приходим не к тем результатам. Иногда доказательства опираются на числа, и тогда мы задаемся вопросом: «Откуда они взялись? Как они были собраны?» Бывает, цифры выглядят нелепо, но для того чтобы это увидеть, нужно хорошенько над ними поразмыслить. Иногда утверждения кажутся обоснованными, однако исходят из источника, который не заслуживает доверия, как в случае с человеком, заявляющим, что он свидетель преступления, хотя на самом деле его там не было. Благодаря этой книге вы научитесь распознавать неправду[2]. И остановите пройдох, ставших на путь обмана.
ЧАСТЬ 1. ОЦЕНКА ЦИФР
Проблемы вам создает не то, чего вы не знаете, а скорее то, в чем вы абсолютно уверены, тогда как на самом деле заблуждаетесь.
Марк Твен
Правдоподобие
Статистика — это цифры, а потому она кажется нам холодной и жесткой. Есть ощущение, что она отражает факты, которые нам дала сама природа, и наше дело всего лишь их найти. Но важно помнить, что собирают статистические данные люди, и никто иной. Люди выбирают, что считать, как считать, какими результатами делиться, какими словами их описывать и как интерпретировать числа[3]. Статистика — это не факты, это интерпретация. И ваша интерпретация может быть такой же хорошей (равно как и такой же плохой), как и та, что вам предлагает другой человек.
Числа не всегда верны, и для начала проще всего быстренько проверить их на правдоподобие. Даже если они прошли проверку, у вас могут возникнуть вопросы трех типов: как данные были собраны, как они были интерпретированы и как представлены графически. Ответы на них помогут вам сформулировать правильные выводы.
Вы можете проверить (в большинстве случаев это возможно), правдоподобен ли факт, в уме или на оборотной стороне конверта. Не принимайте все на веру, попытайтесь разобраться.
Когда мы проводим подобную проверку, точность цифр не очень важна, как бы парадоксально это ни звучало. Достаточно просто здравого смысла: если Берт говорит, что хрустальный бокал упал со стола на ковер и не разбился, это кажется правдоподобным. Если Эрни скажет, что бокал упал с высоты 40-этажного здания на тротуар, не разбившись, это уже будет неправдоподобно. Тут вам помогут знания о том, как устроен мир, а также элементарный жизненный опыт. Подобным же образом, если кто-то вам скажет, что ему 200 лет, или что он постоянно выигрывает в рулетку в Лас-Вегасе, или что он может пробежать 40 миль за час, — все это будет маловероятно и очень неправдоподобно.
Что вы скажете о следующем заявлении?
Все 35 лет после того, как в Калифорнии перестал действовать закон о марихуане, число курильщиков марихуаны удваивается с каждым годом.
Звучит правдоподобно? Давайте разберемся, но с чего же начать? Предположим, что 35 лет назад в Калифорнии был только один курильщик марихуаны — конечно, очень заниженная оценка (в 1982 году по всей стране было полмиллиона арестов за курение марихуаны). Если ежегодно удваивать это число на протяжении 35 лет, получим 17 миллиардов человек — это больше, чем население всего земного шара. (Попробуйте подсчитать сами, и вы увидите, что ежегодное удвоение в течение 21 года приведет вас к числу больше миллиона: 1; 2; 4; 8; 16; 32; 64; 128; 256; 512; 1024; 2048; 4096; 8192; 16 384; 32 768; 65 536; 131 072; 262 144; 524 288; 1 048 576.) Таким образом, это утверждение не то чтобы неправдоподобно — оно попросту невозможно. К сожалению, не у всех получается мыслить четко и ясно, когда речь заходит о числах: многие их просто боятся. Но, как видите, для подобных подсчетов хватит и школьного уровня арифметики плюс здорового скепсиса.
Вот еще один пример. Вас только что взяли в отдел продаж по телефону, и вам нужно обзванивать ничего не подозревающих (и, без сомнения, раздраженных) потенциальных клиентов. Ваш босс, пытаясь вас мотивировать, говорит:
Наш лучший специалист продавал тысячу товаров в день.
Правдоподобно ли это? Попробуйте сами набрать телефонный номер — самое меньшее вам понадобится пять секунд. Плюс еще пять секунд на то, чтобы дозвониться. Теперь давайте предположим, что каждый звонок действительно заканчивается продажей, — это, понятное дело, не очень реалистично, но давайте представим идеальный вариант, чтобы посмотреть, что получится. Добавьте десять секунд: вы проговорите предложение о продаже, а потенциальный клиент его примет. Затем еще 40 секунд, чтобы узнать у него адрес и записать номер кредитной карточки. Это дает один звонок в минуту (5 + 5 + 10 + 40 = 60 секунд), или 60 продаж в час, или 480 продаж за очень напряженный восьмичасовой рабочий день, без перерывов. Так что тысяча товаров, проданных за день, — это нереально, даже при самом оптимистичном раскладе.
Некоторые утверждения оценивать сложнее. Вот, например, заголовок из журнала Time за 2013 год:
Людей с мобильными телефонами больше, чем тех, у кого есть туалет[4].
И как быть с таким утверждением? На ум приходят, с одной стороны, жители развивающихся стран, не имеющие водопровода, а с другой стороны — те многочисленные жители процветающих стран, у кого больше одного мобильного телефона. Кажется, что заявление вполне правдоподобно, — это не означает, однако, что мы должны его принять. Скорее, мы не можем отвергать его просто потому, что оно нелепо. Нам потребуются другие техники для его оценки, но тест на правдоподобие оно прошло.
Иногда нельзя оценить, правдиво ли утверждение, не проведя собственного исследования. Да, конечно, газеты и сайты в интернете должны бы делать это за вас, но так бывает не всегда — вот тогда статистика идет вразнос. Несколько лет назад было очень распространено вот такое утверждение, основанное на статистических данных:
Каждый год в США от анорексии умирает 150 тысяч девушек и молодых женщин[5].
Хорошо, давайте проверим, насколько этот факт правдоподобен. Согласно данным американских Центров по контролю и профилактике заболеваний, ежегодное количество смертей девушек и молодых женщин в возрасте от 15 до 25 от всех видов заболеваний — 8500. Добавьте сюда женщин от 25 до 45 — показатель все равно достигнет только 55 тысяч[6]. Количество случаев смерти от анорексии за год не может превышать в три раза количество всех смертей[7].
В своей статье для журнала Science Луи Поллак и Ганс Вайс сообщили, что с момента образования Communication Satellite Corp.
…расходы на телефонные разговоры снизились на 12 тысяч процентов[8].
Если расходы уменьшаются на 100 %, они падают до нуля (и не важно, какими они были изначально). Если же расходы падают на 200 %, это значит, что кто-то платит вам ту же самую сумму, которую когда-то платили вы ему, чтобы получить его продукт. Снижение на 100 % случается крайне редко, а снижение на 12 тысяч процентов кажется и вовсе маловероятным[9]. В статье в профессиональном издании Journal of Management Development утверждалось, что количество клиентских жалоб сократилось на 200 % в результате перехода компании на новую политику поддержки клиентов[10].
Писатель Дэн Кеппел даже назвал свою книгу Get What You Pay For: Save 200 % on Stocks, Mutual Funds, Every Financial Need («Получите то, за что вы платите: экономьте 200 % на бирже, инвестиционных фондах открытого типа, на любой финансовой потребности»). У Кеппела есть степень MBA. Ему следует лучше разбираться в вопросе. Конечно, чтобы аккуратно сравнивать проценты, их нужно брать от одного и того же базового показателя. Нельзя вернуться к изначальному уровню зарплаты, сокращенной на 50 %, увеличив на 50 % вашу новую, более низкую зарплату[11].
Проценты кажутся простыми и логичными, но иногда они могут и запутать. Если процентная ставка увеличивается с 3 до 4 процентов, то она увеличивается на 1 процентный пункт, или на 33 % (так как увеличение на 1 процентный пункт отсчитывается от базового показателя 3; это увеличение на 1/3 = 0,33 от 3). Если же процентная ставка упадет с 4 до 3 процентов, то она уменьшится на 1 процентный пункт. При этом она уменьшится не на 33 %, как в предыдущем случае, а на 25 %, потому что уменьшение на 1 процентный пункт отсчитывается от базового показателя 4 (1 — это 1/4, или 25 %, от 4). Исследователи и журналисты не всегда щепетильны в этом вопросе и не видят порой разницы между процентными пунктами и процентами, но вы не должны их путать[12].
The New York Times сообщила о закрытии текстильной фабрики в Коннектикуте и ее переезде в Вирджинию[13]. Причиной такого решения стали возросшие расходы на сотрудников. По сведениям газеты, «фонд заработной платы, все виды компенсации сотрудникам, а также пособие по безработице в Коннектикуте в 20 раз выше, чем в Вирджинии». Правдоподобно ли это? Если бы это было так, вы бы, наверное, ожидали массового исхода в Вирджинию — все компании, а не только эта фабрика, захотели бы переехать, и вы бы уже знали об этом. На самом деле все это неправда, и Times пришлось опубликовать опровержение. Как же такое могло произойти? Дело в том, что журналистка просто неправильно прочла отчет компании. Один показатель — пособие по безработице — на самом деле обходился компании в 20 раз дороже в Коннектикуте, чем в Вирджинии, но с учетом остальных показателей в Коннектикуте все расходы на содержание штата были в целом выше в 1,3 раза, а не в 20 раз. У автора статьи не было образования в сфере бизнес-администрирования — и мы не вправе ожидать этого. Чтобы отследить такого рода ошибку, нужно просто спокойно все обдумать. Это под силу каждому (а журналистка и ее редакторы просто обязаны были это сделать).
В Нью-Джерси одобрили новую законодательную инициативу, согласно которой матери, находящиеся на социальном обеспечении, не получали никаких дополнительных льгот[14]. Некоторые члены законодательного органа посчитали, что женщины в Нью-Джерси специально рожали детей, чтобы увеличить ежемесячное пособие, получаемое от государства. Через два месяца законодатели заявили, что им удалось решить этот вопрос, так как уровень рождаемости снизился на 16 %. Вот что писала New York Times:
Всего два месяца спустя государство опубликовало данные о том, что количество новорожденных детей у женщин, уже находящихся на социальном обеспечении, уменьшилось на 16 %[15]. Власти поздравляют себя с потрясающими результатами, которых они добились в такие короткие сроки.
Обратите внимание, что учитывались не беременности, а количество родов. Что же здесь не сходится? Так как беременность длится девять месяцев, никакие изменения за последние два месяца нельзя связывать напрямую с законом. Скорее всего, тут свою роль играют обычные колебания рождаемости (ведь известно, что уровень рождаемости — дело сезонное).
Есть в этом вопросе и другие неточности, которые нельзя обнаружить простой проверкой на правдоподобие:
…с течением времени эти 16 % сократились до 10 %. Дело в том, что государству стало известно о родах, о которых не сообщалось ранее. Оказалось, что многие роженицы не считали нужным сообщить о своих новорожденных детях, так как их социальные дотации на период ухода за ребенком никак не увеличивались[16].
Вот вам пример того, с какими проблемами можно столкнуться, собирая статистические данные: оказывается, мы учитываем не всех людей, хотя думаем, что охвачены все. Одни ошибки в рассуждениях заметить проще, другие сложнее, но со временем мы лучше научимся их распознавать. Для начала давайте взглянем на простой инструмент, который часто используют неверно.
С помощью круговой диаграммы легко представить себе процентные соотношения — то, каким образом распределены разные части единого целого. Например, вы хотите узнать, какой процент школьного бюджета тратится на зарплаты учителям, на учебные материалы, на ремонт. Или же вам хочется выяснить, какая часть денег, ассигнованных на учебные материалы, идет на естественные науки, язык, физкультуру, музыку и т. д. Главное правило круговых диаграмм — сумма процентов во всех секторах должна быть равна 100. Представьте себе пирог: ведь круговая диаграмма — не что иное, как пирог, поделенный на кусочки. Если девять человек хотят разделить его поровну, мы не можем порезать его на восемь частей. И тут ничего нельзя поделать.
Fox News, однако, это не смутило, и они опубликовали вот такую диаграмму:
Главное правило круговых диаграмм: сумма процентов во всех секторах должна быть равна 100. (Fox News, 2010)
Можно легко объяснить, как такое могло произойти. У избирателей есть возможность отдать свой голос более чем за одного кандидата. Однако в таком случае нельзя представлять результаты в виде круговой диаграммы.
Чехарда со средними
Среднее значение может быть весьма полезно, да и разобраться с ним проще, чем с круговой диаграммой. Оно позволяет нам охарактеризовать огромное количество информации одним-единственным числом. Например, мы хотим узнать среднее благосостояние людей в комнате, чтобы понять, принесет ли встреча с ними какую-нибудь пользу нашим фандрайзерам{1} или менеджерам по продажам. Другой пример: мы хотим узнать среднюю цену на бензин, чтобы оценить, во сколько обойдется поездка на машине из Ванкувера в Банф. Однако средние могут быть обманчиво сложными.
Есть три вида средних, и они могут выражаться разными числами. Поэтому те, кто всерьез занимается статистикой, избегают слова «среднее», отдавая предпочтение другим, более точным терминам, как то: среднее арифметическое, медиана или мода. И только так. Иногда все эти величины совпадают, но чаще они различаются. Если вам встретилось слово «среднее», оно, как правило, означает «среднее арифметическое», но нельзя быть в этом абсолютно уверенным.
Чаще других из этих трех встречается среднее арифметическое; оно равно сумме всех данных, поделенной на их количество. Например, среднее благосостояние всех людей, находящихся в комнате, будет равно их общему благосостоянию, поделенному на количество человек. Если в комнате находится десять человек, состояние каждого из которых оценивается в 100 тысяч долларов, то общее богатство составит миллион. Отсюда легко вычислить среднее арифметическое (даже доставать калькулятор не нужно): 100 тысяч долларов. А если состояние каждого присутствующего будет варьироваться от 50 тысяч до 150 тысяч долларов, но общее количество будет по-прежнему миллион, то среднее арифметическое по-прежнему будет 100 тысяч долларов (потому что мы просто разделим миллион на десять, не принимая во внимание, сколько денег на счете у каждого).
Медиана — это число в середине упорядоченного набора чисел (статистики называют его выборкой): половина данных находится ниже этого значения, а половина выше. Как вы помните, смысл среднего значения в том, чтобы охарактеризовать весь объем данных одним-единственным числом. Медиана лучше с этим справляется, если некоторые из ваших данных уж очень отличаются от большинства, статистики называют такие значения выбросами.
Представим себе комнату, в которой находятся девять человек; состояние восьмерых из них равно примерно 100 тысяч долларов, а один находится на грани банкротства, его долг равен 500 тысячам долларов. Вот что у нас получится:
Человек 1: –500 тыс. долл.
Человек 2: 96 тыс. долл.
Человек 3: 97 тыс. долл.
Человек 4: 99 тыс. долл.
Человек 5: 100 тыс. долл.
Человек 6: 101 тыс. долл.
Человек 7: 101 тыс. долл.
Человек 8: 101 тыс. долл.
Человек 9: 104 тыс. долл.
Теперь складываем все показатели и получаем общую сумму в 299 тысяч долларов. Разделим это число на общее количество участников, девять, и получится, что среднее арифметическое равно 33 222 долларам. Создается, однако, впечатление, что среднее арифметическое — не лучший способ охарактеризовать данные о присутствующих. Смею предположить, что фандрайзер не захочет наносить им визит, если среди них найдется человек с показателем-выбросом, который тянет вниз всю группу. В этом и заключается вся трудность работы со средним арифметическим: оно слишком чувствительно к выбросам.
Медиана здесь равна 100 тысячам долларов: четверо зарабатывают меньше этой суммы, а четверо — больше. Мода равна 101 тысяче долларов — это та цифра, которая появляется намного чаще других. И медиана, и мода в этом конкретном примере оказываются гораздо показательнее.
Можно по-разному использовать средние, особенно если вы хотите, чтобы кто-то увидел в ваших данных то, что нужно вам.
Давайте представим, что вы с двумя друзьями запустили стартап — небольшую компанию, в которой работают пять человек. Сейчас конец года, вы собираетесь подвести финансовые итоги и рассказать сотрудникам, как у компании идут дела, чтобы они почувствовали удовлетворение от долгих часов, проведенных в офисе, и от холодной пиццы, съеденной за это время. А еще вы хотите привлечь инвесторов. Скажем, четверо сотрудников — все программисты — за год заработали по 70 тысяч долларов, а один — офис-менеджер — 50 тысяч. Это даст среднее арифметическое зарплат, равное 66 тысячам долларов в год: сумма (4 70 000) + (1 50 000), поделенная на 5. Вы и двое ваших друзей принесли домой по 100 тысяч долларов — это ваша зарплата. Следовательно, общая сумма выплаченных зарплат составит (4 70 000) + (1 50 000) + (3 100 000) = 630 тысяч долларов. Кроме того, пусть ваша компания принесла 210 тысяч долларов чистого дохода, который вы разделили поровну между собой и соучредителями в качестве бонусов, это дает каждому из вас по 100 тысяч + 70 тысяч. Как вы им об этом сообщите?
Вы могли бы сказать:
средняя зарплата сотрудников составляет 66 тысяч долларов;
средняя зарплата + прибыль владельцев составляет 170 тысяч долларов.
И хотя это правда, вряд ли новость понравится кому-нибудь, кроме вас и вашей мамы. Если ваши подчиненные прознают об этом, то решат, что им существенно недоплатили. А потенциальные инвесторы сочтут, что учредителям платят слишком много. Поэтому вы можете оформить отчет по-другому:
средняя зарплата сотрудников составляет 66 тысяч долларов;
средняя зарплата владельцев составляет 100 тысяч долларов;
прибыль: 210 тысяч долларов.
Для потенциальных инвесторов это выглядит убедительнее, тем более что им можно и не говорить о том, что вы поделили прибыль между совладельцами. А сотрудникам последнюю строку можно и вовсе не показывать. Каждый из четырех программистов будет думать, что он на хорошем счету и его ценят, так как зарабатывает он больше, чем большинство. Единственный, кто будет не очень доволен, — ваш офис-менеджер. Но ведь девушка и раньше понимала, что программисты зарабатывают больше нее. Теперь представим: вы чувствуете, что перегружены работой, и хотите уговорить ваших партнеров, которые не сильны в критическом мышлении, что вам нужно нанять еще сотрудников. Вы можете поступить так же, как в таком случае делают многие компании, и заявить о «прибыли на одного сотрудника», поделив прибыль компании, равную 210 тысячам долларов, на пятерых:
средняя зарплата сотрудника: 66 тысяч долларов;
средняя зарплата владельцев: 100 тысяч долларов;
годовая прибыль на одного сотрудника: 42 тысячи долларов.
Теперь вы можете заявить, что 64 % зарплаты, которую вы выплачиваете своим сотрудникам (42 000 / 66 000), возвращаются к вам в виде прибыли, и это означает, что в итоге, получив прибыль, вы должны будете выплатить только 36 % их зарплат. Конечно, эти данные не свидетельствуют о том, что, наняв еще сотрудников, вы увеличите прибыль. Но в глазах того, кто не очень силен в критическом мышлении, это выглядит как весомый довод для увеличения штата.
А что, если вы хотите выглядеть невероятно честным и справедливым работодателем и показать, что разница между вашей прибылью и зарплатой ваших сотрудников довольно разумна? Возьмите прибыль в 210 тысяч долларов и разделите часть этой суммы, 150 тысяч долларов, в качестве бонуса между собой и своими партнерами. Об оставшихся 60 тысячах вы скажете позже, что это и есть «прибыль». На этот раз подсчитайте среднюю зарплату, включив в эти подсчеты себя и своих партнеров вместе с бонусами:
средняя зарплата: 97 500;
средняя прибыль владельцев компании: 20 тысяч.
А теперь повеселимся по-настоящему:
общие выплаты зарплат плюс бонусы: 840 тысяч;
зарплаты: 780 тысяч;
прибыль: 60 тысяч.
Теперь все выглядит разумно, правда? Из всей суммы в 840 тысяч долларов, включающей зарплату и прибыль, только 60 тысяч, или 7 %, составили личную прибыль владельцев. Ваши сотрудники будут думать, что вы безупречны, — кто станет обвинять владельца компании в том, что он присвоил 7 %? По сути, это ведь не так уж много: 7 % делится между владельцами компании поровну, и каждый получает по 2,3 %. Да тут даже возразить нечего!
А можно придумать и кое-что получше. Представьте, что в первый год существования вашей компании у вас были только сотрудники, работавшие неполный день. Они зарабатывали по 40 тысяч в год. На второй год у вас были только сотрудники, работавшие полный день. И они получали 66 тысяч, о которых говорилось выше. В таком случае вы со всей уверенностью можете заявить, что в среднем заработок каждого сотрудника увеличился на 65 %. Вы — великий предприниматель! Правда, вы замалчиваете тот факт, что сравниваете две несопоставимые вещи: работу на неполный и полный рабочие дни. Могу сказать, что в этом вы не первый: американская корпорация по производству стали U. S. Steel додумалась до этого еще в 1940-х годах.
В уголовном судопроизводстве то, как представлена информация, т. е. фрейминг{2}, оказывает сильное воздействие на мнение присяжных относительно виновности подсудимого. Хотя математически эти два утверждения эквивалентны[17], фраза: «Вероятность того, что обнаруженная на месте преступления кровь совпадет с кровью подозреваемого, если только это действительно не его кровь, составляет всего 0,1 %» (один к тысяче) гораздо убедительнее, чем заявление: «Кровь одного человека из каждой тысячи жителей Хьюстона тоже соответствует найденной».
Средние часто используют для того, чтобы рассказать о результатах, например «один брак из X случаев заканчивается разводом». Но это не означает, что статистика применима к вашей улице, к вашему бридж-клубу или к вашему знакомому. Брак либо закончится разводом, либо нет, но нужно знать определенные факторы уязвимости, чтобы предсказать, кто действительно разведется, а кто нет.
Еще один пример: вы можете прочитать, что один из пяти новорожденных детей — китаец. Вы подмечаете, что у шведского семейства, живущего на вашей улице, уже есть четверо детей, а сейчас они ждут пополнения. Но это не означает, что в семье родится маленький китаец. Среднее значение вычислено по всем рождениям в мире, а не в конкретной семье, в конкретном доме, в конкретном районе или даже стране.
Будьте осторожны со средними, а также с тем, как их интерпретируют. Один из способов ввести в заблуждение, используя средние, — усреднять данные по выборкам из несопоставимых совокупностей. Этот способ может привести к абсурдным выводам, как то:
В среднем у каждого человека одно яичко[18].
Этот пример наглядно показывает разницу между средним арифметическим, медианой и модой. Так как женщин в мире несколько больше, чем мужчин, медиана и мода будут равны нулю, в то время как среднее арифметическое будет близко к единице (возможно, оно будет равно 0,98 или около того).
Кроме этого, нужно быть внимательным и помнить, что среднее ничего не говорит о размахе значений. Средняя годовая температура в Долине Смерти в Калифорнии равна 25 °C, что считается комфортным. Но размах может быть просто убийственным, с колебанием температуры от –9 до 57 °C, — факт, зафиксированный приборами[19].
Или… Я мог бы вам сказать, что в среднем благосостояние сотни людей, находящихся в комнате, составляет колоссальную сумму: 350 миллионов долларов. Вы, наверное, думаете: вот бы отправить туда моих лучших менеджеров по продажам. Но в комнате могут находиться Марк Цукерберг (его состояние оценивается в 25 миллиардов долларов{3}) и 99 бедняков. Таким образом, средний показатель может размыть разницу в важных показателях.
Если вы работаете со средними, остерегайтесь еще бимодального распределения. Вспомните, мода — это то значение, которое встречается чаще всего. Во многих наборах данных — биологических, физических, социальных — у распределения может быть два или больше пиков. А это значит, что два или больше показателей встречаются чаще других.
Например, подобный график может отображать сумму, потраченную на обеды в неделю (ось X), и количество людей, потративших такую сумму (ось Y)[20]. Представьте, что вы изучали две группы людей: детей (левый горб) — они покупают школьные обеды — и руководителей компаний (правый горб) — они ходят в дорогие рестораны. Среднее арифметическое и медиана в данном случае — это числа где-то между этими двумя горбами, и они ничего не скажут нам о том, что происходит на самом деле, — ведь во многих случаях среднее арифметическое и медиана отражают ту сумму, которую никто не тратит. Подобный график говорит лишь о том, что в вашем примере имеет место неоднородность — вы сравниваете яблоки с апельсинами. В таком случае лучше сразу сказать, что вы имеете дело с бимодальным распределением, и сообщить о двух модах. А еще лучше разделить группу на две подгруппы и собрать статистические данные для каждой.
Будьте осторожны, когда будете делать выводы об отдельных людях и о группах, основываясь на средних данных. Тут можно легко наткнуться на определенные подводные камни, которые даже получили собственные названия: «экологическая ошибка» и «ошибка исключения». Экологическая ошибка возникает, если мы делаем выводы об отдельном элементе, основываясь на совокупных данных (таких как средняя величина группы), а ошибка исключения — если делать все ровно наоборот.
Представьте себе, например, два маленьких городка, в каждом из которых живет всего по сотне человек. Девяносто девять жителей города А зарабатывают по 80 тысяч долларов в год, а на земле одной женщины было найдено месторождение нефти, и теперь она одна получает 5 миллионов долларов в год. В городе Б живут 50 человек, которые зарабатывают по 100 тысяч долларов в год, а также 50 человек, которые получают по 140 тысяч долларов. Средний арифметический доход в городе А составляет 129 тысяч долларов, а в городе Б — 120 тысяч долларов. И хотя средняя величина доходов города А больше, в 99 случаях из 100 доход любого жителя города Б, которого вы выберете наугад, будет выше дохода любого случайно выбранного жителя города А. Экологическую ошибку совершают те, кто считает, что если выбрать наугад человека из группы с более высоким средним доходом, то следует ожидать, что и у него доход будет выше. Самое замечательное в этом примере то, что в городе А выше среднее арифметическое, а мода выше в городе B (так бывает не всегда).
Вот еще один пример: считается, что состоятельные люди скорее проголосуют за республиканца, но, как показывает практика, более состоятельные штаты обычно голосуют за демократов. Дело в том, что общая картина благосостояния жителей процветающих штатов может быть немного перекошена из-за суперсостоятельных индивидуумов. Во время президентских выборов 2004 года за кандидата от Республиканской партии Джорджа Буша проголосовали 15 самых бедных штатов, а за кандидата от Демократической партии Джона Керри — девять из 11 самых состоятельных[21]. Если же изучить вопрос более детально, мы увидим, что за Буша отдали голоса 62 % тех, чей годовой доход составляет более 200 тысяч долларов, а за Керри — 36 % голосующих, зарабатывающих в год 15 тысяч долларов или меньше.
Чтобы понять, что такое ошибка исключения, давайте представим себе: вы прочли, что машины марки Volvo считаются самыми надежными, и решили купить такой автомобиль. По дороге в офис этой компании вы проходите мимо механика Volvo и парковки, заполненной машинами этой марки, которые ждут, пока их отремонтируют. Если вы измените свое решение о покупке машины этой марки, основываясь на том, что только что увидели, значит, вы по небольшому числу исключительных данных формируете выводы о целой группе. Никто ведь не говорил, что Volvo вообще не нуждается в ремонте, — скорее речь шла о следующем: вероятность того, что им может понадобиться техническая поддержка, гораздо меньше (отсюда и набившее оскомину предупреждение, которым заканчивается любой рекламный ролик, что «каждая машина индивидуальна»). Обратите внимание, что на вас оказывают огромное влияние и другим образом: единственное место, где должны стоять машины Volvo, требующие ремонта, — автосервис Volvo. Ваш «базовый показатель» сдвинулся, и вы не можете уже считать этот пример случайным.
Сейчас, когда вы уже эксперт по средним, вас не удивит заявление, что 100 лет назад наши предки жили меньше, чем мы сегодня. Возможно, вы читали, что продолжительность жизни в наше время сильно увеличилась. Продолжительность жизни тех, кто родился в 1850 году, была 38 лет для мужчин и 40 для женщин, а у тех, кто родился в 1990-м, она составляет 72 года и 79 лет соответственно[22]. Таким образом, возникает распространенное заблуждение, что в XIX веке было не так много людей в возрасте 50 и 60 лет, потому что они просто не доживали до этого возраста. На самом деле, конечно, доживали — просто детская смертность была такой высокой, что смещала средний показатель. Если человеку удавалось преодолеть возрастной рубеж в 20 лет, то жил он долго. В 1850 году 50-летняя белая женщина могла бы дожить до 73 с половиной лет, а женщина 60 лет — и до 77. По сравнению с 1850-ми годами сейчас продолжительность жизни 50- и 60-летних значительно увеличилась, лет на десять, и произошло это во многом благодаря более качественному здравоохранению.
Но так же, как и в примере с комнатой, полной людей с совершенно разными доходами, изменение средней продолжительности жизни за последние 175 лет отражает большие изменения в структуре населения. В то время уровень детской смертности был гораздо выше, что и снижало среднюю продолжительность жизни. Вот вам парадокс: средний ребенок никогда не рождается в средней семье[23]. Почему? Из-за того, что рассматриваются разные группы. (Я здесь использую понятие «среднее» вместо «среднее арифметическое» из уважения к прекрасной работе, написанной по этой теме Джеймсом Дженкинсом и Терреллом Тьютеном, которые использовали это понятие в заголовке.)
Теперь давайте представим, что вы прочли, будто среднее число детей в семье, живущей где-то в пригороде, равно трем. Скорее всего, вы сделаете вывод, что в среднем у ребенка должно быть двое братьев и сестер. Но это заключение будет неверным. Та же логическая ошибка возникает в случае, если мы спросим, посещает ли средний студент колледжа колледж среднего размера, получает ли средний сотрудник среднюю зарплату или растет ли среднее дерево в среднем лесу. В чем же дело?
Во всех этих случаях меняется точка отсчета — та группа, которую мы изучаем. Когда подсчитывают среднее количество детей в семье, выборка состоит из семей. Независимо от того, большие это семьи или маленькие, все равно это будут семьи. А когда подсчитывают среднее количество братьев и сестер у одного ребенка, выборка состоит из детей. Учитывается каждый ребенок в большой семье; таким образом, количество детей в каждой семье сильно влияет на средний показатель количества братьев и сестер. Иными словами, семья с десятью детьми считается один раз в средней семейной статистике, но десять раз в статистике, отражающей количество братьев и сестер у одного ребенка. Предположим, что в одном районе этой гипотетической общины живут 30 семей. У четырех из них нет детей, в шести — по одному ребенку, в девяти — по два, и в 11 семьях воспитывается по шестеро детей. В среднем в каждой семье по три ребенка, потому что нужно разделить 90 (общее количество детей) на 30 (общее количество семей).
Но давайте посмотрим на среднее число братьев и сестер у одного ребенка. Мы часто допускаем ошибку, думая, что если в среднем в семье по три ребенка, то у каждого из них должно быть двое братьев или сестер. Но в семьях с одним ребенком на каждого из шести детей приходится ноль братьев и сестер. В семьях с двумя детьми на каждого из 18 детей приходится по одному брату или сестре. В семьях с шестью детьми на каждого из 66 детей приходится пять братьев и сестер. У 90 детей, выходит, 348 братьев или сестер. Следовательно, хотя средний ребенок воспитывается в семье с тремя детьми, на 90 детей приходится 348 братьев и сестер, или в среднем приблизительно четыре брата или сестры на ребенка.
Семей | Детей в семье | Всего детей | Братьев и сестер | |
4 | 0 | 0 | 0 | |
6 | 1 | 6 | 0 | |
9 | 2 | 18 | 18 | |
II | 6 | 66 | 330 | |
Всего | 30 | 90 | 348 |
Среднее количество детей на семью: 3,0
Среднее количество братьев и сестер на ребенка: 3,9[24]
Четыре семьи, в которых нет детей
Шесть семей с одним ребенком — шесть детей, у которых ноль братьев и сестер
Девять семей, в которых два ребенка, — 18 детей, у которых один брат или сестра
11 семей с шестью детьми — 66 детей, у которых пять братьев и сестер
А теперь давайте рассмотрим пример с колледжами. В Соединенных Штатах множество крупных колледжей (например, колледж в штате Огайо или в штате Аризона), где учится более 50 тысяч студентов. Есть также и не такие большие колледжи, где учится менее 3 тысяч студентов (например, Кеньон-колледж или Уильямс-колледж). Если мы включим в наши подсчеты еще и школы, то получим, что в колледже среднего размера учится 10 тысяч студентов. Но если подсчитать количество студентов, то получится, что средний студент ходит в колледж, где учится более 30 тысяч студентов. Это происходит потому, что при подсчете студентов мы получим гораздо больше данных из крупных школ. Схожим образом можно сделать вывод, что средний человек не живет в среднем городе, а средний гольфист не делает среднее число ударов для прохождения площадки с 18 лунками.
Во всех этих примерах меняется изучаемая группа, а потому меняется знаменатель при вычислении среднего арифметического. Рассмотрим еще один пример асимметричного распределения вроде того, с которым мы встретились, обсуждая детскую смертность: средний инвестор не получает средний доход[25].
В одном исследовании средний доход от инвестиции 100 долларов на срок 30 лет составил 760 долларов, или 7 % в год. Но 9 % инвесторов потеряли деньги, а огромному числу инвесторов, 69 %, не удалось достигнуть показателя среднего дохода. Так случилось потому, что среднее арифметическое было смещено из-за нескольких человек, заработавших больше среднего. На графике, предложенном ниже, среднее арифметическое смещено вправо благодаря тем счастливчикам, которым удалось заработать состояние.
Доходность инвестиции в 100 долларов через 30 лет. Обратите внимание: большинство людей получили доход меньше среднего арифметического, а немногие счастливчики — в пять раз больше среднего.
Махинации с осями координат
Человеческий мозг не развит настолько, чтобы обрабатывать большие объемы информации в виде текста, зато наши глаза автоматически ищут шаблоны и схемы в данных, представленных визуально. Самый точный, хотя и не самый простой для трактовки способ представить числовую информацию — составить таблицу, включив в нее все имеющиеся данные. Но для большинства людей сложно — если не сказать невозможно — обнаружить в этом массиве информации какие-то закономерности или тенденции, поэтому мы полагаемся на схемы и графики. Последние бывают двух видов: они либо показывают каждую точку данных (как в графике рассеяния), либо каким-то образом преобразуют данные, обобщают их, фокусируясь при этом, например, только на средних или медианах.
Есть много способов использовать графики для манипуляции и искажения данных. Но человек, которому свойственна осторожность, постарается не попасть впросак.
Необозначенные оси координат
Основной способ манипуляции с помощью статистических графиков — не обозначать оси координат. Если оси никак не названы, вы можете выдумать что угодно. Вот пример, взятый с плаката, который один студент-исследователь показывал на конференции[26]. Выглядел этот график таким образом (я его просто перерисовал):
Что все это значит? Из текста, приведенного на самом постере (а вовсе не на этом графике), нам известно, что специалисты исследуют активацию головного мозга пациентов, страдающих шизофренией (Ш). А что же такое КЗЗ? Нам не говорят, но из контекста — КЗЗ постоянно сравнивают с Ш — мы можем предположить, что это означает «контроль за здоровьем». Кажется, между КЗЗ и Ш должна быть разница, но… эм-м-м… на оси Y отмечены числа, и… единицы измерения могут быть какими угодно! Что мы видим? Результаты теста, уровни активации мозга, количество активированных зон мозга? Количество стаканчиков пудинга Jell-O, которые съели испытуемые, или количество фильмов с Джонни Деппом, которые они посмотрели за последние шесть недель? (Справедливости ради, исследователь позже опубликовал свои заключения в экспертном журнале и исправил все недочеты, на которые ему указали.)
В следующем примере график отображает брутто-продажи одного издательства, за исключением данных с платформы Kickstarter[27].
Как и в предыдущем примере (хотя в данном случае мы говорим об оси X), отмечены числа, но нам не сообщают, что они обозначают. Хотя в данном случае это и так очевидно: мы предполагаем, что 2010, 2011 и т. д. относятся к календарному или финансовому{4} году, а тот факт, что линия между годами не гладкая, говорит о том, что данные отслеживаются ежемесячно (но, не имея нормальных подписей, мы это можем только предполагать). Оси Y нет совсем, поэтому мы не знаем, что конкретно тут замеряется (это проданное количество экземпляров или доллары?), а также не знаем, что означает каждая из горизонтальных линий. График может отражать рост продаж как с пяти центов до пяти долларов за год, так и с 50 миллионов до 500 миллионов долларов за год. Но не нужно беспокоиться — график сопровождало очень полезное примечание: «Это был еще один великолепный год». Думаю, нам просто нужно поверить им на слово.
Усеченная вертикальная ось
Продуманный график четко показывает наиболее значительные крайние точки всего множества. Это особенно важно, если вы документируете текущие или проектируемые количественные изменения и хотите, чтобы читатели сделали правильные выводы. Если вы отражаете в графике уровень преступности, смертности, рождаемости, дохода — или любое иное количественное множество, которое может принимать нулевое значение, — тогда ноль должен быть минимальной точкой отсчета. Но если ваша цель — посеять панику или ужас, начните свой график поближе к нижней границе значений, это подчеркнет разницу, которую вы пытаетесь выделить, потому что наш глаз привлекает разница, показанная на графике, а настоящий ее размер остается незамеченным.
В 2012 году Fox News показали приведенный ниже график, чтобы показать, что могло бы случиться, если бы снижение налогов, задуманное Бушем, не состоялось[28].
Этот график создает визуальное впечатление, что размер налогов возрос бы, и намного: столбик справа в шесть раз выше столбика слева. Но кто захочет платить в шесть раз больше? Если на график посмотрит человек, который панически боится цифр (или просто взглянет на него мельком), он может и не рассмотреть оси и не заметить, что речь идет о разнице между налоговой ставкой в 35 % и 39,6 %. А это значит, что если налоги не снижать, то они вырастут всего на 13 %, а не на 600 %, как показано на картинке (увеличение процентных пунктов на 4,6 составляет 13 % от 35 %).
Если бы ось Y начиналась с нуля, мы бы обязательно заметили эти 13 %:
Разрыв вертикальной и горизонтальной осей[29]
Представьте себе город, в котором за последние десять лет уровень преступности неуклонно растет на 5 % в год.
Вроде бы ничего необычного. А теперь представьте, что вы занимаетесь продажами домашних сигнализаций и хотите немного напугать потенциальных клиентов, чтобы продать им свой товар. Используя все те же данные, просто прервите график по оси X. Это исказит действительность и волшебным образом обманет покупателей:
При взгляде на этот график создается впечатление, что уровень преступности сильно увеличился. Но вам-то лучше знать. Разрыв оси X вмещает цифры за пять лет в такой же промежуток, на который раньше приходилось два года. Неудивительно, что мы видим существенное увеличение. Это большой недочет в построении графика, но большинство читателей не утруждают себя разглядыванием осей, для них сойдет и так.
И вам совсем не нужно ограничивать свою креативность и довольствоваться разрывом оси X — вы можете добиться того же эффекта, разорвав и ось Y тоже, а потом скрыть содеянное, не прерывая линии. Вот посмотрите, как мы сделаем разрыв оси Y:
Конечно, это нечестно. Большинство читателей смотрят только на кривую и не замечают, что по вертикальной оси сначала отметки сделаны с интервалом в 40 сообщений о преступлении, а после числа 200 между соседними помещается только по восемь сообщений. Нам все еще весело?
По-хорошему, мы должны взять первый график с нормальными осями. Желая критически оценить данные, вы, возможно, захотите спросить, какие факторы повлияли на отбор и изображение данных.
Одно из объяснений может быть таким: рост преступности наблюдается в каком-то конкретном районе, известном своей неспокойной обстановкой, — а по всему городу уровень преступности уменьшается. Возможно, полиция и местная общественность просто решили, что в этом конкретном районе очень сложно навести порядок, и потому прекратили обеспечивать там соблюдение законов. Город же в целом достаточно безопасное место — может, даже безопаснее, чем когда бы то ни было, а преступность растет из-за одного злачного района.
Другой вариант: сводя воедино самые разные жалобы на преступников к одному показателю, мы упускаем одно серьезное соображение. Возможно, количество серьезных преступлений снизилось практически до нуля и, располагая большим количеством времени, полиция с особым рвением принялась выписывать штрафы за переход улицы в неположенном месте.
Может, желая понять, что же такое на самом деле статистика, будет логично спросить: «А как изменилось в этот промежуток времени население в этом городе?» Если оно увеличивалось больше, чем на 5 % за год, уровень преступности, измеряемый числом преступлений на одного жителя, на самом деле должен был снизиться, из расчета коэффициента преступности на человека. Мы можем проиллюстрировать свою мысль, отметив количество преступлений, приходящихся на 10 тысяч жителей этого города:
Как выбрать правильный масштаб и ось[30]
Вас нанял на работу местный риелтор, который хочет, чтобы вы составили график изменений цены на дома в вашем районе за последние десять лет. Цены устойчиво растут на 15 % в год.
Если вы хотите встревожить людей по-настоящему, почему бы тогда не изменить ось X, чтобы включить годы, по которым у вас нет данных? Добавив дополнительные показатели на оси X, как показано на рисунке, вы увеличите наклон кривой, изменив масштаб по оси X следующим образом:
А теперь обратите внимание, как легко такой график обманывает ваш глаз (на самом деле, конечно, мозг). И вот вы уже делаете два неверных вывода: первый — что когда-то, около 1990 года, цена на дом, должно быть, была очень низкой, а второй — что к 2030 году она будет такой высокой, что лишь немногие смогут позволить себе покупку. А значит, лучше бы купить дом уже сейчас!
Оба графика искажают реальную ситуацию: кажется, что темп роста увеличивается, в то время как он (темп) остается постоянным. На первом графике рост в 15 % кажется в два раза больше на оси Y в 2014 году, нежели в 2006-м. Многое меняется с постоянной скоростью: зарплаты, цены, уровень инфляции, численность популяции, число заболевших[31]. Если же вы наблюдаете постоянный рост (или снижение) чего-либо, наиболее точно данные отобразить можно на логарифмической шкале. Она устроена так, что постоянное изменение на одно и то же число процентов изображается равными промежутками по оси Y. А постоянная годовая скорость изменений потом выглядит как прямая линия, посмотрите:
Двойная ось Y, внушающая страх
Тот, кто строит график, может легко скрыть любую ложь, предвидя, что большинство тех, кто его увидит, не будут всматриваться очень уж пристально. Благодаря этому можно легко заставить огромное количество людей поверить в самые невероятные вещи. Возьмем, например, нижеприведенный график, на котором отражена ожидаемая продолжительность жизни курильщиков и тех, кто не курит, в возрасте 25 лет[32].
График проясняет две вещи: опасность, которой подвергается курильщик, увеличивается со временем, и потому есть большая вероятность, что он умрет раньше того, кто не курит.
Разница невелика для возраста 40 лет, но риск не дожить до 80 лет для курильщика увеличивается более чем вдвое — с менее чем 30 % до более 60 %. Это честный и точный способ представить данные графически. Но представьте, что вы 14-летний курильщик, который хочет уговорить родителей разрешить ему курить. В таком случае этот график вам не поможет. Придется покопаться в своем мешке с реквизитом фокусника и выудить оттуда двойную ось Y. Справа появится еще одна ось, числа на ней совсем не такие, как слева, и относятся лишь к тем, кто не курит. Как только вы это сделаете, график будет выглядеть вот так:
Теперь все выглядит так, словно вероятность умереть от курения у вас такая же, как и по любой другой причине. Не курение будет источником ваших бед — а ваш возраст! Самая большая сложность с такими графиками, в которых используются двойные оси Y, заключается в том, что вы всегда можете разметить вторую ось любым удобным для себя способом.
В журнале Forbes, весьма авторитетном издании, внушающем доверие, приводится очень похожий график, отражающий связь расходов на учащихся средней школы и их баллов по тесту SAT[33] {5}. Это очень распространенный в США стандартизированный тест для приема в высшие учебные заведения.
На графике все выглядит так, словно увеличение расходов на ученика (черная кривая) никоим образом не влияет на увеличение баллов по SAT (серая кривая). Некоторые оппозиционно настроенные политиканы могут утверждать, что это деньги налогоплательщиков, выброшенные на ветер. Теперь вы понимаете, что выбор разметки для второй оси Y (по правой стороне) ничем не обоснован. Если бы вы были школьным администратором, то, возможно, просто взяли бы те же самые данные, изменили разметку на оси справа — и готово! Налицо увеличение расходов, которое обеспечивает более качественное образование (как следует из увеличения баллов за тест!).
Этот график, однако, отображает принципиально другую историю. Какой из них не лжет? Чтобы это понять, нужно измерить, насколько меняется одна переменная при изменении другой. Для этого есть показатель, известный как корреляция. Корреляции варьируются от –1 до 1. Корреляция 0 означает{6}, что одна переменная совсем не связана с другой. Корреляция –1 означает, что, когда одна переменная идет вверх, другая абсолютно синхронно идет вниз. Корреляция 1 означает, что, когда одна переменная идет вверх, вторая делает то же самое, тоже абсолютно синхронно. Кажется, первый график иллюстрирует корреляцию 0, второй — ту, что очень близка к 1. Фактическая корреляция для этого набора данных равна 0,91 — и это очень сильная корреляция. Повышенные расходы на студентов, по крайней мере в этом наборе данных, ассоциируются с лучшими показателями при выполнении тестов SAT.
С помощью корреляции можно{7} также оценить, в какой степени результат объясняется с помощью представленных переменных[34]. Корреляция 0,91 говорит о том, что мы можем объяснить 91 % студенческих баллов за тест SAT, посмотрев на количество школьных расходов на каждого студента. А значит, можем понять, насколько расходы объясняют разнообразие баллов SAT.
Осенью 2015 года в США во время заседания комитета Конгресса развернулась полемика, касающаяся графиков с двойной осью Y. Джейсон Чаффец представил график, отображающий две услуги, предоставляемые организацией Planned Parenthood, — аборты, а также скрининг и профилактику рака[35]:
Конгрессмен пытался донести мысль, что за семилетний период организация Planned Parenthood увеличила количество абортов (против чего он выступал) и снизила количество скринингов рака и профилактических процедур. Planned Parenthood этого не отрицала, но из-за искаженного графика кажется, что количество абортов превышает количество процедур, связанных с лечением рака. Возможно, тот, кто составлял график, чувствовал за собой вину и поэтому привел не только линии, но и актуальные числовые данные. Давайте посмотрим внимательнее. Количество абортов, сделанных за 2013 год (и на этом график заканчивается), равно 327 тысячам. А медицинских услуг, связанных с диагностированием и лечением рака, было оказано почти в три раза больше, 935 573. (Кстати, подозрительно, почему данные по абортам выражаются округленными числами, а те, что касаются рака, так точны.) Тут у нас особенно коварный случай: подразумевается, что на графике две оси Y, но обе они не изображены!
Если построить график как следует, получится вот так:
Мы видим, что количество абортов увеличилось очень незначительно, если сравнивать с сокращением услуг по диагностированию и лечению рака.
Есть еще кое-что, что вызывает подозрения в оригинальном графике: редко когда можно встретить столь ровные линии. Такое ощущение, что составитель графика просто взял данные за два определенных года, 2006-й и 2013-й, и сравнил их, соединив прямой линией. Возможно, два этих года были выбраны специально, чтобы усилить разницу. А может, в промежутке между 2007-м и 2012-м существовали большие колебания — нам это неизвестно. Ровные линии создают впечатление идеальной линейной (прямая линия) функции, что маловероятно.
Подобные графики не всегда отображают правдивые истории. Есть ли что-нибудь, что могло бы объяснить приведенные данные, помимо рассказа о том, что Planned Parenthood хочет провести как можно больше абортов (и в то же время позволяет людям умирать от рака)? Посмотрите на второй график. В 2006 году организация Planned Parenthood провела 2 007 271 исследование раковых опухолей и сделала 289 750 абортов, что примерно в семь раз меньше. К 2013 году эта разница сократилась, но количество раковых исследований все равно было примерно в три раза больше.