Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры Эйден Эрец
Разумеется, с помощью n-грамов мы измеряем не славу саму по себе, а упрощение, некое факсимиле славы. Давайте пока что назовем это словом «флава». Нам предстоит ответить на вопрос, достаточно ли четко «флава» отражает подлинную славу, чтобы служить нам в качестве аэродинамической трубы?
Давайте начнем изучение этого вопроса со взгляда на Чарльза Диккенса, одного из самых знаменитых английских писателей. Его первое произведение, «Записки Пиквикского клуба», начиналось в 1836 году как сериал – то есть книга, публиковавшаяся по частям в периодических изданиях. После начала публикации «Записок» 2-грам «Чарльз Диккенс» начинает появляться все чаще. Подобно знаменитому самолету братьев Райт, «флава» Диккенса начала стабильно набирать высоту по мере того, как он последовательно создавал бестселлер за бестселлером, в том числе «Оливера Твиста» (1837), «Рождественскую песнь» (1843), «Дэвида Копперфильда» (1849), «Повесть о двух городах» (1859) и «Большие надежды» (1860). Влияние этих работ на культуру было огромным. Считается, что именно «Рождественская песнь» сделала популярным поздравление «Веселого Рождества», и это вполне соответствует данным n-грамов.
Как и в случае с Дикинсон, смерть Диккенса в 1870 году не привела к угасанию его «флавы». Вместо этого она взвилась до небес, а новости о его уходе из жизни заставили людей вновь восхититься его гением. За несколько десятилетий после смерти частота упоминания его имени достигла пика. Однако к 1900 году 2-грам «Чарльз Диккенс» начал медленное снижение. Несмотря на свою невероятную «популярность» даже в наши дни, интенсивность научного изучения его творчества и включение книг Диккенса в школьную программу, «флава» Диккенса начала плавно угасать в течение последнего столетия.
Добавив выражение «Чарльз Диккенс» в нашу аэродинамическую трубу, мы получили интересные результаты, позволяющие вполне точно измерить степень общественного интереса, возникшего к работам Диккенса.
Однако все не так просто. Наш пример также помогает определить расхождения между «флавой», измеренной с помощью книг, и славой, отраженной в наших интуитивных представлениях о культурной важности. Все измерительные приборы допускают ошибку. Чтобы лучше понять происходящее, нужно узнать больше о теории анализа ошибок, хорошо развитой области статистики, изучающей ошибки и проблемы измерений.
Статистики различают два типа ошибок, которые может совершить измерительный прибор. Первый тип называется случайной ошибкой и связан с колебаниями, которые возникают даже в случаях, если объект измерения не меняется. Такие ошибки видны в форме небольших пиков и долин в расчетах «флавы» (несмотря на их частое появление, они порой не имеют никакого смысла). Хорошая новость относительно случайных ошибок заключается в том, что, несмотря на все колебания, значение обычно остается близким к истинному.
Сложнее дело обстоит с так называемыми систематическими ошибками. Обычно они приводят к перекосу измерений в одном направлении (увеличивая или уменьшая результат). Например, наша процедура для измерения «флавы» основана на поиске имени человека. Однако это позволяет выявить лишь часть всех упоминаний. К примеру, отслеживая частоту фразы «Чарльз Диккенс», мы упускаем из внимания случаи, когда люди описывают его как «Диккенса», «Чарли» или «этого зануду». Не будут включены в результаты и описания Диккенса как автора «Записок Пиквикского клуба» или «мужа Кэтрин Хогарт». И, разумеется, мы не сможем добавить туда и случаи, когда кто-то хочет почтить память Диккенса, цитируя любимую строчку из его книги, описывая трюк иллюзиониста Дэвида Копперфильда или просто используя фразу «Веселого Рождества».
Отличной иллюстрацией проблемы, связанной с выявлением каждого упоминания Диккенса, был случай, когда Майкла Стила, кандидата на пост руководителя национального комитета Республиканской партии, попросили во время телевизионных дебатов 2011 года назвать свои любимые книги. Ответ Стила был на редкость неловким: «„Война и мир“… это было самое прекрасное время, это было самое злосчастное время». Цитата принадлежит Диккенсу, и с нее начинается «Повесть о двух городах». Однако «Война и мир» написана Львом Толстым. Так имел ли Стил в виду Диккенса или нет? [123]
Подобная ситуация – когда мы пренебрегаем чем-то, что в идеале хотели бы включить в расчет, – носит название «систематической ошибки» или, выражаясь профессиональным языком статистиков, ситуации «ложного отрицания». В результате действия этого ложного отрицания показатель «флавы» обычно оказывается значительно меньше, чем истинная частота упоминаний о человеке.
Существует и еще один тип систематической ошибки, называемый «ложноположительной». Она возникает, когда мы включаем в расчеты то, чего включать не должны. К примеру, слова «Чарльз Диккенс» могут относиться и к старшему сыну Диккенса – писателю Чарльзу Диккенсу-мл.; его внуку Джеральду Чарльзу Диккенсу; двум из его правнуков – Седрику Чарльзу Диккенсу и Питеру Джеральду Чарльзу Диккенсу или же к актеру Джеральду Чарльзу Диккенсу (праправнуку писателя). С точки зрения расчета «флавы», все это будет относиться к патриарху семьи. Однако статистики знают, что тут-то и кроется опасность. Никакой статистик не понимает этого лучше, чем преподаватель Университета штата Калифорния в Беркли по имени Майкл И. Джордан. Чтобы понять, почему это так, вбейте в Google поисковый запрос «Майкл Джордан статистика» (Michael Jordan statistics).
Однако нам предстояло заняться еще более сложными статистическими проблемами, связанными с нашим измерительным прибором.
Обратимся к 1936 году. В этом году родились многие знаменитые люди, например Роберт Рэдфорд и Вацлав Гавел.
Рэдфорд – настоящая голливудская звезда. За последние пятьдесят лет он сыграл массу известных ролей в таких фильмах, как «Из Африки», «Афера» и «Вся президентская рать». Его внешность, почти не меняющаяся с годами, превратила его в одного из самых любимых и известных во всем мире деятелей культуры.
Вацлав Гавел представляет собой иной тип знаменитости. Он был тихим драматургом, который увел Чехословакию прочь от коммунизма, во времена «бархатной революции». Через четыре года он возглавил процесс мирного разделения Чешской и Словацкой республик. Гавел – одна из самых знаменитых политических и литературных фигур XX века.
Оба они входят в число 10 людей, родившихся в 1936 году и обладающих самым высоким уровнем «флавы». При этом ни один из них не занимает лидирующей позиции. Кто же оказался человеком с наибольшим показателем «флавы» из родившихся в 1936 году? Женщина по имени Кэрол Гиллиган[124].
Гиллиган – психолог и знаменитая феминистка, которая после проведения своих революционных исследований стала преподавать в Гарварде, Кембридже, а теперь еще и в Университете Нью-Йорка. Как и Пинкер, она входит в список самых влиятельных американцев, составленный журналом Time. Кэрол – настоящая интеллектуальная суперзвезда. И книг с упоминанием Кэрол Гиллиган написано много, значительно больше, чем о Вацлаве Гавеле или Роберте Рэдфорде. Если бы «флава» и слава были одним и тем же, то именно эта ученая дама была бы самым прославленным представителем своего поколения.
Но давайте будем реалистами. Кэрол Гиллиган знаменита не больше, чем Роберт Рэдфорд. О ней больше говорят в книгах, поскольку она представляет тип личности, интересный для создателей книг, – научная знаменитость и социальный критик. Однако она совсем не тот человек, события из жизни которого могли бы ежедневно освещаться в прессе. Ее портрет вряд ли будет висеть на рекламных щитах, и перед ней вряд ли будут преклоняться девочки-подростки.
Проблема состоит в том, что «флава» не отражает более масштабную картину. Если бы мы приняли во внимание упоминания в выпусках телевизионных новостей, рассказы в таблоидах и на интернет-сайтах, посвященных знаменитостям, или беседы в офисах во время перекуров, то было бы очевидно, что Гавел и Рэдфорд смогут затмить Гиллиган, причем с большим перевесом. Гиллиган занимает лидирующие позиции благодаря тому, что статистики называют ошибкой выборки, – аспект культуры, который мы измеряем с помощью «флавы», дает ей несправедливое преимущество. Это не подлинная слава.
Наша аэродинамическая труба не лишена своих недостатков. Однако они не уникальны. Они вполне вписываются в классическую ошибку, присущую любым измерительным инструментам, с которой ученые и статистики имели дело в течение десятилетий. Помня об этом несовершенстве, мы наверняка сможем разработать более качественные инструменты в будущем.
Связь между «флавой» и подлинной славой отлично иллюстрирует наш общий подход. Привычное для повседневной жизни понятие славы слишком сложно и слишком неточно, чтобы подчиняться количественному анализу. Поэтому мы ищем что-то, что можем измерить (например, «флаву»), и стараемся оставаться максимально близко к изначальной концепции. Результатом становится компромисс – мы создаем своего рода имитатора знаменитости, которого используем в роли подопытного кролика и подвергаем тщательно продуманным экспериментам. Как только в нашем распоряжении появятся более обширные массивы данных, включающие информацию из таблоидов, журналов и научных статей, измеряемая нами «флава» станет уже ненужной и вместо нее будут использоваться более изощренные альтернативы. Аэродинамическая труба Райтов не выдерживает никакого сравнения с турбинами LenSx, создающими поток ветра со скоростью 30 М для тестирования новых космических аппаратов.
Но пока что «флава» вполне подходит для наших целей. И теперь для упрощения давайте больше не будем говорить об этом различии, а станем просто использовать в дальнейшем рассказе слово «слава», ведь «почти знаменитый» – это «достаточно знаменитый».
Итак, что же мы, вооружившиеся новой аэродинамической трубой, можем узнать об аэродинамике взлета личности и механике приземления обратно?
Слава как болезнь
Начав изучать славу с помощью данных n-грамов, мы быстро поняли, что каждая история отличалась от других. Мы попытались найти общие закономерности, однако результаты оказывались довольно противоречивыми и не поддающимися объяснению. По сути, мы просто застряли в бездонной яме с данными.
Чтобы понять, почему это произошло, нам нужно совершить путешествие во времени в 1930 год и попасть в небольшой норвежский городок под названием Кристиансанн. Живший там доктор по имени Кристиан Андворд пытался победить эпидемию, преследовавшую его пациентов и всю страну в целом. Андворд изучал туберкулез, от которого Норвегия страдала в невиданных для наших дней масштабах. К примеру, в норвежском городе Тронхейм более 1% детей, родившихся между 1887 и 1891 годами, умерло от туберкулеза на первом же году жизни. Туберкулез стал причиной смерти половины детей в возрасте между 11 и 15 годами.
При этом стала заметной довольно примечательная тенденция. От десятилетия к десятилетию средний возраст жертв туберкулеза в Норвегии увеличивался. В чем же была причина?
У Андворда (или, по другой версии, у работавшей с ним медсестры) возникла идея. Вместо того чтобы изучать протекание болезни по всей совокупности населения, он разбил его на «когорты», то есть группы людей, родившихся примерно в одно время[125]. Преимущество этого подхода состояло в том, что, учитывая год рождения, Андворду легче было отсекать различные вводящие в заблуждение факторы, такие как голод, от которого могло страдать лишь одно поколение детей. Основной недостаток этого подхода состоял в том, что он требовал значительно большего объема данных, чем те, которые можно было собрать в небольшом городке Кристиансанн.
Андворд, как и Ципф, отправился на поиски данных. К счастью для него и всей истории медицины, норвежское правительство прилагало серьезные усилия для ведения статистики по смертности. Андворд смог получить правительственные данные, охватывавшие период с 1896 по 1927 годы. Он дополнил результаты по Норвегии массивами данных из Англии, Уэльса, Дании и Швеции. Вооружившись всей этой информацией, Андворд стал задавать простые вопросы, волновавшие его прежде, и получать на них ответы. Например, в каком возрасте чаще умирали от туберкулеза люди, родившиеся в 1900 году (когорта 1900 года)? Как это соотносилось с данными когорты 1910 или 1920 года?
Полученные им ответы поражали. Судя по ним, жертвы заболевания могли (вне зависимости от своего года рождения) столкнуться с туберкулезом в возрасте между 5 и 14 годами или в период от 20 до 24 лет. Проведенный Андвордом анализ когорт показал, что туберкулез – это прежде всего болезнь молодых.
Но почему же, если взглянуть на все население, средний возраст жертв туберкулеза увеличивался? Ответ на этот вопрос был получен после того, как Андворд изучил общие данные по заболеваниям – точнее, вероятность того, что член определенной когорты (молодой или старый) в какой-то момент своей жизни умрет от туберкулеза. Когда Андворд принялся изучать все более молодые когорты, он обнаружил, что количество смертельных случаев стабильно уменьшалось. Норвежцы, рожденные в 1920 году, имели меньше шансов столкнуться с туберкулезом в течение своей жизни, чем норвежцы, родившиеся в 1910-м (у которых, в свою очередь, было меньше шансов заболеть, чем у норвежцев, родившихся в 1900 году, и так далее).
Это открытие заставило его взглянуть на возраст по-новому. Дело было не в том, что болезнь распространилась на людей старшего возраста. Андворд сделал вывод о том, что люди, родившиеся раньше, были более уязвимы к заболеванию туберкулезом в течение своей жизни. Немедленным последствием его выводов стала настоящая медицинская «бомба» – молодые норвежцы все лучше противостояли туберкулезу от поколения к поколению. По сути, эпидемия действовала, как убийственная, но очень эффективная кампания по вакцинации. Хотя вывод Андворда был неожиданным и поразительным, он оказался при этом совершенно верным. Но его наследие не ограничилось этим. Метод исследования когорт Андворда превратился в важнейший научный инструмент в области эпидемиологии и общественного здоровья. Идеи Андворда успешно срабатывают каждый раз, когда у нас появляется возможность изучить обширные массивы данных, касающихся состояния здоровья общества. Благодаря Андворду (или, возможно, его медсестре) мы узнали о связи между высоким кровяным давлением и сердечно-сосудистыми заболеваниями, курением и раком легких, уровнем сахара в крови и диабетом, а также о десятках тысяч других корреляций, заставляющих нас испытывать чувство вины при любом нарушении режима питания.
Подобно исследованиям туберкулеза, исследования славы пронизаны массой фактов и идей, связанных с различиями между поколениями. Например, изобретение Интернета оказало огромное влияние на то, как люди становятся знаменитыми. В нашем изначальном исследовании подобные факторы практически не позволяли увидеть, что же происходит на самом деле.
Наконец мы сделали то, что сделал бы любой хороший ученый, ищущий данные. Мы спросили себя: WWAD (What Would Andvord Do – «Что бы сделал Андворд»)? Внезапно нам стало понятно – мы должны использовать метод когорт, то есть относиться к славе как к болезни.
Зал славы
В то время мы только что познакомились с Адрианом Вересом[126]. Этот по-настоящему талантливый старшекурсник кое-что знал о мировой славе – он получил первый приз на международной научной и инженерной выставке, проводившейся при поддержке компании Intel, после чего в его честь была названа одна малая планета (921758 Adrianveres).
Работая с Адрианом, мы занялись созданием когорт, состоявших из представителей каждого поколения, серьезно прославившихся, – людей уровня Марка Твена, Ганди или Рузвельта. Мы решили заняться изучением людей, рожденных в промежутке между 1800 и 1950 годами. Взяв более ранний период, мы столкнулись бы с ситуацией низкого качества данных. А взяв более поздний период, мы не смогли бы отслеживать славу в течение достаточно длительного времени – зачастую человек, рожденный в 1950 году, становился знаменитым лишь в 80-е или даже 90-е, так что у нас было бы слишком мало данных для анализа по годам. Адриан проанализировал данные сотен тысяч людей, изучая частоту упоминания их полных имен (к примеру, «Марк Твен»). Для каждого года за период между 1800 и 1950 годами он составил список из пятидесяти самых знаменитых людей, родившихся в том же году. Это была крайне впечатляющая работа с учетом того, что на родной планете Адриану исполнилось всего шесть лет[127]. Если приравнять известность к болезни, то списки Адриана содержали 7500 наиболее пострадавших жертв недуга[128].
Группы представляли собой крайне интересную выборку людей, шедших к славе совершенно разными путями[129]. Возьмем, к примеру, когорту или класс 1871 года. Пятьдесят самых знаменитых людей, родившихся в 1871 году, включали в себя Орвилла Райта, нашего вдохновителя, ставшего знаменитым после того, как научился летать. Эрнест Резерфорд стал знаменитым за свои выдающиеся научные эксперименты, доказавшие существование атомного ядра. А Марсель Пруст стал знаменитым благодаря своему писательскому таланту.
Чемпионом класса 1871 года – то есть самым знаменитым человеком, родившимся в 1871 году, – был Корделл Халл. Никогда не слышали этого имени? В наши дни он почти неизвестен, однако в дни своей славы Халл считался поистине титанической фигурой. Этот сенатор США со временем стал госсекретарем и прослужил на этом посту дольше, чем кто-либо другой. Его 11 лет работы с президентом Франклином Делано Рузвельтом совпали, помимо прочего, с годами Второй мировой войны. Халл играл огромную роль в создании ООН и получил за свои усилия Нобелевскую премию мира. Рузвельт называл Халла «отцом Организации Объединенных Наций». Да, у этого класса был по-настоящему крупный чемпион.
Практически в каждом классе можно встретить примеры потрясающих биографий. Так, в класс 1904 года входят чилийский поэт Пабло Неруда, художник-сюрреалист Сальвадор Дали и Роберт Оппенгеймер, лидер «Манхэттенского проекта», создавшего первую атомную бомбу. Его чемпион – китайский лидер Дэн Сяопин. Чемпионом 1899 года был Эрнест Хэмингуэй; но кроме него в классе были аргентинский писатель Хорхе Луис Борхес, актеры Фред Астер и Хамфри Богарт, легендарный режиссер Альфред Хичкок и гангстер Аль Капоне. Думается, что вы бы вряд ли отказались от предложения пойти на званый ужин с представителями этого класса.
В списке ниже перечислено 150 чемпионов. Давайте посмотрим, много ли имен вы сможете узнать. Это можно считать самым объективным тестом по истории, какой только бывает. Имена в списке никак не отражают ни нашего мнения о том, кого вы должны знать, ни мнений преподавателей мировой истории или научных авторитетов. Вместо этого они отражают совокупное мнение всех, кто когда-либо писал книгу на английском языке, начиная с 1800 года[130].
1800 Джордж Бэнкрофт
1801 Бригам Янг
1802 Виктор Гюго
1803 Ральф Уолдо Эмерсон
1804 Жорж Санд
1805 Уильям Ллойд Гаррисон
1806 Джон Стюарт Милль
1807 Луи Агассис
1808 Наполеон III
1809 Авраам Линкольн
1810 Лев XIII
1811 Хорас Грили
1812 Чарльз Диккенс
1813 Генри Уорд Бичер
1814 Чарльз Рид
1815 Энтони Троллоп
1816 Расселл Сейдж
1817 Генри Дэвид Торо
1818 Карл Маркс
1819 Джордж Элиот
1820 Герберт Спенсер
1821 Мэри Бэйкер Эдди
1822 Мэттью Арнольд
1823 Голдвин Смит
1824 Стоунволл Джексон
1825 Бейярд Тейлор
1826 Уолтер Бэджет
1827 Чарльз Элиот Нортон
1828 Джордж Мередит
1829 Карл Шульц
1830 Эмили Дикинсон
1831 Сидящий Бык
1832 Лесли Стивен
1833 Эдвин Бут
1834 Уильям Моррис
1835 Марк Твен
1836 Брет Гарт
1837 Гровер Кливленд
1838 Джон Морли
1839 Генри Джордж
1840 Неистовый Конь
1841 Эдуард VII
1842 Альфред Маршалл
1843 Генри Джеймс
1844 Анатоль Франс
1845 Элиу Рут
1846 Буффало Билл
1847 Эллен Терри
1848 Грант Аллен
1849 Эдмунд Госсе
1850 Роберт Льюис Стивенсон
1851 Оливер Лодж
1852 Брэндер Мэттьюз
1853 Сесил Родс
1854 Оскар Уайльд
1855 Джосайя Ройс
1856 Вудро Вильсон
1857 Пий XI
1858 Теодор Рузвельт
1859 Джон Дьюи
1860 Джейн Аддамс
1861 Рабиндранат Тагор
1862 Эрвард Грей
1863 Дэвид Ллойд Джордж
1864 Макс Вебер
1865 Редьярд Киплинг
1866 Рамсей Макдональд
1867 Арнольд Беннетт
1868 Уильям Аллен Уайт
1869 Андре Жид
1870 Фрэнк Норрис
1871 Корделл Халл
1872 Шри Ауробиндо
1873 Эл Смит
1874 Уинстон Черчилль
1875 Томас Манн
1876 Пий XII
1877 Айседора Дункан
1878 Карл Сэндберг
1879 Альберт Эйнштейн
1880 Дуглас Макартур
1881 Пьер Тейяр де Шарден
1882 Вирджиния Вульф
1883 Уильям Карлос Уильямс
1884 Гарри Трумен
1885 Эзра Паунд
1886 Ван Вик Брукс
1887 Руперт Брук
1888 Джон Фостер Даллес
1889 Джавахарлал Неру
1890 Хо Ши Мин
1891 Ху Ши
1892 Рейнгольд Нибур
1893 Мао Цзэдун
1894 Олдос Хаксли
1895 Георг VI
1896 Джон Дос Пассос
1897 Уильям Фолкнер
1898 Гуннар Мюрдаль
1899 Эрнест Хэмингуэй
1900 Эдлай Стивенсон
1901 Маргарет Мид
1902 Толкотт Парсонс
1903 Джордж Оруэлл
1904 Дэн Сяопин
1905 Жан-Поль Сартр
1906 Ханна Арендт
1907 Лоренс Оливье
1908 Линдон Джонсон
1909 Барри Голдуотер
1910 Мать Тереза
1911 Рональд Рейган
1912 Милтон Фридман
1913 Ричард Никсон
1914 Дилан Томас
1915 Ролан Барт
1916 Чарльз Райт Миллс
1917 Индира Ганди
1918 Билли Грэм
1919 Дэниел Белл
1920 Ирвинг Хау
1921 Реймонд Уильямс
1922 Джордж Макговерн
1923 Генри Киссинджер
1924 Джимми Картер
1925 Роберт Кеннеди
1926 Фидель Кастро
1927 Габриэль Гарсия Маркес
1928 Че Гевара
1929 Мартин Лютер Кинг-мл.
1930 Жак Деррида
1931 Михаил Горбачев
1932 Сильвия Платт
1933 Сьюзан Зоннтаг
1934 Ральф Нейдер
1935 Элвис Пресли
1936 Кэрол Гиллиган
1937 Саддам Хусейн
1938 Энтони Гидденс
1939 Ли Харви Освальд
1940 Джон Леннон
1941 Боб Дилан
1942 Барбра Стрейзанд
1943 Терри Иглтон
1944 Раджив Ганди
1945 Даниэль Ортега
1946 Билл Клинтон
1947 Салман Рушди
1948 Кларенс Томас
1949 Наваз Шариф
Нам стало интересно, насколько хорошо сумеют узнать этих самых знаменитых людей прошлого, поэтому мы провели совершенно ненаучный опрос. Мы спросили об этом преподавателя истории в Гарварде, и он узнал 116 из 150. Знакомый нам студент-старшекурсник узнал 123; журналист – 103; недавний выпускник колледжа – 73; русский физик-теоретик – 58; студент-сингапурец младшего курса – 35.
И хотя люди сильно отличались по тому, чьи имена они узнавали, некоторые чемпионы, такие как чемпион 1868 года Уильям Аллен Уайт, влиятельный газетный редактор и важный деятель прогрессивного движения, или чемпион 1886 года Ван Вик Брукс (историк, лауреат Пулитцеровской премии и один из первых биографов Марка Твена), оказались не знакомыми никому. Вы еще помните, кто такой Корделл Халл? К сожалению, это имя вспомнил лишь преподаватель истории.
Тот факт, что мы узнаем не все из перечисленных имен, по-своему весьма примечателен[131]. Изучая историю в школе, мы узнаем о тысячах личностей. Однако их список отражает выбор, мнение составителя учебника о том, кто важнее. К примеру, Дикинсон пошло на пользу принятое уже после ее смерти мнение литературных критиков о том, что ее труд заслуживает признания (несмотря на то, что в годы ее жизни так почти никто не считал). Мы наделяем людей, принимающих подобные решения, огромными полномочиями – правом формировать наше видение истории. И порой мы не до конца понимаем, как велика их власть.
С другой стороны, даже беглого взгляда на этот список достаточно, чтобы понять, что он вряд ли может быть основой для рассказов нашим детям о массе исторических событий. Из 150 чемпионов лишь 12 – это женщины; подавляющее большинство – это белые мужчины. У списка есть свои собственные глубокие искажения.
Кто в этом виноват? Вовсе не создатели списка. У него есть свои недостатки, но личная предвзятость точно к ним не относится. Мы всего лишь обработали цифры. Скорее, искажение, которое мы наблюдаем, связано с коллективной ответственностью подлинных авторов списка – всех, кто когда-либо написал книгу. Это – искажение исторического плана. И на каком-то уровне оно должно отражаться не только в нашем списке, но и во всех исторических исследованиях. Историки читают книги десятками, а мы – миллионами, но мы все делаем выборки из одной и той же огромной коллекции. Никто не обладает иммунитетом против ошибки выборки. У статистики, в отличие от истории, нет своих любимчиков.
Разумеется, в утверждении, что исторические данные сильно искажены, нет ничего нового. Но вот что помогают сделать данные n-грамов, так это проводить измерения этого искажения и понемногу показывать нам, в чем мы ошибались. А если мы будем знать о том, какие искажения были у нас прежде, то, возможно, не допустим тех же ошибок вновь.
Единая теория величия
В будущем каждый получит свои пятнадцать минут славы.
– Как-там-его-звали —
Энди Уорхол как-то раз сделал остроумное наблюдение об ускользающей природе славы. Однако мы полагаем, что он ошибся с цифрами.
Давайте воспользуемся для выявления его ошибки нашим Залом славы. При ближайшем рассмотрении каждая из этих знаменитостей выглядит совершенно непохожей на остальных. Некоторые из них росли вундеркиндами. Взлет других пришелся на поздние годы. У кого-то было несколько талантов, а кто-то делал то, что удавалось ему лучше остального. У одних карьера была долгой и полной достижений, а другим удавалось создать всего один «хит». Однако в перспективе все эти различия стираются и четче проступают общие черты. В этом и состоит великая сила метода когорт Андворда.