Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим Майер-Шенбергер Виктор
Большие данные могут потребовать, чтобы мы научились спокойнее относиться к беспорядочности и неопределенности. Представления о точности, которые, казалось бы, служат нам ориентирами (например, что круглые фигуры подходят круглым отверстиям, существует только один ответ на вопрос и т. п.), лучше поддаются изменениям, чем мы можем предположить. Вместе с тем такое предположение, принятое на веру, приближает нас к пониманию реального положения вещей.
Описанные изменения образа мышления знаменуют радикальные преобразования. Они ведут к третьему шагу, который может во многом подорвать устои общества, основанного на понимании причин всех событий. Вместе с тем поиск логических взаимосвязей между данными и выполнение действий с ними (что и является темой следующей главы) зачастую дают вполне достойный результат.
Глава 4
Корреляция
В 1997 году 24-летний Грег Линден на время отложил свою докторскую диссертацию в области искусственного интеллекта в Вашингтонском университете, чтобы поработать над местным стартапом по продаже книг в интернете. Этот онлайн-магазин появился всего два года назад, но уже вел оживленную торговлю. «Мне очень понравилась идея продавать книги, продавать знания, а еще помогать людям находить следующий источник знаний, с которым они с удовольствием бы ознакомились», — вспоминает Грег. Этим магазином был Amazon.com, и Линден был нанят в качестве инженера-программиста для обеспечения бесперебойной работы сайта.
Среди сотрудников компании Amazon были не только технари. В то время там работала дюжина литературных критиков и редакторов, которые писали отзывы и предлагали новые наименования. Хотя история сайта Amazon хорошо знакома большинству людей, мало кто помнит о том, что его контент первоначально создавался вручную. Редакторы выбирали наименования, которые рекомендовались на веб-страницах Amazon. Редакторский отдел отвечал за так называемый «голос Amazon», который по праву считался гордостью компании и источником ее конкурентного преимущества. Примерно в то же время вышла статья в Wall Street Journal, в которой сотрудников отдела чествовали как самых влиятельных литературных критиков страны, поскольку им удавалось стимулировать высокий уровень продаж.
Затем Джефф Безос, основатель и СЕО[53] Amazon, начал экспериментировать с многообещающей идеей: что если рекомендовать конкретные книги отдельным клиентам в зависимости от их предыдущих покупок? С момента начала деятельности Amazon компания накопила массу данных о каждом клиенте: о покупках, о просмотренных, но не приобретенных книгах и времени, затраченном на их просмотр, а также о книгах, приобретенных одновременно.
Объем данных был настолько внушительным, что поначалу Amazon приходилось обрабатывать их обычным способом — путем отбора выборки и ее анализа с целью выявить сходство между клиентами. Рекомендации выходили приблизительными. Купив книгу о Польше, вы получили бы массу предложений по Восточной Европе, а купив книгу о детях — завалены подобной литературой. «Как правило, вам предлагались небольшие вариации на тему вашей предыдущей покупки. И так до бесконечности, — вспоминает Маркус Джеймс, литературный критик Amazon в 1996–2001 годах, в своих мемуарах Amazonia. — Создавалось ощущение, что вы отправились за покупками с бестолковым советчиком».[54]
Грег Линден нашел решение. Он понял, что рекомендательной системе, по сути, не нужно сравнивать одних людей с другими, что к тому же было технически обременительно. Нужно всего лишь найти ассоциации среди самих продуктов. В 1998 году Линден и его коллеги заявили патент на метод совместной фильтрации «предмет-предмет». Изменение подхода принесло большую пользу.
Поскольку расчеты проводились заранее, рекомендации выдавались молниеносно. К тому же они были универсальными и включали товары из разных категорий. Поэтому, когда компания Amazon расширила ассортимент, рекомендательная система могла предлагать не только книги, но и фильмы или, скажем, тостеры. Кроме того, рекомендации стали намного точнее, поскольку система использовала все данные. «В отделе шутили, что, если система отлично себя зарекомендует, на сайте Amazon достаточно будет показывать только одну книгу — ту, которую вы купите следующей», — вспоминает Линден.[55]
Теперь перед компанией стоял выбор, что отображать: отзывы, написанные штатными литературными критиками Amazon, или контент, созданный компьютером (личные рекомендации, списки бестселлеров и пр.); то, что говорят критики, или то, на что указывают действия клиентов? Это в буквальном смысле была борьба человека против компьютера.
Линден сравнил продажи, которые последовали за отзывами литературных критиков, и контент, созданный компьютером. Разница оказалась внушительной. По словам Линдена, материалы, полученные на основе данных, принесли практически в сто раз больше продаж. Возможно, компьютеру и было неизвестно, почему клиент, читающий Хемингуэя, пожелает приобрести Фрэнсиса Скотта Фицджеральда. Но, похоже, это не имело значения. Продажи текли рекой. Редакторам озвучили точный процент продаж, которые компания Amazon недополучала при каждой публикации их отзывов в интернете, и отдел распустили. «Мне было очень жаль, что результат редакторского отдела оказался ниже, — вспоминает Линден. — Но данные не лгут, а цена была очень высока».
Сегодня считается, что третью всех своих продаж компания Amazon обязана своим рекомендательным системам, а также системам персонализации. С их помощью компания не только вытеснила с рынка большие книжные и музыкальные магазины, но и сотни местных книготорговцев, которые думали, что их личный подход укроет их от ветра перемен. Работа Линдена поистине произвела революцию в сфере электронной коммерции, поскольку этот метод был подхвачен практически всеми. Компания Netflix, которая занимается сдачей фильмов напрокат в интернете, три четверти новых заказов получает благодаря рекомендациям.[56] Следуя примеру Amazon, тысячи сайтов могут рекомендовать продукты, контент, друзей и группы для подписки, не зная толком, чем это все может заинтересовать их пользователей.
Для рассматриваемой задачи знание почему может быть полезно, но не столь важно. А вот знание что приводит к конкретным действиям. Эта истина способна изменить помимо электронной коммерции многие отрасли. Продавцам из разных сегментов рынка долгое время твердили, что им нужно понять, что заставляет клиентов совершить покупку, понять причины их решений. Высоко ценились профессиональные навыки и многолетний опыт работы. Но большие данные показывают, что есть и другой, в некотором смысле более эффективный подход. Рекомендательным системам Amazon удалось выявить любопытные корреляции, не зная их первопричины. Так что знания что, а не почему вполне достаточно.
Прогнозы и предрасположенности
Корреляции полезны в области малых данных. Но по-настоящему они раскрывают свой потенциал в контексте больших данных. С их помощью мы можем рассматривать явления проще, быстрее и отчетливее, чем раньше.
По сути, корреляция — количественное выражение статистической связи между двумя значениями. Сильная корреляция означает, что при увеличении одних значений данных другие значения, вероятнее всего, тоже увеличатся. Такие корреляции мы наблюдали, когда описывали Google Flu Trends: чем больше людей в конкретном географическом регионе ищут определенные ключевые слова в поисковой системе Google, тем выше заболеваемость гриппом в этом регионе. С другой стороны, слабая корреляция означает, что при увеличении одних значений данных другие значения практически не изменятся. Так, если провести корреляцию между размером обуви людей и тем, насколько они счастливы, мы обнаружим, что размер обуви мало что может рассказать о счастье человека.
Корреляции помогают анализировать объекты, выявляя не принципы их работы, а полезные закономерности. Безусловно, даже сильные корреляции не идеальны. Вполне возможно, что похожее поведение двух объектов — не более чем совпадение. Нет никаких гарантий, что даже сильные корреляции сумеют объяснить каждый случай. Не каждая рекомендация книг на сайте Amazon безошибочна. Корреляции дают не определенность, а лишь вероятность. Но в случае сильной корреляции между явлениями высока вероятность, что они взаимосвязаны. Многие могут подтвердить это, указав на полку, уставленную книгами по рекомендациям Amazon.
Корреляции дают возможность определять ценные закономерности явлений, чтобы подмечать их в настоящем и прогнозировать в будущем. Например, если событие А часто сопровождается событием B, нужно следить за B, чтобы спрогнозировать А. Такой подход позволяет уловить, чего вероятнее всего ожидать от события А, даже если мы не можем измерить или проследить его напрямую. Более того, это позволяет нам спрогнозировать дальнейшие события. Конечно, корреляции не могут предсказывать будущее — они лишь могут спрогнозировать его с определенной вероятностью. Но и это чрезвычайно ценно.
Walmart — крупнейшая в мире сеть розничной торговли, которая насчитывает более двух миллионов сотрудников. Ее объем продаж составляет около 400 миллиардов долларов — больше, чем ВВП большинства стран. Перед наплывом огромных массивов данных, порожденных интернетом, компания Walmart располагала, пожалуй, самым большим хранилищем данных среди коммерческих компаний в США. В 1990-х годах она произвела переворот в розничной торговле, внедрив учет всей продукции в виде данных с помощью сети Retail Link. Компания Walmart предоставила поставщикам возможность самим контролировать темпы и объемы продаж и запасов. Благодаря такой прозрачности Walmart удалось вынудить поставщиков самостоятельно заботиться о своей логистике. В большинстве случаев Walmart не выступает «собственником» продукта до момента продажи, тем самым снимая с себя риск обесценения запасов и снижая затраты. По сути, с помощью данных Walmart удалось стать крупнейшим комиссионным магазином.
О чем могут рассказать все эти накопленные данные, если их проанализировать должным образом? В сотрудничестве с экспертом в области обработки чисел Teradata (ранее — почитаемая корпорация NCR) компания Walmart стремилась выявить интересные корреляции. В 2004 году она взялась за изучение своих гигантских баз данных прошлых операций, которые включали не только информацию о товарах, приобретенных каждым клиентом, и общей сумме покупки, но и об остальных товарах в корзине, о времени суток и даже о погоде. Это дало компании возможность заметить, что перед ураганом росли объемы продаж не только фонариков, но и печенья PopTarts, а также сладких сухих американских завтраков. Поэтому, как только надвигалась буря, в магазинах Walmart поближе к витрине выкладывались коробки Pop-Tarts и припасы на случай урагана для удобства клиентов, снующих снаружи и внутри магазина, и, разумеется, для увеличения продаж.[57]
В прошлом специалистам из главного офиса пришлось бы заранее собрать данные и проверить идею. Теперь же, имея столько данных и улучшенные инструменты работы с ними, выявлять корреляции стало куда быстрее и дешевле.
Корреляционный анализ показал свою высокую эффективность задолго до больших данных. Эту концепцию в 1888 году выдвинул сэр Фрэнсис Гальтон, двоюродный брат Чарльза Дарвина, заметив взаимосвязь между ростом мужчин и длиной их предплечий. Математические расчеты, лежащие в основе корреляционного анализа, относительно просты и надежны. Благодаря этим характерным особенностям анализ стал одним из наиболее широко используемых статистических показателей. Но до перехода на большие данные корреляции имели ограниченную эффективность. Поскольку данные были скудными, а их сбор — дорогостоящим, специалисты по сбору статистики нередко интуитивно определяли вероятную закономерность, а затем собирали соответствующие данные и проводили корреляционный анализ, чтобы выяснить, насколько эта закономерность соответствовала действительности. В контексте службы Google Flu Trends это означало бы, что нужно предположить условия поиска, которые коррелируют с распространением гриппа, а затем провести корреляционный анализ, чтобы убедиться в правильности этих предположений. Учитывая набор данных Google из 50 миллионов различных условий поиска и более трех миллиардов запросов в день, интуитивно выбрать наиболее подходящие из них для тестирования не представляется возможным.
Таким образом, в эпоху малых данных корреляционный анализ утратил свою первостепенность. Даже сегодня термин «интеллектуальный анализ данных» в научных кругах звучит неодобрительно. Его противники острят: «Поиздевайтесь над данными достаточно долго — и они будут готовы признать что угодно».
Вместо того чтобы полагаться на простые корреляции, эксперты пытались интуитивно нащупать подходящие закономерности, исходя из гипотез в рамках определенных теорий — абстрактных представлений о принципах работы чего-либо. Затем эксперты получали соответствующие данные и проводили корреляционный анализ для проверки этих закономерностей. Если они оказывались ошибочными, эксперты, как правило, упрямо пробовали еще раз (на случай, если данные были собраны неправильно), пока, наконец, не признавали, что исходная гипотеза (или даже теория, на которой она основана) требует доработки. Знания совершенствовались путем проб и ошибок, связанных с гипотезами. Процесс был очень медленным, поскольку личные и общие предубеждения мешали объективно оценить разработанные гипотезы, их применение и выбранные в итоге закономерности. И все это для того, чтобы в большинстве случаев в итоге узнать, что мы ошибались. Это был трудоемкий процесс, зато он годился для работы с малыми данными.
В эпоху больших данных невозможно определить переменные, которые следует рассматривать, лишь на основе личных предположений. Наборы данных слишком велики, а рассматриваемые области, пожалуй, слишком сложны. К счастью, многие ограничения, которые вынуждали нас применять подход на основе гипотез, уже не столь существенны. Теперь у нас настолько много данных и вычислительной мощности, что не приходится вручную выбирать одну закономерность или небольшую горстку наиболее вероятных, а затем изучать их по отдельности. Теперь сложные вычислительные процессы сами выбирают лучшую закономерность, как это было в службе Flu Trends, которая легко и точно обнаруживала лучшие условия поиска из 50 миллионов самых популярных запросов, протестировав 450 миллионов математических моделей.
Для того чтобы понимать окружающий мир, теперь не обязательно изучать рабочие гипотезы о том или ином явлении. А значит, не нужно развивать гипотезу о возможных поисковых запросах людей, чтобы узнать время и территорию распространения гриппа. Не нужно вдаваться в подробности того, как авиакомпании назначают цены на билеты. Не нужно заботиться о кулинарных вкусах покупателей Walmart. Вместо этого достаточно провести корреляционный анализ на основе больших данных, чтобы узнать, какие поисковые запросы наиболее характерны для гриппа, грядет ли рост цен на авиабилеты или чем обеспокоенные домоседы запасаются на время бури. Вместо подверженного ошибкам подхода на основе гипотез благодаря корреляциям между большими данными у нас есть подход, построенный на данных. И он может быть менее предвзятым, более точным и наверняка менее трудоемким.
В основе больших данных лежат прогнозы на основе корреляций. Они используются все чаще, и мы порой недооцениваем их новизну. Практическое применение прогнозов со временем будет только расширяться.
Для прогнозирования поведения отдельных лиц существует кредитная оценка заемщика. Компания Fair Isaac Company, известная как FICO, ввела это понятие в 1950-х годах. В 2011-м FICO ввела еще одно понятие — «оценка приверженности лечению». Она анализирует множество переменных, в том числе тех, которые, казалось бы, не имеют отношения к делу (например, как долго люди не меняли место жительства или работы, состоят ли они в браке и имеют ли собственный автомобиль), для того чтобы определить вероятность того, примет ли пациент назначенное лекарство. Оценка помогла бы медицинским сотрудникам экономить средства: они знали бы, кому следует делать напоминания. Между владением автомобилем и приемом антибиотиков нет причинно-следственных связей. Это чистой воды корреляция. Но она вдохновила исполнительного директора компании FICO гордо заявить на встрече инвесторов в 2011 году: «Мы знаем, что вы собираетесь делать завтра».[58]
Крупное кредитное бюро Experian предлагает продукт Income Insight, который прогнозирует уровень доходов людей на основе их кредитной истории. Проанализировав огромную базу данных кредитных историй в сравнении с анонимными данными о налогах, полученными из налоговой службы Америки, эта программа подготовила соответствующую оценку. В то время как проверка доходов определенного лица стоит около 10 долларов, Experian продает свою оценку менее чем за 1 доллар. Таким образом, в некоторых случаях использование закономерностей экономически выгоднее, чем волокита с получением нужных данных. Тем временем другое кредитное бюро, Equifax, продает «индекс платежеспособности» и «индекс дискреционных расходов», которые сулят прогноз благосостояния отдельных лиц.[59]
Поиск корреляций находит все более широкое применение. Изучив идею использования кредитных отчетов и данных потребительского маркетинга, крупная страховая компания Aviva внедрила ее вместо анализа образцов крови и мочи для определенных заявителей. Полученная информация помогала выявлять лиц, наиболее подверженных риску развития высокого артериального давления, диабета или депрессии. Этот метод основывался на данных об образе жизни, включая сотни переменных (таких как хобби, посещаемые сайты и время, затрачиваемое на просмотр телевизора), а также смете поступлений.
Прогнозная модель компании Aviva, разработанная компанией «Делойт», по праву считалась полезной для выявления рисков для здоровья. Свое намерение внедрить аналогичные проекты подтвердили страховые компании Prudential и AIG. Преимущество подхода заключалось в том, что он позволял заявителям избежать неприятных анализов. Этот подход экономил страховым компаниям по 125 долларов с человека, в то время как стоимость самого подхода на основе данных составляла около пяти долларов.[60] Некоторые ужаснутся, словно компании станут использовать кибердоносчиков, которые шпионят за каждым щелчком мыши. Возможно, люди подумали бы дважды, прежде чем посетить сайт экстремальных видов спорта или посмотреть комедийное шоу, прославляющее домоседов, если бы знали, что это может привести к повышению их страховых взносов. Это было бы страшным нарушением свободы взаимодействия с информацией. С другой стороны, польза системы состояла в том, что она способствовала бы увеличению количества застрахованных лиц. А это хорошо как для общества, так и для страховых компаний.
Корреляции между большими данными применялись и в американском розничном магазине сниженных цен Target, пример которого достоин подражания. Уже не первый год Target опирается на прогнозы, основанные на корреляциях между большими данными. В своем непривычно кратком отчете Чарльз Дахигг, бизнес-корреспондент New York Times, рассказал, откуда Target узнает, что женщина беременна, если она явно об этом не сообщала. Если коротко, нужно принимать в расчет все возможные данные и позволить корреляциям выявить нужные закономерности.
Знать о том, что в семье клиента ожидается пополнение, очень важно для магазинов розничной торговли, поскольку в этот переломный момент в жизни пары ее торговое поведение открыто для перемен — разведки новых магазинов и новых брендов. Розничные продавцы сети Target обратились в свой отдел аналитики, чтобы узнать, возможно ли по модели покупок определенного человека судить о том, что он ожидает пополнение.
В первую очередь отдел аналитики обратил внимание на историю покупок женщин, которые зарегистрировались в реестре Target на получение подарка к рождению ребенка. Специалисты Target заметили, что популярной покупкой среди зарегистрировавшихся женщин примерно на третьем месяце беременности был лосьон без запаха. Спустя несколько месяцев женщины, как правило, покупали пищевые добавки (магний, кальций, цинк и пр.). В итоге компания выявила около двух десятков характерных продуктов, по которым каждому клиенту можно было присвоить оценку «прогнозируемой беременности». С помощью корреляций розничным магазинам даже удавалось определять дату родов с небольшой погрешностью, и они стали отправлять соответствующие купоны на каждом этапе беременности. Такое нацеливание рекламных кампаний и впрямь соответствовало названию компании — Target (англ. цель).
Поиск закономерностей в социальном контексте — лишь один из способов применения методов работы с большими данными. Не менее эффективны корреляции при работе с новыми типами данных, которые используются для решения повседневных задач.
В бизнесе все шире применяется метод прогностической аналитики для определения предстоящих событий. Это может быть алгоритм для выявления музыкальных хитов, который популярен в музыкальной сфере и позволяет звукозаписывающим лейблам лучше ориентироваться, на кого стоит делать ставки. Или же алгоритм предотвращения больших механических неисправностей и разрушений конструкции: все чаще на машинах, двигателях и элементах инфраструктуры, таких как мосты, размещают датчики для отслеживания получаемых данных (показателей тепла, вибрации, нагрузки, звука и пр.).
Если речь идет о поломке, она, как правило, происходит не сразу, а развивается постепенно, с течением времени. Собрав все данные, можно заметить явные признаки, предшествующие поломке: жужжание и перегрев двигателя. Система сравнивает эту модель поведения с обычной и выявляет несоответствия. Обнаружив отклонения на ранней стадии, система отправляет предупреждение. Таким образом, вы успеете заблаговременно заменить поврежденную часть на новую и предупредить проблему. Система определяет, а затем отслеживает закономерности, тем самым прогнозируя будущие события.
Транспортная компания UPS с середины 2000-х годов использует прогнозный анализ для контроля своего 60-тысячного автопарка в США и выполнения своевременного профилактического обслуживания. Поломка на дороге причиняет массу неудобств, включая отправку запасного грузового автомобиля, задержки поставок и погрузок, а также привлечение дополнительных сотрудников. Поэтому в компании UPS существовало правило заменять отдельные части раз в два-три года. Но это было неэффективно, поскольку некоторые части оставались в хорошем состоянии. Благодаря измерению и отслеживанию деталей транспортного средства компания UPS сэкономила миллионы долларов, заменив только те части, которые нуждались в замене. Однажды компании даже удалось определить, что группа новых транспортных средств содержала бракованную деталь, которая неминуемо привела бы к неприятностям, не будь вовремя замечена.[61]
Подобным образом к мостам и зданиям крепят датчики, чтобы отслеживать признаки износа. Такие же датчики внедряются на крупных химических и нефтеперерабатывающих заводах, где поломанная деталь оборудования может остановить все производство до момента ее замены. Стоимость сбора и анализа данных для принятия своевременных мер экономит средства по сравнению с тем, во что обходятся простои. Отметим, что прогностическая аналитика не в состоянии объяснить причину проблемы (из-за чего перегрелся двигатель — из-за потертого ремня вентилятора или плохо закрученного винта) — она только выявляет саму проблему. Корреляции показывают что, а не почему. Но, как видно, в большинстве случаев этого достаточно.
С помощью подобных методов обеспечивается нормальное функционирование человеческого организма. Когда к пациенту в больнице прикрепляют массу трубок, проводов и инструментов, формируется большой поток данных. Одна только ЭКГ выдает 1000 показателей в секунду. В настоящее время используется или хранится только часть получаемых данных. Большинство данных попросту выбрасывается, хотя и несет в себе важную информацию о состоянии пациента и его реакции на лечение. А в совокупности с аналогичными данными других пациентов эти сведения могли бы составить уникальную аналитическую картину того, какое лечение эффективно, а какое — нет.
Возможно, отсеивание данных было рациональным в то время, когда их сбор, хранение и анализ были дорогостоящими и трудоемкими. Но ситуация изменилась. Теперь Кэролин Макгрегор вместе с командой исследователей из Технологического института университета провинции Онтарио и компании IBM сотрудничает с рядом больниц для разработки программного обеспечения, которое получает и обрабатывает данные о состоянии пациента в режиме реального времени. Затем они используются для принятия более взвешенных диагностических решений в отношении преждевременно рожденных («недоношенных») младенцев. Система отслеживает 16 различных потоков данных, таких как частота сердечных сокращений, частота дыхания, температура, артериальное давление и уровень кислорода в крови, что вместе составляет около 1260 точек данных в секунду.[62]
Система способна обнаружить едва уловимые изменения в состоянии недоношенных детей, которые сигнализируют о начале развития инфекции за сутки до появления явных симптомов. «Вы не можете увидеть их невооруженным глазом, но компьютеру это под силу», — поясняет доктор Макгрегор. Система полагается не на причинно-следственные связи, а на корреляции. Она сообщает, что происходит, а не почему. И это вполне отвечает ее назначению. Заблаговременное предупреждение позволяет врачам раньше и к тому же с более щадящим медицинским вмешательством приступить к лечению инфекции или же раньше узнать, что лечение неэффективно. И то и другое благотворно сказывается на результатах лечения пациентов. В будущем эта технология наверняка будет реализована для всех пациентов и условий. И пусть алгоритм не принимает решения, зато компьютеры делают все от них зависящее, чтобы помочь медикам как можно лучше выполнять свои обязанности.
Поразительно, как с помощью анализа больших данных доктору Макгрегор удалось выявить корреляции, которые в известном смысле бросают вызов традиционным представлениям врачей. Она обнаружила, что выраженное постоянство жизненно важных показателей, как правило, служит предвестником серьезной инфекции. Звучит странно, ведь мы полагаем, что именно ухудшение этих показателей должно предшествовать полномасштабной инфекции. Можете представить себе поколения врачей, которые по окончании рабочего дня проверяют состояние пациента и, убедившись, что оно стабилизировалось, решают, что все в порядке и можно идти домой. И только безумный звонок медсестры посреди ночи разбудит их и сообщит, что, вопреки их предположению, состояние пациента резко пошло на ухудшение.
Полученные данные свидетельствуют о том, что стабильность состояния недоношенных детей не служит признаком улучшения, а скорее больше похожа на затишье перед бурей: тело как будто велит крошечным органам мобилизовать все силы и приготовиться к предстоящим трудностям. Но мы не можем быть абсолютно уверены, ведь это лишь корреляция — здесь нет места причинно-следственным связям. Чтобы выявить эти скрытые взаимосвязи среди множества составляющих, понадобилось непостижимое количество данных. Вне всякого сомнения, большие данные спасают жизни.
Иллюзии и иллюминации
В мире малых данных корреляционный анализ не был намного лучше или дешевле исследований причинно-следственных связей. Ввиду небольшого количества данных, как правило, и то и другое исследования начинались с гипотезы, которая затем проверялась и находила свое подтверждение либо опровергалась. Поскольку в обоих случаях отправной точкой служила гипотеза, оба подхода были одинаково чувствительны к предвзятости и ошибочным предположениям. Необходимые данные для корреляционного анализа часто были недоступны, а их сбор влек за собой большие расходы. Сегодня при наличии огромного количества данных это не такие уж весомые препятствия.
Существует еще одно отличие, которое только начинает приобретать все большее значение. В эпоху малых данных в большинстве случаев корреляционный анализ ограничивался поиском линейных отношений, в частности из-за недостаточной вычислительной мощности. При таких отношениях усиление закономерности привело бы к определенным известным изменениям рассматриваемого явления. Но, безусловно, в жизни многое куда сложнее. Полноценный комплексный анализ определяет так называемые нелинейные отношения между данными. Наглядно их можно увидеть, когда данные нанесены на график. Для того чтобы выявить эти данные, нужно воспользоваться техническими инструментами. Нелинейные отношения не только гораздо подробнее линейных, но и более информативны для руководителей.
В течение многих лет экономисты и политологи считали, что счастье напрямую связано с уровнем доходов: чем больше доход, тем человек счастливее. Однако график данных показывает, что там, где статистические инструменты проводят линейную корреляцию, в игру вступают более сложные динамические изменения. При уровне доходов ниже 10 000 долларов каждое их увеличение приводило к большему ощущению счастья, но рост доходов выше этого уровня мало что менял. Если нанести эти данные на график, получилась бы скорее кривая линия, чем прямая, которую сулил статистический анализ.
Это стало важным открытием для политиков. При линейной корреляции было понятно: для того чтобы сделать народ счастливее, нужно увеличить его доходы. Но как только удалось определить нелинейные отношения, эта рекомендация изменила свой ракурс: нужно сосредоточиться на увеличении доходов бедных слоев населения, поскольку, как показали данные, это даст большую отдачу от затраченных средств.[63]
Более сложные корреляционные отношения только добавляют беспорядочности. Неравномерность прививок от кори среди населения и суммы, которые люди тратят на здравоохранение, казалось бы, взаимосвязаны. Тем не менее корреляция представлена не в виде аккуратной линии, а несимметричной кривой. По мере того как расходы людей на здоровье растут, неравномерность охвата населения прививками, как ни странно, снижается, но если затраты на здравоохранение одного человека продолжают расти, неравномерность охвата прививками неожиданно увеличивается. Для сотрудников здравоохранения это важнейшее открытие, которое невозможно было бы совершить с помощью простого линейного корреляционного анализа.[64]
Эксперты только начали разрабатывать необходимые инструменты для определения и сравнения нелинейных корреляций. Развитию методов корреляционного анализа способствует быстро растущий набор новых подходов и программ, которые способны выделять связи, отличные от причинно-следственных, с разных точек зрения, подобно тому как художники-кубисты изображали лицо женщины одновременно с нескольких ракурсов. Один из самых ярких примеров — быстро растущая область сетевого анализа. С ее помощью можно определять, измерять и рассчитывать самые разные узлы и связи — от друзей на Facebook до событий, предшествовавших судебным решениям, и сведений о том, кто кому звонит по мобильному телефону. Вместе эти инструменты предоставляют новые мощные способы отвечать на непричинные, эмпирические вопросы.
В эпоху больших данных корреляционный анализ вызовет волну новых идей и полезных прогнозов. Мы обнаружим связи, которые не замечали прежде, и поймем сложные технические и социальные движущие силы, суть которых уже давно перестали улавливать, несмотря на все усилия. А самое главное, корреляции помогают нам познавать мир, спрашивая в первую очередь что, а не почему.
Поначалу может показаться, что это противоречит здравому смыслу. Людям свойственно постигать мир сквозь призму причинно-следственных связей, исходя из убеждения, что все имеет свою причину, стоит только хорошенько присмотреться. Узнать причину, которая стоит за тем или иным явлением, — разве не это должно быть нашим высшим устремлением?
Из глубины веков тянется философская дискуссия о том, существует ли причинность на самом деле. Если каждое явление имеет свою причину, то логика подсказывает, что мы, по сути, ничего не решаем. Выходит, человеческой воли на самом деле не существует, поскольку наши мысли и принимаемые решения имеют причину, которая имеет свою причину, и т. д. Вся линия жизни определяется причинами, которые приводят к определенным последствиям. Таким образом, философы спорили о роли причинности в нашем мире, а порой и противопоставляли ее свободе выбора. Однако обсуждение этой полемики не входит в наши планы.
Говоря о том, что люди смотрят на мир сквозь призму причинно-следственных связей, мы, как правило, имеем в виду два основных способа постижения мира: с помощью быстрых, иллюзорных причинно-следственных связей и путем медленных, методичных казуальных экспериментов. Корреляции между большими данными изменят роль и того и другого, и в первую очередь — нашего интуитивного желания искать причинно-следственные связи.
Мы склонны предполагать причины даже там, где их нет. Это не связано ни с культурой или воспитанием, ни с уровнем образования человека. Такова особенность человеческого мышления. Когда мы рассматриваем два последовательных события, наш ум одолевает желание увидеть связь между ними. Вот три предложения: «Родители Фреда прибыли поздно. Вот-вот должны были подойти поставщики. Фред злился».
Читая их, мы сразу интуитивно определяем, почему Фред злился: не потому что поставщики были уже на подходе, а потому что его родители припозднились. Это не следует из предоставленной информации. Однако мы не можем удержаться от умозаключения, что наши предположения — причинно-следственные связи, основанные на полученных фактах.
Дэниел Канеман, профессор психологии в Принстоне, который получил Нобелевскую премию по экономике в 2002 году, на этом примере показывает, что нам свойственны две формы мышления. Одна — быстрая и не требует больших усилий. Она позволяет делать выводы за считаные секунды. Другая форма — медленная, трудоемкая и требует «обдумывания» того или иного вопроса.[65]
Быстрый способ мышления по большей части склонен находить причинно-следственные связи даже там, где их нет. Он предвзято воспринимает информацию для подтверждения имеющихся знаний и убеждений. В древние времена быстрый способ мышления был полезен и помогал выжить в опасном окружении, где, как правило, приходилось принимать решения мгновенно и в условиях ограниченной информации, но зачастую он далек от установления истинной причины тех или иных следствий.
Канеман утверждает, что, увы, очень часто в повседневной жизни мозг ленится думать медленно и методично. Тогда в дело вступает быстрый способ мышления. В результате мы часто «видим» мнимые причинно-следственные связи, а значит, совершенно неправильно воспринимаем окружающий мир.
Подхватив грипп, дети нередко слышат от родителей, что заболели из-за того, что не носят шапку и варежки в холодную погоду. Однако между заражением гриппом и тем, чтобы одеться теплее, нет прямой причинно-следственной связи. Почувствовав недомогание после ресторана, мы интуитивно будем пенять на еду, которую съели там (и, возможно, обходить стороной этот ресторан в будущем), хотя внезапное острое расстройство пищеварения может быть вызвано и другими причинами, например, если пожать руку зараженному человеку. Быстрое мышление запрограммировано быстро переходить к казуальным выводам, которые выдает мозг. И это часто приводит нас к неправильным решениям.
Вопреки общепринятому мнению, внутреннее ощущение причинности не углубляет нашего понимания мира. Во многих случаях это не более чем мыслительный «сокращенный путь», который дает нам иллюзию понимания, а на самом деле оставляет в неведении. Так же как выборки упрощали задачу, когда мы не могли обработать все данные, наш мозг использует познание причинности, чтобы избежать долгих и мучительных раздумий.
В мире малых данных могло пройти немало времени, прежде чем становилось ясно, насколько предполагаемые причинно-следственные связи ошибочны. В дальнейшем это изменится. Корреляции больших данных станут регулярно использоваться для опровержения предполагаемых причинно-следственных связей, убедительно показывая, что часто между следствием и его предполагаемой причиной мало, а то и вовсе нет статистической связи. А пока «быстрое мышление» заменяет нам масштабную и длительную проверку действительности.
Будем надеяться, что стремление познать мир заставит нас думать глубже (и размереннее). Но даже медленное мышление — второй способ, которым люди распознают причинные связи, — изменится ввиду корреляций между большими данными.
Категории причинности настолько прочно вошли в нашу повседневную жизнь, что мы полагаем, что причинные связи легко показать. Это не так. В отличие от корреляций, математика которых относительно проста, причинность не имеет очевидных математических «доказательств». Мы не можем с легкостью выразить ее в виде обычных уравнений. Таким образом, даже если думать медленно и старательно, то отыскать убедительные причинно-следственные связи непросто. Наш мозг привык к тому, что информации всегда недостаточно, поэтому мы склонны делать выводы на основе ограниченного количества данных. Хотя, как правило, внешних факторов слишком много, чтобы сводить результат к определенной причине.
Возьмем, к примеру, вакцину против бешенства. 6 июля 1885 года к французскому химику Луи Пастеру привели девятилетнего Йозефа Майстера, которого укусила бешеная собака. Пастер как раз работал над экспериментальной вакциной против бешенства. Родители Майстера умоляли Пастера применить вакцину, чтобы вылечить их сына. Он согласился, и Йозеф Майстер выжил. В прессе пошла слава о том, что Пастер спас мальчика от верной мучительной смерти.
Но спас ли на самом деле? Как оказалось, в среднем лишь один из семи человек, укушенных бешеной собакой, заболевает. Даже если предположить, что экспериментальная вакцина Пастера была эффективной, она понадобилась бы только в одном из семи случаев. С вероятностью около 85% мальчик выжил бы и так.
В данном случае считалось, что Йозеф Майстер вылечился благодаря введению вакцины. Но под вопросом остаются две причинно-следственные связи: одна — между вакциной и вирусом бешенства, другая — между укусом бешеной собаки и развитием болезни. Даже если первая связь верна, то вторая — лишь в редких случаях.
Ученым удалось решить вопрос наглядности причинно-следственных связей с помощью экспериментов, в которых можно было применить или исключить отдельно взятую предполагаемую причину. Если применение причины влияло на результат, это означало наличие причинно-следственной связи. Чем тщательнее контролировались обстоятельства, тем выше была вероятность того, что эта связь правильная.
Таким образом, как и корреляции, причинность редко удается (если вообще возможно) доказать. Можно лишь показать ее с высокой степенью вероятности. Но, в отличие от корреляций, эксперименты для подтверждения причинно-следственных связей, как правило, неприменимы на практике или ставят непростые этические вопросы. Какие эксперименты помогут определить лучшие среди 50 миллионов условий поиска, прогнозирующих грипп? А в случае прививки от бешенства — неужели мы смогли бы допустить мучительную смерть десятков, а может, и сотен пациентов в качестве «контрольной группы», которой не сделали прививку, имея нужную вакцину? Даже применимые на практике эксперименты остаются дорогостоящими и трудоемкими.
Расчет корреляций, как правило, проводится быстрее и с меньшими затратами. В отличие от причинно-следственных связей, существуют математические и статистические методы для анализа корреляций, а также необходимые цифровые инструменты для уверенной демонстрации силы взаимосвязей.
Корреляции не только ценны сами по себе, но и указывают способ исследования причинно-следственных связей. Демонстрируя потенциальную взаимосвязь между явлениями, они могут стать предметом дальнейшего исследования с целью убедиться в наличии причинно-следственной связи и выяснения ее причин. Этот недорогой и быстрый механизм фильтрации снижает затраты на причинно-следственный анализ за счет специально контролируемых экспериментов. Благодаря корреляциям мы имеем возможность уловить важные переменные и с их помощью провести эксперименты для исследования причинности.
Однако необходимо проявить осторожность. Корреляции — мощный инструмент не только потому, что они показывают полную аналитическую картину, но и потому, что делают ее понятной. Но, как правило, эта картина омрачается, как только мы снова начинаем искать причинность. Kaggle — компания, которая организует открытые конкурсы по интеллектуальному анализу данных среди компаний, — провела конкурс по анализу качества подержанных автомобилей. Агент по продаже подержанных автомобилей предоставил данные, на основе которых конкурсанты-статистики должны были создать алгоритм, прогнозирующий, какие из автомобилей, представленных на аукционе перекупщиков, вероятнее всего, имеют неисправности. Корреляционный анализ показал, что вероятность неисправностей автомобилей, окрашенных в оранжевый цвет, гораздо ниже (примерно наполовину), чем среди остальных автомобилей.
Даже сейчас, читая об этом, мы тут же задумываемся, в чем причина. Может быть, владельцы оранжевых автомобилей — настоящие автолюбители и лучше заботятся о своих автомобилях? Может, индивидуальная покраска означает, что автомобиль обслуживался более внимательно? Или оранжевые автомобили более заметны на дороге, а значит, ниже вероятность их участия в ДТП и потому они в лучшем состоянии на момент перепродажи?
Быстро же мы попали в сети альтернативных причинных гипотез! Наши попытки пролить свет на положение вещей делают эти гипотезы еще более размытыми. Корреляции есть, и мы можем показать их математически, чего не скажешь о причинно-следственных связях. Так что было бы неплохо удержаться от попыток объяснить причину корреляций в поиске ответа на вопрос почему вместо что. Иначе мы могли бы смело советовать владельцам автомобилей красить свои развалюхи в оранжевый цвет, чтобы сделать их запчасти менее дефектными (что само по себе полный вздор).
Становится понятно, что корреляции на основе достоверных данных превосходят большинство интуитивно понятных причинно-следственных связей, то есть результат «быстрого мышления». Растет и количество случаев, когда быстрый и понятный корреляционный анализ оказывается более полезным и, очевидно, более эффективным, чем медленное причинное мышление, воплощенное в виде тщательно контролируемых (а значит, дорогостоящих и трудоемких) экспериментов.
В последние годы ученые пытались снизить затраты на такие эксперименты, например, искусно сочетая соответствующие опросы для создания «псевдоэкспериментов». Благодаря этому можно было повысить рентабельность некоторых исследований причинности. Однако эффективность корреляций трудно превзойти. Кроме того, как мы говорили, корреляционный анализ сам по себе служит помощником в таких исследованиях, подсказывая экспертам наиболее вероятные причины.
Таким образом, наличие данных и статистических инструментов преобразует роль не только быстрых, интуитивно улавливаемых причинно-следственных связей, но и взвешенного причинного мышления. Когда нам нужно исследовать не само явление, а именно его причину, как правило, лучше начать с корреляционного анализа больших данных и уже на его основе проводить углубленный поиск причинно-следственных связей.
На протяжении тысячелетий люди пытались понять принципы мироздания, стараясь найти причинно-следственные связи. Какую-то сотню лет назад, в эпоху малых данных, когда не было статистики, оперировали категориями причинности. Но все меняется с приходом больших данных.
Причинно-следственные связи не утратят своей актуальности, но перестанут быть главным источником знаний о том или ином предмете. В эпоху больших данных то, что мы считаем причинностью, на самом деле не более чем частный случай корреляционной связи. Хотя порой мы по-прежнему хотим выяснить, объясняют ли причинно-следственные связи обнаруженную корреляцию. Большие данные, напротив, ускоряют корреляционный анализ. И если корреляции не заменяют исследование причинности, то направляют его и предоставляют нужную информацию. Наглядным примером служат загадочные взрывы канализационных люков на Манхэттене.
Задача с канализационными люками
Ежегодно несколько сотен люков в Нью-Йорке начинают тлеть из-за возгорания частей канализационной инфраструктуры. От взрыва чугунные крышки люков весом до 300 фунтов взмывают на высоту в несколько этажей, а затем с грохотом падают, подвергая опасности окружающих.
Con Edison, коммунальная компания, которая занимается электроснабжением Нью-Йорка, из года в год проводит регулярные проверки и техобслуживание люков. Раньше специалисты в основном полагались на волю случая, надеясь, что взрывоопасными окажутся именно те люки, которые планируется проверить. Такой подход был едва ли полезнее, чем блуждание по Уолл-стрит. В 2007 году компания Con Edison обратилась к статистикам Колумбийского университета, расположенного на окраине города, в надежде, что статистические данные о сети (например, сведения о предыдущих неполадках и инфраструктурных соединениях) помогут спрогнозировать, какие люки вероятнее всего небезопасны, и это позволит компании целенаправленно использовать свои ресурсы.
Это сложная проблема, связанная с большими данными. Общая протяженность подземных кабелей в Нью-Йорке — 94 000 миль (достаточно, чтобы обхватить Землю 3,5 раза). В одном только Манхэттене около 51 000 люков и распределительных коробок. Часть этой инфраструктуры построена еще во времена Томаса Эдисона (тезки компании), а один из 20 кабелей заложен до 1930 года. Сохранились записи, которые велись с 1880 года, но не систематизированные, поскольку их не собирались анализировать. Данные предоставили бухгалтерия и диспетчеры аварийной службы, которые вручную писали «заявки на устранение неисправностей». Назвать их беспорядочными — ничего не сказать. К примеру, один лишь термин «распределительная коробка» (англ. service box), обозначающий обычную часть инфраструктуры, был записан в 38 вариантах, в том числе: SB, S, S/B, S.B, S?B, S.B., SBX, S/BX, SB/X, S/XB, /SBX, S.BX, S &BX, S?BX, S BX, S/B/X, S BOX, SVBX, SERV BX, SERV-BOX, SERV/BOX и SERVICE BOX. Распознать все это предстояло компьютерному алгоритму.
«Взглянув на это, мы подумали, что нам не удастся проанализировать данные, поскольку они были невероятно сырыми, — вспоминает Синтия Рудин, статистик и руководитель проекта. — У меня имелись распечатки таблиц для всех видов кабелей. Вытаскивая какие-то из них, мы не могли удержать их в руках — все тут же летело на пол. И в этом всем нужно было разобраться. Без какой-либо документации. Мне оставалось только думать, как из всего этого извлечь пользу».
Для работы Синтии Рудин и ее команде следовало использовать все данные, а не только выборку, поскольку любой из десятков тысяч люков грозил оказаться бомбой замедленного действия. Таким образом, только подход «N = всё» мог прийти на помощь. Совсем не мешало бы продумать причинно-следственные связи, но на это ушла бы сотня лет, притом что правильность и полнота результатов оставались бы сомнительными. Лучшим решением этой задачи было найти корреляции. Синтию интересовал не столько вопрос почему, сколько что, хоть она и осознавала, что, когда команде феноменальных специалистов по статистике придется отвечать перед руководством Con Edison, им придется обосновать свой рейтинг. Прогнозы выполнялись компьютерами, но их потребителем выступал человек. А людям, как правило, нужны причины, чтобы понять.
Интеллектуальный анализ данных обнаружил те самые «золотые самородки», которые Синтия Рудин надеялась найти. Очистив беспорядочные данные для обработки с помощью компьютера, команда определила 106 прогностических факторов основной аварии, связанной с канализационными люками. Затем из них отобрали несколько самых сильных сигналов. Проверяя электросеть Бронкса, специалисты проанализировали все имеющиеся данные вплоть до середины 2008 года. Затем на основе этих данных спрогнозировали проблемные участки с расчетом на 2009 год и получили блестящий результат: из 10% первых по списку люков 44% были связаны с серьезными происшествиями.
Основными факторами оказались возраст кабелей и наличие неполадок в люках в прошлом. Как ни странно, эти сведения были полезными, поскольку легко объясняли руководству Con Edison, на чем основан рейтинг. Но, помилуйте, возраст и неполадки в прошлом? Разве это не достаточно очевидно? И да и нет. С одной стороны, как любил повторять математик Дункан Уоттс (в своей книге[66]), «все очевидно, когда вы уже знаете ответ». С другой стороны, важно помнить, что модель изначально содержала 106 прогностических факторов. И не так уж очевидно, как их взвесить, а затем ранжировать десятки тысяч люков, учитывая множество переменных, связанных с каждым фактором. В итоге получаются миллионы точек данных, притом что сами данные изначально непригодны для анализа.
Этот случай наглядно демонстрирует, как данные находят новое применение для решения сложных задач реального мира. Для этого понадобилось изменить подход к работе и использовать все данные, которые удалось собрать, а не только их небольшую часть. Нужно было принять естественную беспорядочность данных, а не рассматривать точность как высший приоритет. К тому же пришлось рассчитывать на корреляции, не зная полностью причин, которые легли в основу прогнозирования.
Конец теории?
Большие данные меняют наш подход к познанию мира. В эпоху малых данных мы руководствовались гипотезами о том, как устроен мир, а затем старались проверить их путем сбора и анализа данных. В дальнейшем наше понимание будет зависеть от изобилия данных, а не от гипотез. Получая и анализируя данные, мы увидим связи, о которых и не подозревали раньше.
Гипотезы часто являются продуктом теорий естественных и социальных наук, которые помогают объяснить, а иногда и спрогнозировать события окружающего мира. По мере того как мир переходит от гипотез к данным, велико искушение решить, что теории тоже больше не нужны.
В 2008 году главный редактор журнала Wired Крис Андерсон высказал мнение, что «ввиду огромного потока данных научные методы уже неактуальны». В статье «Век петабайтов» он заявил, что это означает не что иное, как «конец теории». Традиционный процесс научного открытия (проверка гипотезы на достоверность с помощью модели основополагающих причин), по утверждению Андерсона, уже отжил свое и заменен статистическим анализом корреляций, в котором нет места теории.[67]
В подтверждение Андерсон пояснил, что квантовая физика стала практически полностью теоретической областью, поскольку эксперименты слишком сложные, дорогостоящие и слишком масштабные для реализации. Эта теория, как считает Андерсон, уже не имеет ничего общего с действительностью. Чтобы объяснить новый метод, он приводит в пример поисковую систему Google и генетическое секвенирование. «Это мир, в котором большие объемы данных и прикладная математика заменяют любые другие нужные инструменты, — пишет Андерсон. — При достаточном количестве данных числа говорят сами за себя. И петабайты позволяют сказать, что корреляций вполне достаточно».
Статья вызвала оживленное обсуждение, хотя Андерсон быстро отказался от своих смелых заявлений.[68] Но его основная идея достойна внимания. По сути, он считает, что до недавнего времени в стремлении проанализировать и понять окружающий мир нам требовались теории, которые проверялись на достоверность. В эпоху больших данных, напротив, основная идея состоит в том, что нам больше не нужны теории — достаточно взглянуть на данные. Предполагается, что все обобщенные правила (о том, как устроен мир, как ведут себя люди, что покупают потребители, как часто ломаются детали и т. д.) могут утратить свою актуальность, когда в ход идет анализ больших данных.
«Конец теории» позволяет предположить: несмотря на то что предметные области, такие как физика и химия, полны теорий, анализ больших данных не нуждается в каких-либо концептуальных моделях. Но это абсурд!
Большие данные имеют теоретическую основу. При анализе больших данных используются статистические и математические теории, а иногда и теоретические знания из области компьютерных наук. Да, это не теории о причинной динамике того или иного явления (например, гравитации), но все же теории! И, как было показано ранее, модели на основе этих теорий, лежащих в основе анализа больших данных, открывают полезные возможности прогнозирования. На самом деле анализ больших данных может предложить свежий взгляд и новые идеи именно потому, что не обременен рамками традиционного мышления и присущими ему предубеждениями, которые неявно представлены в теориях конкретной области.
Поскольку анализ больших данных основан на теориях, эту основу невозможно игнорировать — более того, нужно признать, что она тоже влияет на результат. Все начинается с того, как мы выбираем данные. Их сбор может быть обусловлен удобством (доступны ли данные) или экономией (можно ли получить данные по дешевке). Наш выбор в данном случае зависит от теорий. Как полагают Дана Бойд[69] и Кейт Кроуфорд,[70] наши находки зависят от того, что мы выбираем. В конце концов, специалисты Google использовали в качестве закономерности условия поиска, связанные с гриппом, а не с размерами обуви. Точно так же, анализируя данные, мы выбираем инструменты, которые опираются на теории. Наконец, интерпретируя результаты, мы снова применяем теоретические знания. Эпоха больших данных отнюдь не лишена теорий — они повсюду, со всеми вытекающими последствиями.
Большие данные не предрекают «конец теории», но принципиально меняют наше представление об окружающем мире. Обществу предстоит еще ко многому привыкнуть ввиду этих изменений. Многие учреждения столкнутся с новыми трудностями. Но огромные преимущества, которые мы получим, делают такой компромисс не только целесообразным, но и неизбежным. При этом следует отметить, как это произойдет. Большинство специалистов в области высоких технологий, поскольку сами занимаются их созданием, сказали бы, что все дело в новых инструментах — от быстрых чипов до эффективного программного обеспечения. Однако эти инструменты не настолько важны, как можно подумать. Более глубокая причина сложившихся тенденций лежит в том, что у нас появилось намного больше данных, так как стало фиксироваться больше факторов действительности. Об этом — в следующей главе.
Глава 5
Датификация
Мори Мэтью Фонтейн был многообещающим офицером военно-морского флота США. Получив новое назначение, в 1839 году он направился на бриг Consort. Его дилижанс внезапно съехал с дороги, опрокинулся, и Мори вылетел наружу. Жестко приземлившись, он сломал бедренную кость и вывихнул колено. Местный врач вправил ему коленный сустав, но бедренная кость срослась неправильно, и через несколько дней ее потребовалось повторно ломать. Из-за травм 33-летний Мори начал прихрамывать и стал непригоден к морской службе. Спустя почти три года, потраченных на оздоровление, он был назначен на офисную службу в ВМФ в качестве руководителя отдела со скучным названием «Депо карт и приборов».
И эта должность подошла ему как нельзя лучше! Будучи молодым штурманом, Мори задавался вопросом, почему корабли движутся по водной глади зигзагообразно, а не по прямой. Задавая этот вопрос капитанам, он слышал в ответ, что намного лучше держаться знакомого курса, чем рисковать и идти по малознакомому, который таит в себе скрытые опасности. Океан считался непредсказуемым царством, полным неожиданностей, волн и порывов ветра.
Имея опыт путешествий, Мори знал, что это не совсем так. Он во всем искал систему. Находясь в просторном порту в Вальпараисо (Чили), он заметил, что ветры дуют с точностью часов. Вечерний сильный ветер резко затихал на закате и сменялся легким бризом, будто кто-то щелкнул выключателем. Во время другого рейса Мори пересек теплые ярко-синие воды Гольфстрима, которые текут между темными стенами морских вод Атлантики по одному и тому же пути, словно река Миссисипи. Португальцы и вправду веками плавали по Атлантике, опираясь на постоянные восточные и западные ветры — пассаты (от древнеангл. «путь» или «курс», который стал ассоциироваться с торговлей).
Всякий раз, оказываясь в новом порту, мичман Мори отправлялся на поиски старых морских капитанов, чтобы перенять знания, основанные на опыте, который передавался из поколения в поколение. Так он узнал о приливах, ветрах и морских течениях, действующих с определенной закономерностью, о которой не прочтешь ни в одной книге и которой не увидишь ни на одной карте, что выпускались для моряков военно-морским флотом. Вместо этого в ВМФ полагались на карты порой столетней давности, многие из которых содержали значительные упущения или откровенные неточности. Занимая новую должность начальника депо карт и приборов, Мори стремился исправить это положение.
Со вступлением на пост он пополнил депо барометрами, компасами, секстантами и хронометрами. Он обратил внимание на множество хранившихся здесь книг по морскому делу, карт и схем. Среди материалов были заплесневелые ящики, забитые старыми журналами со всех прошлых плаваний капитанов ВМС. Предшественники рассматривали их как мусор, но Мори отряхнул пыль с покрытых пятнами морской соли книг и заглянул внутрь. Увиденное не оставило его равнодушным.
Здесь была как раз нужная информация: записи о ветре, водах и погоде в определенных точках, расписанные по датам. Некоторые из них были не слишком ценными, зато множество других изобиловали полезной информацией. Сведя их, Мори понял, что можно создать совершенно новую форму навигационной карты. Журналы были бессистемными. С чудаковатыми стишками и набросками на полях, они порой казались попыткой спастись от скуки в пути. Но были и сведения, которые пригодились. При помощи десятков «расчетчиков» (так назывались те, кто занимался расчетом данных) Мори начал трудоемкий процесс сведения информации, которая хранилась в истрепанных журналах.
Мори объединил данные и разделил всю Атлантику на блоки по пять градусов долготы и широты. Он отметил температуру, скорость и направление ветра и волн, а также соответствующий месяц, поскольку тенденции разнились в зависимости от времени года. Объединенные данные показывали определенные тенденции и указали более удачные маршруты.
Из поколения в поколение моряки передавали советы отправлять суда то в спокойные воды, то навстречу встречным ветрам и течениям. На одном из распространенных маршрутов — из Нью-Йорка в Рио-де-Жанейро — моряки, как правило, боролись со стихией, а не союзничали с ней. Американских шкиперов учили избегать опасных плаваний вдоль пролива к югу от Рио, поэтому суда легко скользили по юго-восточному курсу, а по пересечении экватора меняли его на юго-западный. Пройденное расстояние равнялось двум маршрутам через всю Атлантику. Как оказалось, в этом не было необходимости: они могли спокойно придерживаться прямого курса на юг.
Для большей точности Мори нужна была дополнительная информация. Он создал стандартную форму для регистрации данных судов и обязал все суда военно-морского флота США заполнять ее и сдавать по возвращении. Поскольку капитаны торговых судов жаждали получить его карты, Мори настоял, чтобы взамен они пустили в оборот свои журналы (тем самым образовав раннюю версию вирусной социальной сети). Мори объявил, что «каждое судно, которое выходит в открытое море, отныне может рассматриваться как плавающая обсерватория, храм науки». Для уточнения карт он искал другие точки данных (так же на основе алгоритма вычисления рейтингов веб-страниц PageRank была создана система Google, учитывающая больше сигналов). Мори поручил капитанам периодически бросать в море бутылки с записками, в которых указывать день, должность, преобладающие ветра и течения, а также вылавливать все бутылки, которые встречаются им на пути. Многие корабли вывешивали специальный флаг, чтобы показать, что они участвуют в обмене информацией (предвестники значков-ссылок «поделиться», которые отображаются на некоторых веб-страницах).
На основе данных сами собой вырисовывались естественные морские пути, где ветры и течения были особенно благоприятными. Карты Мори, как правило, сокращали долгое путешествие на треть, обеспечивая купцам значительную экономию. «Пока я не взял на вооружение ваш труд, я пересекал океан с завязанными глазами», — с благодарностью писал один из капитанов. Даже бывалые моряки, которые отвергали новомодные карты и полагались на старые пути, выполняли полезную функцию: если на их путешествие уходило больше времени или они попадали в беду, это служило лишним доказательством в пользу системы Мори. К моменту публикации своей магистерской работы «Физическая география моря» в 1855 году Мори успел определить координаты 1,2 миллиона точек данных. «Таким образом, молодой моряк, вместо того чтобы брести на ощупь вперед, пока не наберется опыта… здесь сразу нашел бы рекомендации, основанные на опыте тысяч штурманов»,[71] — писал Мори.
Его работа имела огромное значение для закладки первого трансатлантического телеграфного кабеля. А после трагического столкновения в открытом море он быстро разработал системы судоходных путей, которые используются по сей день. Он даже применил свой метод к астрономии: с открытием планеты Нептун в 1846 году Мори выдвинул прекрасную идею пересмотреть все архивные записи, где планета ошибочно упоминается как звезда, что позволило установить ее орбиту.
Выходец из Вирджинии, Мори редко упоминается в источниках американской истории. Возможно, это потому, что он ушел из флота во время Гражданской войны в США и служил шпионом в Англии на благо Конфедерации. Но несколькими годами ранее, прибыв в Европу, чтобы заручиться международной поддержкой для своих карт, в четырех странах Мори был посвящен в рыцари, а еще в восьми — награжден золотыми медалями, включая награду Святого Престола. И теперь лоцманские карты, изданные военно-морским флотом США, носят его имя.
Коммодор[72] Мори одним из первых осознал основополагающий принцип больших данных: огромный корпус данных обладает особой ценностью, которой нет в меньших количествах. Более того, он понял, что заплесневелые журналы ВМФ на самом деле представляют собой «данные», если из них извлечь и свести в таблицы соответствующую информацию. При этом он впервые использовал данные, в частности те сведения, которые никому не представлялись ценными, повторно. Подобно Орену Эциони из Farecast, который с помощью старых сведений о ценах в авиационной отрасли создал прибыльный бизнес, или инженерам Google, применившим старые поисковые запросы, чтобы понять распространение вспышек гриппа, Мори взял целенаправленно созданную информацию (сведения о местоположении для безопасного путешествия) и преобразовал ее.
Его метод, в целом аналогичный современным методам работы с большими данными, был поразительным, учитывая, что Мори реализовывал его с помощью карандаша и бумаги. Это значит, что использование данных появилось намного раньше оцифровки. Сегодня мы часто объединяем эти понятия. Однако важно их различать. Уяснить, как данные получают из самых неожиданных областей, нам поможет более современный пример.
Сигеоми Косимицу, профессор Института передовых промышленных технологий в Токио, сумел извлечь данные из параметров, соотнесенных с ягодицами. Мало кому придет в голову, что сидячие позы несут в себе информацию, но это так. Контуры тела, позу и распределение веса сидящего человека можно оценить количественно и свести полученные цифры в таблицу. С помощью датчиков, размещенных в 360 разных точках сиденья автомобиля, Косимицу и группа инженеров снимают показатели давления, которое оказывают ягодицы водителя, оценивая каждую точку по шкале от 0 до 256 баллов. Получается цифровой код, уникальный для каждого человека. В ходе судебного разбирательства эта система способна отличить одного человека от другого с точностью до 98%.
Это исследование проводится не ради забавы. Технологию планируется использовать в качестве противоугонной системы автомобилей. Оборудованный такой системой автомобиль способен распознать «чужака» за рулем и потребовать пароль для запуска двигателя. Преобразование поз в данные представляет собой практичную услугу населению и потенциально прибыльный бизнес. Объединение данных может выявить связь между позой водителя и безопасностью на дорогах, например зафиксировать изменение позы перед дорожно-транспортным происшествием. Система способна также «почувствовать» замедление реакции из-за утомления и послать сигнал тревоги или автоматически нажать на тормоза. Она может не только обнаружить, что автомобиль украден, но и определить вора, так сказать, «со спины».
Профессор Косимицу обратился к материалу, который никогда не рассматривался как данные (вряд ли кому вообще пришло бы в голову, что он обладает информационными качествами), и преобразовал его в цифровой, количественный формат. Таким же образом коммодор Мори взял материал, который казался практически бесполезным, и получил из него информацию, превратив его в поистине полезные данные. Это позволило использовать информацию по-новому и придало ей уникальную ценность.
Слово data (англ. данные) в переводе с латинского означает «данность», то есть «факт». Это понятие стало краеугольным камнем классического труда Евклида, в котором геометрия объясняется с точки зрения известных данных и таких, которые можно показать, чтобы сделать известными. Сегодня данные относят к некоторому процессу, который позволяет их записывать, анализировать и переупорядочивать. Пока не придуман подходящий термин для обозначения такого рода преобразований, которые выполняли коммодор Мори и профессор Косимицу. Назовем их датификацией, под которой подразумевается процесс представления явлений в количественном формате для дальнейшего сведения в таблицу и анализа.
Датификация — далеко не то же самое, что оцифровка, при которой аналоговая информация преобразуется в двоичный код (или последовательность единиц и нулей), считываемый компьютером. Оцифровка не являлась первичной функцией компьютеров. Эпоха компьютерной революции изначально была связана с вычислениями, как и предполагает этимология слова compute (англ. «вычислять»). Мы выполняли вычисления, которые занимали много времени (такие, как вычисления в таблицах траекторий ракет, расчеты для переписей и сведений о погоде). И лишь затем появилась оцифровка аналогового контента. Поэтому, когда Николас Негропонте из MIT Media Lab опубликовал свою эпохальную книгу Being Digital в 1995 году, одной из поднятых им тем был переход от атомов к битам. К началу 1990-х годов этот переход в значительной степени коснулся текстовых данных. По мере увеличения емкости хранилищ, процессоров и пропускной способности за последнее десятилетие это удалось сделать и с другими формами контента (изображениями, видео, музыкой и пр.).
Сегодня среди технологов негласно принято считать, что большие данные ведут свое начало с момента «кремниевой» революции. Но это не так. Безусловно, большие данные стали возможны благодаря современным ИТ-системам, но основная идея лишь продолжила древнейшие поиски человечества в области измерения, записи и анализа мира.[73] ИТ-революция, произошедшая в мире, очевидна. Основной акцент в ней приходился на «Т» — технологии. Пришло время переключиться на «И» — информацию.
Для того чтобы записывать информацию в количественной форме (датифицировать ее), нам нужно знать, как проводить измерения и записывать полученный результат. А для этого необходим правильный набор инструментов, а также желание количественно измерять и записывать. И то и другое — предпосылки датификации, и человечество разработало ее «строительные элементы» задолго до начала цифровой эпохи.
Мир, выраженный в количественных категориях
Возможность записи информации — одно из главных различий между примитивными и передовыми обществами. Основы счета, а также измерение длины и веса были древнейшими инструментами ранних цивилизаций. К началу III тысячелетия до н. э. идея записи информации значительно продвинулась вперед. Это произошло в долине Инда, Египте и Месопотамии. Повысилась точность измерений, да и сами они прочно вошли в повседневную жизнь. Эволюция письменности в Месопотамии обеспечила точный метод отслеживания производства и деловых операций. Это позволило ранним цивилизациям измерять окружающие объекты и явления, делать записи о них и извлекать их позднее. Измерение и запись способствовали созданию данных. Они же являются древнейшими основами датификации.
Так стало возможным воспроизводить продукты человеческой деятельности, например здания, записывая их размеры и строительные материалы. При этом можно было экспериментировать, изменяя отдельные размеры, чтобы создать нечто новое, что затем тоже подлежало бы записи. Можно было записывать коммерческие сделки, чтобы знать, сколько урожая удалось собрать с поля (и сколько из него уйдет государству в виде налога). Появилась возможность прогнозирования и планирования, даже если они заключались в простом предположении, что следующий год будет таким же урожайным, как и текущий. Благодаря этому деловые партнеры могли отслеживать, сколько они должны друг другу. Без измерения и записей не появились бы деньги, поскольку не было бы данных для их обоснования.
Спустя столетия область применения измерений расширилась от длины и веса до площади, объема и времени. К началу I тысячелетия основные функции измерений узнал Запад. Существенным недостатком способа измерения в ранних цивилизациях являлось то, что он не был оптимизирован для вычислений, даже относительно простых. Система счета римских цифр малопригодна для численного анализа. Без позиционной системы нумерации из десяти основных цифр и десятичных чисел даже лучшим специалистам трудно давались умножение и деление больших чисел, а большинству остальных не хватало прозрачности даже в простом сложении и вычитании.[74]
В Индии альтернативная система счисления появилась примерно в I веке. Она перекочевала в Персию, где была усовершенствована, а затем принята арабами, которые тоже значительно ее улучшили. Эта система стала основой арабских цифр, которыми мы пользуемся до сих пор. Крестовые походы, может, и несли абсолютное разрушение землям, на которые вторгались европейцы, но при этом знания мигрировали с востока на запад, и, пожалуй, самым значительным иноземным нововведением стали арабские цифры. Папа Сильвестр II, который занимался их изучением, выступил за их использование в конце первого тысячелетия. К началу ХІІ века арабские тексты, описывающие данную систему, были переведены на латынь и распространились по всей Европе, дав начало математике.
Еще до того, как в Европе появились арабские цифры, вычислительный процесс улучшило использование счетных досок. На этих досках делались гладкие желобки, в которых размещались счетные метки для обозначения сумм. Складывали и вычитали, перемещая метки в определенных областях. Такой способ имел значительные ограничения: было трудно одновременно рассчитывать очень большие и очень маленькие количества. А самое главное — недолговечность цифр на этих досках. Неверный шаг, небрежный удар — и цифра могла измениться, что приводило к неправильным результатам. Счетные доски годились для расчетов, но не для записи. Поэтому всякий раз, когда числа с доски необходимо было записать, их переводили обратно в неудобные римские цифры.[75] (Европейцы так и не переняли восточный способ подсчета с помощью абака,[76] но это оказалось к лучшему, так как не дало увековечить на Западе использование римских цифр.[77])
Математика придала данным новый смысл: теперь их можно было анализировать, а не только записывать и при необходимости извлекать. Прошли сотни лет с момента введения арабских цифр (ХІІ век) до их широкого распространения (конец ХVІ века). К началу ХVІ века математики уже гордились тем, что с помощью арабских цифр проводили расчеты в шесть раз быстрее, чем с помощью счетных досок. Окончательный успех арабским цифрам принесла эволюция еще одного инструмента датификации — двойной бухгалтерии.
Счетоводы изобрели письменность в III тысячелетии до н. э. Несмотря на развитие счетоводства в последующих столетиях, оно, по сути, оставалось централизованной системой учета конкретных сделок. Но так и не удалось реализовать механизм, благодаря которому счетоводы и их торговцы-работодатели могли бы в любой момент времени увидеть то, что интересовало их больше всего: является конкретный счет или целая компания прибыльной или нет. Ситуация изменилась в XIV веке, когда счетоводы Италии начали записывать операции одновременно в двух книгах. Изящество этой системы заключалось в том, что прибыль и убытки можно было легко свести в таблицы по каждому счету, просто добавив кредиты и дебеты. И «скучные» данные вдруг «заговорили», пусть даже сбивчиво и только в пределах выявления прибыли и убытков.
Сегодня двойная бухгалтерия, как правило, рассматривается только с точки зрения ее последствий для бухгалтерского учета и финансов. Однако она стала вехой в эволюции использования данных, так как позволила записывать информацию в виде «категорий», связывающих счета между собой. Она работала по принятым правилам записи данных, став одним из самых ранних примеров стандартизированной системы записи информации. Бухгалтеры могли с легкостью разобраться в записях друг друга. Бухгалтерия была организована таким образом, чтобы сделать определенный тип запроса данных (расчет прибыли или убытков по каждому счету) быстрым и простым. Наконец, она предусматривала аудиторский след операций для более удобного прослеживания данных. Двойная бухгалтерия разрабатывалась с учетом встроенной «системы исправления ошибок», которая и сегодня не оставила бы равнодушными любителей технологий. Если запись в одной части бухгалтерской книги вызывала сомнения, можно было проверить соответствующую ей запись в другой.
Как и арабские цифры, двойная бухгалтерия не сразу стала успешной. Лишь спустя двести лет с момента изобретения этого метода вмешательство математика и купеческой семьи, наконец, изменило историю датификации.
Математик — это францисканский монах Лука Пачоли. В 1494 году он опубликовал учебник по коммерческой математике, рассчитанный на непрофессионалов в этой области. Благодаря своей популярности книга, по сути, являлась в то время учебником по математике. Кроме того, она стала первой книгой, полностью построенной на арабских цифрах, тем самым способствуя их укоренению в Европе. Наиболее долгосрочным вкладом была часть книги, посвященная бухгалтерии, где Пачоли четко объяснял систему двойного бухгалтерского учета. В течение последующих десятилетий часть, посвященную бухгалтерскому учету, отдельно издали на шести языках, и веками она оставалась настольной книгой по этому предмету.
Что касается купеческой семьи, это были знаменитые венецианские торговцы и меценаты — Медичи. В XVI веке они стали самыми влиятельными банкирами в Европе, в значительной степени благодаря тому, что использовали улучшенный способ записи данных — систему двойной записи. Учебник Пачоли и успех Медичи в его применении утвердили победу двойной бухгалтерии в качестве стандартной записи данных и с того момента закрепили использование арабских цифр.
Параллельно с достижениями в области записи данных развивалась идея измерения окружающего мира, которая подразумевала обозначения времени, расстояния, площади, объема и веса. Стремление познать природу через количественные категории определило развитие науки в XIX веке: ученые изобрели новые инструменты и агрегаты для измерения и регистрации электрических токов, атмосферного давления, температуры, частоты звука и т. п. Это была эпоха всеобщего определения, разграничения и обозначения. Увлечение этими процессами дошло до измерения черепа человека и его умственных способностей для выявления закономерностей между ними. К счастью, эта лженаука («френология») уже практически исчезла. Но желание все количественно измерить только усилилось.
Измерение объектов и явлений реального мира, а также запись получаемых данных процветали благодаря сочетанию подходящих инструментов и восприимчивого мышления. На этой благодатной почве и выросла датификация в ее современном понимании. Все составляющие датификации были готовы к использованию, однако в аналоговом мире этот процесс все еще оставался трудоемким и дорогостоящим. В большинстве случаев требовалось обладать бесконечным терпением или же посвятить этому делу всю жизнь. Примером тому служат тщательные ночные наблюдения за небесными телами, которые проводил астроном Тихо Браге[78] в 1500-х годах. В аналоговую эпоху случаи удачной датификации были редкостью. Как правило, им способствовало счастливое стечение обстоятельств (как в истории коммодора Мори, который был вынужден заниматься офисной работой, но имел в своем распоряжении целый склад журналов). Всякий раз результатом датификации исходной информации оказывались огромная ценность и потрясающие открытия.
Появление компьютеров повлекло за собой внедрение цифровых устройств для измерения и хранения данных, которые значительно повысили эффективность датификации, а также сделали возможным математический анализ данных для раскрытия их скрытой ценности. Проще говоря, оцифровка стала катализатором датификации, но никак не ее заменой. Процесс оцифровки (преобразование аналоговой информации в формат, считываемый компьютером) сам по себе не является датификацией.
Когда слова становятся данными
Разница между оцифровкой и датификацией данных станет очевидной, если посмотреть на домен, где происходит и то и другое, и сравнить последствия. Рассмотрим такой пример. В 2004 году компания Google объявила невероятно смелый план — полностью оцифровать все книги, которые находятся в ее распоряжении (насколько это возможно с учетом законов об авторском праве), и дать возможность людям по всему миру искать и бесплатно просматривать книги через интернет. Чтобы совершить этот подвиг, компания объединилась с несколькими крупнейшими и наиболее престижными научными библиотеками мира и разработала машины для сканирования, которые могли бы автоматически перелистывать страницы, делая сканирование миллионов книг не только реализуемым, но и финансово жизнеспособным.
Первый текст, оцифрованный компанией Google, выглядел так. Каждую страницу отсканировали и записали в виде файла цифрового изображения в высоком разрешении, сохраненного на серверах Google. Страницы были преобразованы в цифровые копии, которые любой мог легко получить через интернет из любой точки мира. Однако при этом требовалось точно знать, какая книга содержит нужную информацию, иначе приходилось много читать, чтобы найти правильный отрывок. Текст невозможно было найти по словам или анализировать, поскольку его не датифицировали. Все, чем располагала Google, — это изображения, которые только люди могли превратить в полезную информацию.
И хотя это все равно было отличным инструментом — современной цифровой Александрийской библиотекой, более полезной, чем любая другая библиотека за всю историю, — Google этого показалось мало. Компания понимала, что эта информация хранила в себе ценнейший ресурс, который можно получить только в результате датификации. Поэтому специалисты Google пустили в ход программу оптического распознавания символов, которая могла распознать буквы, слова, предложения и абзацы в цифровом изображении. В итоге получался датифицированный текст, а не оцифрованная картинка страницы.
Теперь информация со страниц была доступна не только для чтения, но и для обработки на компьютерах и для анализа с помощью алгоритмов. Благодаря этому текст становился индексируемым, а значит, доступным для поиска. Стал возможным бесконечный поток текстового анализа. Так, например, можно узнать дату первого упоминания определенных слов и фраз или выяснить, когда они стали популярными. Это позволяет нам по-новому взглянуть на распространение идей и развитие человеческого мышления на протяжении столетий и на многих языках.
Попробуйте сами. Служба Google NgramViewer (http://books.google.com/ngrams) создает график использования слов или фраз с течением времени, применяя в качестве источника данных весь перечень книг Google. Всего за несколько секунд мы можем обнаружить, что до 1900 года термин «причинность» (англ. causality) использовался чаще, чем «корреляция» (англ. correlation), но затем соотношение изменилось. Мы можем сравнить стили письма и понять, кто прав в спорах об авторстве. Кроме того, благодаря датификации стало гораздо легче обнаруживать плагиат в научных трудах, вследствие чего некоторые европейские политики, в том числе министр обороны Германии, были вынуждены уйти в отставку.
По оценкам, с момента изобретения печатного станка (середина XV века) опубликовано 129 миллионов различных книг. К 2010 году, пять лет спустя после запуска своего книжного проекта, компании Google удалось отсканировать более 15 миллионов наименований — существенную часть письменного наследия мира (более 12%). Это дало начало новой учебной дисциплине — «культуромике». Она представляет собой вычислительную лексикологию, которая пытается понять поведение человека и культурные тенденции путем количественного анализа текстов.
В ходе одного из исследований гарвардские ученые, обработав миллионы книг и более 500 миллиардов слов, выявили, что менее половины английских слов, которые встречаются в книгах, включены в словари. Они писали, что английский лексикон «состоит из лексической “темной материи”, которая не зафиксирована в стандартных справочных источниках». Проведя алгоритмический анализ упоминаний о еврейском художнике времен нацистской Германии Марке Шагале, они могли бы показать, что подавление или цензура идеи, как и человека, оставляет «отпечатки, которые можно измерить количественно». Слова на страницах — словно окаменелости в осадочных горных породах, до которых приверженцы культуромики могут докопаться, словно археологи. Конечно, это влечет за собой огромное количество неявных предубеждений: отражают ли библиотечные книги истинное положение вещей в мире или показывают только то, что дорого авторам и библиотекарям? И все же культуромика дает интересные результаты.
Преобразование слов в данные открывает множество способов их применения. Конечно, их можно читать традиционным способом или анализировать с помощью компьютера. Но для Google как для образцовой компании, которая занимается обработкой больших данных, не было секретом, что информация имеет несколько потенциальных назначений, вполне оправдывающих ее сбор и датификацию. Так, например, с помощью датифицированного текста Google удалось улучшить свою службу машинного перевода. Как говорилось в третьей главе, система определяла отсканированные переводные книги и анализировала, какие слова и фразы на одном языке соответствуют словам и фразам на другом. Зная это, система обрабатывала перевод как огромную математическую задачу, в которой компьютер выясняет вероятности, чтобы определить наилучшие соответствия слов в разных языках.
Переход от цифровых изображений страниц к датифицированному тексту чреват ошибками. Даже очень сложные программы распознавания символов сталкиваются с трудностями из-за чрезвычайного разнообразия шрифтов, опечаток в тексте и выцветших чернил. Для слов, которые до сих не поддаются расшифровке с помощью специальных программ, компания Google поставила себе на службу хитрый способ получать непреднамеренную помощь от интернет-пользователей (об этом подробнее рассказано в следующей главе).
Конечно, Google не единственная компания, которая мечтала перенести богатое письменное наследие мира в эпоху компьютеров. Она далеко не первая решила попробовать это осуществить. Проект «Гутенберг» (общественная инициатива по размещению различных произведений в интернете для общего пользования) был призван сделать тексты доступными людям исключительно для чтения. При этом не предусматривались дополнительные способы использования слов (в качестве данных), то есть не шла речь о повторном использовании. Подобным образом издатели в течение многих лет экспериментировали с электронными версиями книг. Но они тоже видели основную ценность книг в их содержании, а не в данных. На этом строилась их бизнес-модель. Издатели никогда не обращали внимания на данные, присущие тексту книги, и не позволяли этого другим. Они не видели в этом необходимости и попросту недооценивали потенциал данных.
Многие компании сейчас соперничают за успех на рынке электронных книг. Похоже, в этой области с большим отрывом лидирует компания Amazon с ассортиментом своих электронных книг Kindle. Однако стратегии компаний Amazon и Google в этой области значительно разнятся.
Компания Amazon получила в свое распоряжение датифицированные книги, однако не сумела найти новые способы применения текста в качестве данных. Джефф Безос, основатель и главный исполнительный директор компании, убедил сотни издателей выпустить книги в формате Kindle. Книги Kindle представляют собой не изображения страниц (в противном случае никто бы не смог изменить размер шрифта или отобразить страницы как на цветных, так и на черно-белых экранах) — их текст датифицирован, а не просто оцифрован. Компании Amazon удалось совершить с миллионами новых книг то, что Google усердно старается повторить с множеством старых.
Тем не менее книжный бизнес Amazon завязан на содержимом, которое читают, а не на анализе датифицированного текста. Справедливости ради стоит заметить, что компания наверняка сталкивается с ограничениями, которые консервативные издатели накладывают на использование информации, содержащейся в их книгах. В свою очередь компания Google, как хулиганка в области больших данных, стремящаяся выйти за рамки, конечно, не испытывает таких ограничений — хлеб насущный ей обеспечивают клики пользователей, а не доступ к собственности издателей. Однако, не считая замечательной службы «статистически значимых слов» Amazon, которая использует алгоритмы для выявления неочевидных связей между темами книг, этот интернет-магазин так и не распорядился своей сокровищницей слов для анализа больших данных. Пожалуй, будет справедливо отметить, что, по крайней мере сейчас, Amazon осознает ценность оцифровки контента, а Google — ценность его датификации.
Когда местоположение становится данными
Один из самых весомых источников информации в мире, по сути, сам мир. Большую часть истории человечества он не измерялся количественно и не использовался в форме данных. Безусловно, информацию представляет собой географическое положение объектов и людей: гора находится там, человек — тут. Но эту информацию необходимо преобразовать в данные. Для датификации местоположения требуется несколько составляющих: метод измерения площади земного шара вплоть до сантиметра, стандартизированный способ обозначения и инструмент для сбора и записи данных. Территория, координаты, инструменты. Определение количества, стандартизация, сбор. Только тогда мы сможем хранить и анализировать местоположение не как место само по себе, а как данные.
На Западе количественное измерение местоположения придумали греки. Около 200 года до н. э. Эратосфен изобрел систему координат (сродни широте и долготе) для демаркации местоположений. Со временем она утратила практическое применение, как и множество других хороших идей эпохи Античности. Полтора с половиной тысячелетия спустя (около 1400 года) копия птолемеевского труда «Руководство по географии» прибыла во Флоренцию из Константинополя ввиду того, что эпоха Возрождения и морская торговля возбудили живой интерес к науке и древним знаниям. Это стало сенсацией, и старые уроки Птолемея пригодились для решения современных задач в области навигации. С тех пор на картах появились долгота, широта и масштаб. Позже систему улучшил фламандский картограф Герард Меркатор (в 1570 году), что позволило морякам выстраивать прямые маршруты в круглом мире.
Хотя к этому времени уже сформировался способ записи информации о местоположении, не существовал общепринятый формат для обмена ею. Требовалась единая система идентификации, так же как в интернете требуются доменные имена для работы электронной почты и других служб. Стандартизация долготы и широты заняла много времени и была, наконец, закреплена в 1884 году на Международной меридианной конференции в Вашингтоне (Колумбия), где 25 стран выбрали Гринвич (Англия) в качестве нулевого меридиана и нулевой долготы, и только Франция, считая себя лидером в международных стандартах, воздержалась от голосования. В 1940 году создана система координат «Универсальная поперечная проекция Меркатора» (UTM), согласно которой земной шар разделили на 60 зон для повышения точности.
Геопространственное положение теперь определяли, записывали, подсчитывали, анализировали и распространяли в стандартизированном числовом формате. Появилась возможность датифицировать положение. Однако из-за высокой себестоимости измерение и запись информации в аналоговом виде применялись редко. Изменить ситуацию могли инструменты для менее затратного измерения местоположения. До 1970-х годов единственным способом определения физического местоположения было использование ориентиров, астрономических созвездий, счисления пути и ограниченной технологии определения координат источника радиоизлучения.
Все изменилось в 1978 году после запуска первого из 24 спутников в рамках глобальной системы определения местоположения (GPS). Приемники на Земле, будь то автомобильная навигационная система или смартфон, триангулируют свое положение, отмечая разницу во времени, которое требуется для приема сигнала от спутников, расположенных на высоте более 20 000 км. В 1980-х годах систему впервые открыли для использования в гражданских целях, а в 1990-х она заработала в полную силу. Десятилетием позже ее точность была повышена в коммерческих целях. Система GPS воплотила древнейшую мечту мореплавателей, картографов и математиков, предоставив технические средства для быстрого, относительно дешевого и не требующего специальных знаний измерения местоположения с точностью до одного метра.
Информацию нужно создавать. Ничто не мешало Эратосфену или Меркатору определять свое местоположение ежеминутно, будь у них такое желание, хотя на практике это вряд ли удалось бы осуществить. Первые приемники GPS ввиду сложности и дороговизны не были общедоступными и годились, скорее, для специальных нужд (например, для подводной лодки). Ситуацию изменили недорогие чипы, встроенные в цифровые устройства. Стоимость модуля GPS упала с сотни долларов в 1990-х годах до примерно доллара при нынешнем крупномасштабном производстве. Системе GPS нужно всего несколько секунд, чтобы определить местоположение и выдать координаты в стандартизированном формате. Так, запись 37°14'06"N 115°48'40"W означает, что вы находитесь на суперсекретной американской военной базе в отдаленной части штата Невада — «Зоне-51», где (возможно) находятся космические пришельцы.
В наше время GPS — одна из множества систем, предоставляющих данные о местоположении. В Китае и Европе реализуются конкурирующие спутниковые системы. А поскольку GPS не работает в помещении или среди высотных зданий, для определения положения на основе силы сигнала можно использовать триангуляцию между базовыми станциями сотовой связи или маршрутизаторами Wi-Fi-сети. За счет этого можно достичь еще большей точности данных о местоположении. Становится понятным, почему такие компании, как Google, Apple и Microsoft, создали собственные геолокационные системы, использующие преимущества GPS. Автомобилям Street View компании Google, делающим панорамные фотографии улиц, даже удалось собрать информацию о маршрутизаторах Wi-Fi-сети, а iPhone оказался «шпионским» смартфоном, который собирал данные о местоположении и Wi-Fi-сетях и отправлял их в компанию Apple без ведома пользователей (кроме того, аналогичные данные собирали телефоны Google Android, а также мобильная операционная система Microsoft).[79]
Теперь можно отслеживать не только людей, но и любые другие объекты. Благодаря беспроводным модулям, помещаемым в транспортные средства, датификация местоположения произвела революцию в области страхования. Данные позволяют подробно изучить время, маршрут и пройденное автомобилем расстояние, чтобы лучше оценить риски. В Великобритании водители могут приобрести страховку на автомобиль, исходя из времени и маршрута фактических поездок, а не только из годового показателя, вычисляемого на основе возраста, пола и последней записи. Такой подход к ценообразованию страховых услуг стимулирует примерное поведение. При этом изменяется сама природа страхования: происходит переход от учета объединенных рисков к рискам, основанным на действиях отдельных лиц. Отслеживание физических лиц по транспортным средствам также преобразует характер постоянных затрат, например на дороги и другие объекты инфраструктуры, связывая использование того или иного ресурса с водителями и другими субъектами. Все это было невозможно до того, как появился способ постоянного получения данных о географическом положении людей и объектов. Но это то, к чему мы идем.
Компания UPS использует «геолокационные» данные несколькими способами. Ее автомобили оснащены датчиками, модулями беспроводной связи и GPS, так что в случае задержек специалисты в главном офисе могут определить местоположение фургонов или спрогнозировать неисправности двигателя. Далее, это позволяет компании отслеживать работу сотрудников и изучать карту их маршрутов для дальнейшей оптимизации. Наиболее эффективный путь определяется, в частности, по данным предыдущих поставок, подобно тому как Мори составлял карты на основе более ранних морских плаваний.
По словам Джека Ливиса, начальника отдела управления процессами в компании UPS, программа аналитики дала колоссальные результаты. В 2011 году компании удалось сократить протяженность маршрутов на 30 миллионов миль, тем самым сэкономив три миллиона галлонов топлива и сократив выбросы углекислого газа на 30 тысяч тонн. Кроме того, повысилась безопасность и эффективность, поскольку алгоритм составляет маршруты с меньшим количеством поворотов влево. Такие повороты нередко приводят к ДТП из-за того, что автомобилю приходится пересекать движение на перекрестках, к тому же они отнимают время и потребляют больше топлива, так как перед поворотом двигатель фургона работает на холостом ходу. Телеметрическая система позволяет предвидеть поломку деталей двигателя — прямо как Кэролин Макгрегор в Университете провинции Онтарио заблаговременно определяет заболевания у недоношенных детей, о чем шла речь в четвертой главе.
«Прогнозирование дало нам знание, — говорит Дж. Ливис из UPS и с уверенностью добавляет: — Но кроме знания есть еще кое-что — мудрость и прозорливость. В какой-то момент система станет настолько умной, что будет предсказывать проблемы и исправлять их раньше, чем пользователь успеет сообразить, что что-то не так».
Со временем широкое применение получила датификация местоположения людей. В течение многих лет операторы беспроводной связи собирали и анализировали информацию, чтобы улучшить уровень обслуживания своих сетей. Однако эти данные все чаще используются в других целях и собираются третьими лицами для новых услуг. Например, некоторые приложения для смартфонов накапливают информацию о местоположении независимо от того, имеет ли она отношение к функциям самого приложения. Цель других приложений — построить бизнес вокруг знания о местоположении пользователя. Яркий тому пример — веб-служба Foursquare, которая дает людям возможность «отметиться» в местах, которые они любят посещать. Компания получает доход от программ лояльности, а также рекомендуя рестораны и другие объекты, так или иначе связанные с местоположением.
Возможность собирать геолокационные данные о пользователях становится чрезвычайно ценной. На уровне отдельных лиц она позволяет нацеливать рекламу, исходя из местоположения человека или его предполагаемого пункта назначения. Эту информацию можно объединять для выявления определенных тенденций. Данные о местоположении массовых скоплений дают компаниям возможность обнаруживать пробки, не видя самих автомобилей, на основании количества и скорости перемещения телефонов вдоль шоссе. Компания AirSage ежедневно обрабатывает три миллиарда записей геолокационных данных о перемещении миллионов абонентов сотовой связи для создания отчетов о ситуации на дорогах более чем в 100 городах по всей Америке в режиме реального времени. Две другие компании, которые занимаются геолокацией, Sense Networks и Skyhook, имея данные о местоположении, сообщают, в каких районах города активнее кипит ночная жизнь или сколько протестующих собралось на демонстрации.
Возможно, наиболее важным окажется некоммерческое использование геолокационных данных. Сэнди Пентлэнд, руководитель динамической лаборатории имени Хьюмана при МТИ, и бывший студент Натан Игл вместе открыли, по их словам, «интеллектуальный анализ действительности». Под этим подразумевается обработка больших объемов данных, получаемых с мобильных телефонов, для прогнозирования поведения людей. Они проанализировали передвижение людей и примеры звонков, чтобы определить, что человек заболел гриппом, прежде чем он сам это поймет. При вспышке смертельного гриппа можно спасти миллионы жизней, автоматически определяя, кого следует изолировать и где его найти. Но, как мы рассмотрим позже, попав в безответственные руки, интеллектуальный анализ действительности может привести к ужасающим последствиям.[80]
Натан Игл, основатель стартапа Jana, базирующегося на данных о беспроводной связи, исследовал вопросы распространения заболеваний и процветания городов. Он обработал объединенные данные с мобильных телефонов около 500 миллионов человек в Латинской Америке, Африке и Европе, полученные более чем от 200 операторов беспроводной связи в 80 странах. В одном из исследований Игл и его коллега объединили данные о местоположении абонентов предоплаченной связи в Африке с суммами, которые те тратили на пополнение счета, и выяснили, что эти суммы сильно коррелируют с доходом: хорошо обеспеченные люди покупают больше минут за один раз. Одним из парадоксальных открытий Игла стало то, что трущобы не только являются центром нищеты, но и выступают в качестве экономических трамплинов.[81] Все эти примеры показывают косвенное использование данных о местоположении, которое не имеет ничего общего с их первоначальным назначением — маршрутизацией мобильной связи. Напротив, как только информация о местоположении датифицируется, появляются новые области ее применения, позволяя извлечь из нее новую ценность.
Когда взаимодействия становятся данными
Некоторые границы датификации имеют личный характер: это наши отношения, переживания и настроения. Идея датификации лежит в основе многих социальных сетевых веб-служб. Социальные сети не только предоставляют нам платформу для поиска друзей и коллег, а также поддержания связи с ними, но и преобразуют нематериальные элементы нашей повседневной жизни в данные, которые можно использовать новыми способами. Так, Facebook датифицирует отношения. Они всегда представляли собой информацию, но официально не считались данными, пока не появился «социальный граф» Facebook. Twitter датифицирует настроения, предлагая людям способ легко записывать свои бессвязные мимолетные мысли и делиться ими с другими. LinkedIn датифицирует длительный профессиональный опыт (так же как Мори преобразовывал старые журналы), превращая эту информацию в прогнозы о нашем настоящем и будущем: с кем мы, возможно, знакомы и какую работу хотели бы получить.
Использование данных по-прежнему находится в зачаточном состоянии. Со стороны Facebook было весьма проницательно проявить терпение и не афишировать новые способы применения данных пользователей, зная, что эта информация могла быть шокирующей. Кроме того, компания все еще приспосабливает свою бизнес-модель (и политику конфиденциальности) к необходимому количеству и типу сбора данных. Поэтому большинство критических замечаний в адрес Facebook направлены на то, какие данные она способна получить, и гораздо меньше — на то, что с ними происходит на самом деле. Facebook охватывает более 850 миллионов активных пользователей в месяц, между которыми установлено более ста миллиардов дружественных связей. Получается, что социальный граф представляет около 10% населения мира, сведения о которых датифицированы и находятся в руках одной компании.
Потенциальные сферы применения таких данных необычны. Некоторые начинающие компании в области потребительского кредитования рассматривают вопрос о разработке кредитной оценки на основе социального графа Facebook. Система оценки потенциальных заемщиков FICO использует 15 переменных, чтобы спрогнозировать, выплатит ли заемщик кредит. На основании внутреннего исследования один солидно финансируемый (но, к сожалению, анонимный) стартап выдвинул следующее предположение. О том, выплатит ли человек задолженность, красноречивее всего говорит поведение его друзей в аналогичной ситуации. Таким образом, обширные данные Facebook могут составить основу огромных новых бизнес-областей, которые выходят далеко за рамки поверхностного обмена фотографиями, обновления статуса и пометок «Нравится».
В Twitter данные используются не менее интересно. Более 100 миллионов человек ежедневно отправляют 250 миллионов кратких твитов, которые чаще всего представляют собой не что иное, как случайные обрывки фраз.[82] Компания дает возможность датифицировать мысли, настроения людей и взаимодействия между ними — то, что невозможно было получить ранее. Twitter заключила с компаниями DataSift и Grip соглашение на продажу доступа к данным (несмотря на то что все твиты являются общедоступными, «закулисный» доступ к ним платный). Многие компании проводят анализ твитов (иногда с помощью так называемого метода «анализа настроений»), чтобы собрать совокупные отзывы клиентов или оценить эффективность маркетинговых кампаний.
Два хедж-фонда — Derwent Capital в Лондоне и MarketPsych в Калифорнии — начали анализировать датифицированный текст твитов в качестве сигналов для инвестиций на фондовом рынке (при этом сохранив свои торговые стратегии в секрете; к примеру, они могли отдать предпочтение компаниям, специализирующимся на коротких продажах, а не на импульсной торговле). Обе компании теперь продают информацию трейдерам. В частности, хедж-фонд MarketPsych совместно с медиакомпанией Thomson Reuters предлагает не менее 18 864 отдельных индексов по 119 странам. Эти индексы основаны на эмоциональных состояниях (оптимизм, подавленность, радость, страх, гнев и пр.) и даже таких факторах, как инновации, судебные разбирательства и конфликты, и обновляются ежеминутно. Данные используются не столько людьми, сколько компьютерами: математические гении Уолл-стрит (так называемые «кванты»[83]) с их помощью выявляют скрытые корреляции, которые можно превратить в прибыль.[84] А по словам одного из отцов анализа социальных сетей Бернардо Губермана, по частоте твитов на определенную тему можно спрогнозировать кассовые сборы кинокомпаний Голливуда. Вместе с коллегой из компании HP Губерман разработал модель для отслеживания скорости публикации новых твитов. Благодаря ей можно спрогнозировать успех фильма точнее, чем это делали рыночные прогнозисты.[85]
Этим широта возможностей не ограничивается. Сообщения Twitter содержат всего 140 символов, однако метаданные, связанные с ними, несут много полезной информации. Метаданные («информация об информации») состоят из 33 отдельных элементов. Некоторые кажутся не слишком полезными (например, фоновый рисунок на странице пользователя Twitter или программное обеспечение, которое он использует для доступа к веб-службе), другие чрезвычайно интересны (например, используемый язык интерфейса службы, географическое положение пользователя, количество и имена людей, чьи твиты он читает и которые читают его твиты). Исследование, проведенное журналом Science в 2011 году, показало то, что невозможно было выявить прежде: перемены настроения людей имеют ежедневные и еженедельные закономерности, общие для всех культур во всем мире. Предметом анализа стали 509 миллионов твитов, полученных за два года от 2,4 миллиона пользователей из 84 стран. Настроения удалось датифицировать.[86]
Датификация подразумевает перевод в анализируемую форму не только отношений и настроений, но и поведения людей, которое трудно было бы отследить иным способом, особенно в более широких группах населения и их подгруппах. Биолог Марсель Салатэ из Университета штата Пенсильвания и инженер-программист Шашанк Ханделвал проанализировали твиты с целью убедиться, что вероятность того, что человек сделает прививку от гриппа, напрямую зависит от его отношения к прививкам как таковым. Важно отметить, что у них были метаданные о связях между пользователями Twitter, читающими твиты друг друга. Это позволило пойти дальше и выявить существование подгрупп непривитых людей. Такое волнующее открытие ставит под сомнение понятие «коллективного иммунитета», согласно которому проведение вакцинации среди большей части населения предотвращает вспышки заболеваний даже среди непривитых людей. Примечательно, что в отличие от других исследований, таких как Google Flu Trends, где объединенные данные использовались для рассмотрения вопроса о состоянии здоровья, анализ настроений, проведенный Салатэ, позволил обнаружить само поведение в отношении здоровья.[87]
Первые находки уже показывают направление, в котором уверенно движется датификация. Подобно Google, социальные сети, такие как Facebook, Twitter, LinkedIn, Foursquare, Zynga и другие, сидят на сокровищнице датифицированной информации, проанализировав которую можно было бы пролить свет на динамику человеческого и социального поведения на всех уровнях — от личности до общества в целом.
Повсеместная датификация
Проявив немного фантазии, можно перевести в форму данных немыслимое число объектов и сделать при этом неожиданные открытия. В духе экстравагантных работ токийского профессора Косимицу компания IBM в 2012 году получила патент США на «систему безопасности помещений с использованием наземной вычислительной технологии». Говоря простым языком, это сенсорное напольное покрытие, подобное гигантскому экрану смартфона. Сфера его потенциального применения весьма обширна. Такой пол мог бы обнаруживать расположенные на нем предметы и определять, когда нужно включить свет в комнате или открыть двери. Более того, он опознавал бы людей по их весу, стоячей позе и походке. Сообщал, когда кто-то упал и не может подняться. С помощью этой технологии торговые компании могли бы отслеживать поток клиентов в магазине. Таким образом, датификация напольного покрытия открывает безграничные возможности ее применения.
И это будущее не за горами. Возьмем, к примеру, движение Quantified Self («Измерение себя»). Его участники — разношерстная группа фанатов фитнеса, медицины и техники, которые измеряют каждый элемент своего тела и деятельности, чтобы улучшить качество своей жизни или по крайней мере узнать что-то новое, что раньше не удавалось измерить количественно. Пока что движение по отслеживанию личных показателей немногочисленное, но его ряды постоянно пополняются.
Благодаря смартфонам и недорогой вычислительной технике датификация наиболее важных аспектов жизни стала проще, чем когда-либо. Множество стартапов предоставляют людям возможность отслеживать свой сон путем измерения мозговых волн в течение всей ночи. Компания Zeo уже создала крупнейшую в мире базу данных активности во время сна и обнаружила различия в количестве фаз быстрого сна у мужчин и женщин. Компания Asthmapolis провела другой эксперимент: прикрепила к ингаляторам от астмы датчики, которые отслеживают местоположение с помощью GPS. Собранная информация позволяет выяснить, какие факторы окружающей среды провоцируют приступы астмы (например, близость к определенным видам посевных культур).
Компании Fitbit и Jawbone предлагают людям инструмент для оценки своей физической активности и сна. Владельцы браслетов компании Basis могут контролировать жизненно важные функции, в том числе частоту сердечных сокращений и электропроводность кожи, которые являются показателями стресса.[88] Получение данных становится проще и непринужденнее, чем когда-либо. Так, в 2009 году Apple подала заявку на патент для сбора данных о насыщенности крови кислородом, частоте сердечных сокращений и температуре тела через наушники-вкладыши.[89]
Датификация принципов работы человеческого тела открывает широкое поле для изучения. Исследователи из Университетского колледжа Йёвик в Норвегии и компания Derawi Biometrics разработали приложение для смартфонов, которое анализирует походку человека, чтобы использовать ее в качестве системы безопасности для разблокировки телефона.[90] Роберт Делано и Брайан Пэрисит из Технологического научно-исследовательского института штата Джорджия создали приложение iTrem, которое с помощью встроенного в телефон акселерометра контролирует тремор частей тела при болезни Паркинсона и других неврологических расстройствах. Это приложение удобно как для врачей, так и для пациентов. Пациенты получают возможность обойтись без дорогостоящих визитов к врачу, а медработники — удаленно отслеживать нарушения функций у людей и их реакцию на лечение.[91] По мнению исследователей в Киото, смартфон измеряет степень дрожания не настолько точно, как акселерометр, используемый в специализированном медицинском оборудовании. Однако разница в эффективности несущественна и делает показания приложения достаточно надежными.[92] Выходит, что немного беспорядочности не помеха точности.
В большинстве таких случаев мы получаем информацию и переводим ее в форму данных для повторного использования. Для этого годится практически любая информация, полученная где угодно. Стартап GreenGoose продает крошечные датчики движения, которые можно разместить на объектах, чтобы отслеживать частоту их применения. Прикрепив такой датчик на пачку зубной нити, лейку или коробку кошачьего туалета, вы сможете датифицировать гигиену полости рта и уход за растениями или домашними животными.
С тех пор как мир начал датифицироваться, использование информации стало настолько широким, насколько хватит фантазии. Мори раскрыл скрытую ценность данных путем кропотливого ручного анализа. Сегодня у нас есть инструменты (статистические данные и алгоритмы) и необходимое оборудование (компьютерные процессоры и хранилища), которые позволяют делать то же самое гораздо быстрее, в большем масштабе и во множестве различных областей. В эпоху больших данных можно извлекать пользу из самых неожиданных объектов.
Мы находимся в середине большого инфраструктурного проекта, который в некотором роде конкурирует с атрибутами прошлого — от римских акведуков до «энциклопедистов» эпохи Просвещения. Мы не в состоянии оценить проект по достоинству, поскольку он едва появился и мы полностью поглощены им. К тому же, в отличие от воды, текущей по акведукам, продукт нашего труда нематериален. Этот проект — датификация. Подобно остальным инфраструктурам, она приведет к фундаментальным изменениям в обществе.
Акведуки способствовали росту городов, печатные станки — просвещению, а газеты — подъему национального государства. Эти инфраструктуры имели дело с потоками (воды и знаний), так же как телефон и интернет. В отличие от них датификация — фундаментальное изменение действительности в человеческом понимании. Благодаря большим данным мы перестанем рассматривать окружающий мир как бесконечное множество событий, которые объясняются как природные или социальные явления, а взглянем на него как на область, состоящую в основном из информации.
Более века назад физики предположили, что не атомы, а информация является настоящей основой всего сущего. И пусть это звучит эзотерически, но во многом именно благодаря датификации мы теперь можем полномасштабно фиксировать и рассчитывать материальные и нематериальные аспекты существования и действовать в соответствии с ними.
Взглянув на мир с точки зрения информации — бескрайних просторов данных, которые нам предстоит постичь, — мы получим небывалое представление об окружающей действительности. Это мировоззрение охватит все сферы нашей жизни. Со временем датификация, которая затмит акведуки и газеты, станет конкурировать с типографией и интернетом, вручив нам инструменты для преобразования мира с помощью данных. Сейчас делом заняты самые продвинутые пользователи. Большие данные используются для создания новых форм ценности, которые мы рассмотрим в следующей главе.
Глава 6
Ценность
В конце 1990-х годов началось массовое засорение интернета. Программы, именуемые «спам-ботами», программировались на то, чтобы узнать последовательность действий для подписки на бесплатную учетную запись электронной почты, а затем использовать ее для массовой рассылки рекламных сообщений десяткам миллионов людей, переполняя почтовые ящики. Эти же роботы могли регистрироваться на сайтах, а затем оставлять сотни рекламных объявлений в разделах комментариев. Интернет превращался в неуправляемое, недружелюбное и недоброжелательное место. В частности, казалось, он перестал быть примером открытости и простоты использования, предлагающим такие возможности, как бесплатная электронная почта. Когда компании вроде TicketMaster предлагали приобрести в интернете билеты на концерты по принципу «кто не успел, тот опоздал», подлые программы скупали их все, опережая реальных людей.
В 2000 году новоиспеченный выпускник колледжа 22-летний Луис фон Ан загорелся идеей решить эту проблему: нужно заставить регистрирующегося доказать, что он человек. Луис нашел то, что легко давалось людям, но представляло трудности для компьютеров: опознать в процессе регистрации искаженные, трудно читаемые буквы. Люди смогут расшифровать их и ввести правильный текст в считаные секунды, но компьютер будет поставлен в тупик. Компания Yahoo реализовала эту идею и стремительно сократила атаки спам-ботов. Фон Ан назвал свое творение Captcha (англ. Completely Automated Public Turing Test to Tell Computers and Humans Apart — «полностью автоматизированный публичный тест Тьюринга для различения компьютеров и людей»). Пять лет спустя около 200 миллионов Captcha стали вводиться ежедневно.
Это принесло Луису фон Анну, выходцу из гватемальской семьи, которая владела кондитерской фабрикой, широкую известность и работу преподавателя компьютерных наук в Университете Карнеги—Меллон, после того как ему была присвоена степень доктора философии. Благодаря своему изобретению в возрасте 27 лет он получил одну из престижных премий Фонда Макартуров[93] за «гениальность» в размере 500 тысяч долларов. Когда Луис понял, что каждый день миллионы людей тратили впустую около десяти секунд своего времени на ввод раздражающих букв и при этом огромное количество получаемой информации попросту выбрасывалось, он усомнился в гениальности своего изобретения.[94]
Луис фон Ан искал способы более продуктивного применения человеческой вычислительной мощности. В итоге был создан тест-преемник с подобающим названием ReCaptcha. Теперь, вместо того чтобы вводить случайные буквы, люди набирают два слова из проектов по сканированию текстов, которые не удалось распознать с помощью компьютерной программы оптического распознавания символов. Одно слово подтверждает, что его уже вводили другие пользователи (и, следовательно, является сигналом того, что пользователь — человек), а другое — новое слово, которое нужно уточнить. Чтобы гарантировать точность, система отображает одно и то же случайное слово до тех пор, пока примерно пять разных пользователей не введут его без ошибок, и только тогда слово считается правильным. Таким образом, данные имеют как основное назначение (доказать, что пользователь является человеком), так и второстепенное — расшифровать непонятные слова из оцифрованных текстов. Система ReCaptcha оказалась настолько полезной, что в 2009 году компания Google решила внедрить ее в свой проект сканирования книг.
Выгода от системы огромна, если учесть, сколько нужно людей для выполнения такой работы. Более 200 миллионов ReCaptcha вводятся ежедневно. Примерно 10 секунд, затрачиваемых на эту операцию, — это в общей сумме около полумиллиона часов в день. Минимальная заработная плата в США в 2012 году составляла 7,25 доллара в час. Если бы для уточнения слов, которые компьютер не мог понять, пришлось обратиться на рынок труда, это обошлось бы примерно в 35 миллионов долларов в день, или более чем 1 миллиард долларов в год. Но Луис фон Ан разработал систему, которая делает это, по сути, бесплатно.
История ReCaptcha подчеркивает, насколько важны повторные данные, особенно если это большие данные. В эпоху цифровых технологий мы осознали роль данных в поддержке операций, и нередко они сами становились товаром. В мире больших данных все снова меняется. Акцент переносится на потенциальное применение данных в будущем. Этот процесс влечет за собой далеко идущие последствия. Он влияет на то, как компании оценивают данные, имеющиеся в их распоряжении, и кому предоставляют к ним доступ. Он позволяет компаниям (а может быть, и вынуждает их) менять свои бизнес-модели, а также меняет отношение организаций к данным и способы их использования.
Информация всегда была необходима для рыночных сделок. Данные дают возможность проводить ценовые исследования, а те — определить объемы производства. Кроме того, на рынках давно торгуют определенными видами информации. Примеры тому — книги, статьи, музыка, фильмы, а также финансовая информация (такая как цены на акции). В последние несколько десятилетий подобная информация была объединена понятием личных данных. Специализированные брокеры данных в США, такие как Acxiom, Experian и Equifax, запрашивают кругленькие суммы за всеобъемлющие досье личной информации на сотни миллионов пользователей. С появлением Facebook, Twitter, LinkedIn, Foursquare и других платформ социальных сетей наши личные связи, мнения, предпочтения и примерный распорядок дня пополнили и без того огромный пул личной информации, уже имеющейся о каждом из нас.
Хотя ценность данных уже давно не вызывает сомнений, прежде они воспринимались как дополнение к основной коммерческой деятельности или как довольно ограниченные категории интеллектуальной собственности и личной информации. Но в эпоху больших данных все данные без исключения будут рассматриваться как ценные сами по себе.
Говоря «все данные», мы имеем в виду даже самые сырые, самые, казалось бы, обыденные отрывки информации. Это могут быть показатели датчика температуры на заводском механизме. Или поток координат GPS в режиме реального времени, показатели акселерометра и уровень топлива в автомобиле — или в целом автопарке из 60 000 единиц. Или миллиарды старых поисковых запросов, или цены на все авиабилеты по всем рейсам коммерческих авиакомпаний США за прошедшие годы.