Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим Майер-Шенбергер Виктор

Некоторые «умные» электросчетчики, которые внедряются в США и Европе, могут собирать от 750 до 3000 точек данных в месяц в режиме реального времени. Это гораздо больше, чем скудный поток информации о совокупном потреблении электроэнергии, который собирает обычный счетчик. Каждый прибор имеет уникальную «подпись нагрузки» при получении электропитания, которая позволяет отличить холодильник от телевизора, а телевизор — от подсветки для выращивания марихуаны. Таким образом, использование электроэнергии раскрывает личную информацию, будь то ежедневные привычки, медицинские условия или противозаконное поведение.[135]

Однако не столько важно, увеличат ли большие данные риск нарушения конфиденциальности (а они увеличат), сколько изменится ли сам характер риска. Если угроза просто возрастет, то некоторые законы и правила о неприкосновенности частной жизни подойдут и для эпохи больших данных — потребуется лишь удвоить нынешние усилия. С другой стороны, если ситуация изменится, потребуются новые решения.

К сожалению, проблема все же приобретает новые очертания. Ценность больших данных не ограничивается первичным использованием — существенная ее часть, как мы уже поясняли, состоит во вторичном применении.

Это подрывает главную роль частных лиц в действующем законодательстве о неприкосновенности частной жизни. Сборщики данных должны сообщать им, какую информацию собирают и с какой целью. Чтобы начать сбор данных, сборщикам необходимо получить от частных лиц согласие. Хотя это и не единственный способ обработки личных данных законным путем, понятие «уведомления и согласия» стало краеугольным камнем политики конфиденциальности по всему миру. (На практике это вылилось в огромные примечания о конфиденциальности, которые мало кто читает, не говоря уже о том, чтобы понять, но это уже другая история.)

В эпоху больших данных самые инновационные способы их вторичного использования невозможно было представить на момент их сбора. Как же компаниям уведомлять о цели, которая еще не придумана? И разве станут частные лица давать информированное согласие на неизвестное? А при отсутствии согласия, для того чтобы анализировать большие данные, содержащие личную информацию, потребуется обращаться к каждому лично, спрашивая разрешение на каждое повторное применение. Вы можете себе представить, как Google пытается связаться с миллиардами пользователей, чтобы получить от них разрешение на анализ их старых поисковых запросов с целью спрогнозировать грипп? Ни одна компания не возьмет на себя такие расходы, даже если бы это было технически возможно.

Альтернативный вариант — перед сбором получать согласие на любое дальнейшее использование их данных — тоже бесполезен. Такое разрешение «оптом» сводит на нет само понятие информированного согласия. В контексте больших данных проверенная временем концепция «уведомления и согласия» налагает слишком много ограничений для извлечения скрытой ценности данных и слишком бесполезна для защиты конфиденциальности частных лиц.

Кроме того, в эпоху больших данных технические способы защиты неприкосновенности частной жизни тоже сдают свои позиции. Если вся информация находится в наборе данных, ее извлечение само по себе может оставить след. Возьмем, к примеру, функцию Google Street View. Для ее создания собрали фотографии дорог и домов во многих странах (как и многие другие данные — но это спорный вопрос). В Германии компания Google столкнулась с массовым протестом общественности и СМИ. Люди опасались, что фотографии их домов и садов помогут бандам грабителей выбрать выгодные цели. Под давлением регулирующих органов Google согласилась предоставить домовладельцам возможность отказа от участия, которая позволяла размыть изображения их домов. Но результаты этой возможности заметны в Street View — вы видите размытые дома, а грабители могут расценить их как сигнал, что это отличная цель.

Такой технический подход к защите конфиденциальности, как анонимизация, тоже, как правило, неэффективен. Анонимизация подразумевает удаление из наборов данных всех личных идентификаторов (имя, адрес, номер кредитной карты, дата рождения, номер социального страхования и пр.). Полученные данные можно анализировать без ущерба для чьей-либо конфиденциальности. Этот подход работает в мире малых данных. Большие данные упрощают повторное установление личности в связи с увеличением количества и разнообразия информации. Рассмотрим примеры с веб-поисками и оценками кинофильмов, которые, казалось бы, не позволяют установить личность.

В августе 2006 года компания AOL сделала общедоступными горы старых поисковых запросов под благовидным намерением дать исследователям возможность анализировать их в поисках интересных открытий. Набор данных из 20 миллионов поисковых запросов от 650 000 пользователей за период с 1 марта по 31 мая 2006 года был тщательно анонимизирован. Личные данные, такие как имя пользователя и IP-адрес, были удалены и замещены уникальным числовым идентификатором. Таким образом, исследователи могли связать между собой поисковые запросы от одного и того же человека, но не имели информации для установления его личности.

Тем не менее в течение нескольких дней сотрудники New York Times, связав поисковые запросы, такие как «одинокие мужчины за 60», «целебный чай» и «ландшафтный дизайнер в Лилбурне, Джорджия», успешно установили, что пользователь № 4 417 749 — это Тельма Арнольд, 62-летняя вдова из Лилбурна, штат Джорджия. «О Господи, это же вся моя личная жизнь! — сказала она журналистам Times, когда они наведались к ней в гости. — Я понятия не имела, что за мной подсматривают». Последовавшие за этим протесты общественности привели к увольнению технического директора и еще двух сотрудников AOL.

А всего два месяца спустя, в октябре 2006 года, служба проката фильмов Netflix сделала нечто подобное, объявив конкурс Netflix Prize. Компания выпустила 100 миллионов записей о прокате от около полумиллиона пользователей и объявила приз в размере одного миллиона долларов, который достанется команде исследователей, сумевшей улучшить систему рекомендации фильмов Netflix не менее чем на 10%. Личные идентификаторы были тщательно удалены. И снова пользователей удалось разоблачить: мать и скрытая лесбиянка из консервативного Среднего Запада подала в суд на Netflix от имени псевдонима Jane Doe.[136]

Сравнив данные Netflix с другими общедоступными сведениями, исследователи из Техасского университета быстро обнаружили, что оценки анонимизированных пользователей соответствовали оценкам людей с конкретными именами на сайте Internet Movie Database (IMDb). В целом исследования показали, что всего по шести оценкам фильмов в 84% случаев можно было верно установить личность клиентов Netflix. А зная дату, когда человек оценил фильмы, можно было с 99%-ной точностью определить его среди набора данных из полумиллиона клиентов.[137]

В исследовании AOL личности пользователей можно было раскрыть по содержанию их поисковых запросов, а в конкурсе Netflix — путем сравнения с данными из других источников. В обоих случаях компании недооценили, насколько большие данные могут способствовать деанонимизации. Тому есть две причины: мы записываем больше данных и объединяем больше данных.

Пол Ом, профессор права в Университете штата Колорадо и эксперт по ущербу от деанонимизации, объясняет, что этот вопрос не так просто решить. При наличии достаточно большого количества данных идеальная анонимизация невозможна вопреки каким бы то ни было усилиям.[138] Хуже того, исследователи недавно показали, что не только обычные данные, но и «социальный граф» — связи между людьми в социальных сетях — также подвержены деанонимизации.[139]

В эпоху больших данных три основные стратегии обеспечения конфиденциальности (индивидуальное «уведомление и согласие», возможность отказа от участия и анонимизация) во многом утратили свою эффективность. Уже сегодня многие пользователи считают, что их частная жизнь находится под угрозой. То ли еще будет, когда практика использования больших данных станет обычным явлением!

По сравнению с ситуацией в ГДР четверть века назад теперь вести наблюдение стало проще, дешевле и эффективнее. Возможность записи личных данных зачастую встроена в инструменты, которые мы используем ежедневно — от сайтов до приложений на смартфоне. Так, «черные ящики», установленные в большинстве автомобилей для отслеживания активаций подушки безопасности, известны тем, что могут «свидетельствовать» против автовладельцев в суде в случае спора по поводу ДТП.[140]

Конечно, когда компании собирают данные для улучшения своих показателей, нам не нужно опасаться слежки и ее последствий, как гражданам ГДР после прослушивания сотрудниками Штази. Мы не попадем в тюрьму, если Amazon узнает, что мы почитываем «красную книжечку» Председателя Мао Цзэдуна, а Google не изгонит нас за то, что мы искали Bing. Компании обладают определенным влиянием, но у них нет государственных правомочий принуждения.

Да, они не применяют таких жестких методов, как Штази, однако компании всех мастей накапливают базы личной информации обо всех аспектах нашей повседневной жизни, делятся ею с другими без нашего ведома и используют ее в неизвестных нам целях.

Не только частный сектор пробует силы в области больших данных. Государственные органы тоже. По данным расследования Washington Post в 2010 году, Агентство национальной безопасности США (АНБ) ежедневно перехватывает и сохраняет 1,7 миллиарда писем электронной почты, телефонных звонков и других сообщений.[141] По оценкам Уильяма Бинни, бывшего сотрудника АНБ, правительство собрало «20 триллионов операций» между американскими и другими гражданами: кто кому позвонил, написал по электронной почте, отправил денежный перевод и т. д.[142]

Для обработки этих данных США строят гигантские центры, такие как здание АНБ в Форт-Уильямс, Юта, стоимостью в 1,2 миллиарда долларов.[143] Все государственные органы, а не только спецслужбы по борьбе с терроризмом требуют больше информации, чем раньше. Когда список данных расширяется, включая сведения о финансовых операциях, медицинских картах, обновлениях статуса в Facebook и пр., их собирается невообразимое количество. Государственные органы не в состоянии обработать столько всего. Так зачем собирать?

Ответ на этот вопрос показывает, как изменился способ наблюдения в эпоху больших данных. В прошлом исследователи крепили щипковые зажимы к телефонным проводам, чтобы получить максимум информации о подозреваемом. Важно было как можно полнее изучить, что он собой представляет. Сегодня иной подход. Новое мышление (в духе Google и Facebook) состоит в том, что люди — совокупность их социальных отношений, взаимодействий в интернете и связей с контентом. Чтобы полностью изучить человека, аналитикам нужно просмотреть как можно более широкий круг периферических данных — узнать не только с кем он знаком, но и с кем знакомы его знакомые и т. д. Раньше это было технически трудновыполнимо, а теперь — проще, чем когда-либо.

Однако сколько бы опасений ни вызывала способность бизнеса и правительства извлекать нашу личную информацию, в связи с большими данными возникает более актуальная проблема: использование прогнозов в вынесении приговора.

Вероятность и наказание

Джон Андертон, начальник специального полицейского подразделения в Вашингтоне, округ Колумбия, одним прекрасным утром врывается в пригородный дом за считаные секунды до того, как разъяренный Говард Маркс вот-вот вонзит ножницы в тело своей жены, которую он застал в постели с любовником. Для Андертона это всего лишь очередной день профилактики тяжких преступлений. «Как представитель отдела по профилактике преступлений округа Колумбия, — произносит он, — заявляю: вы арестованы по обвинению в будущем убийстве Сары Маркс, которое должно было произойти сегодня…»

Полицейские связывают Маркса, который кричит: «Я ничего не сделал!»

Начальный эпизод фильма «Особое мнение» изображает общество, в котором предсказания выглядят настолько точными, что полиция арестовывает частных лиц за еще не совершенные преступления. Людей сажают в тюрьму не за фактические действия, а за предсказанные, даже если на самом деле преступлений не произошло. Причиной тому является не анализ данных, а видения трех ясновидящих. Мрачное будущее, изображенное в фильме, показывает именно то, к каким угрозам может привести неконтролируемый анализ больших данных: признание вины на основе индивидуальных предсказаний будущего поведения.

Мы уже видим первые ростки. Комиссии по условно-досрочному освобождению в тридцати штатах используют прогнозы, основанные на анализе данных, как фактор при принятии решений, стоит ли освобождать того или иного заключенного. Все чаще правоохранительные органы в Америке — от избирательных участков в Лос-Анджелесе до целых городов, таких как Ричмонд и Вирджиния, — используют «прогностический полицейский контроль», то есть с помощью анализа больших данных выбирают улицы, группы и частных лиц для дополнительной проверки просто потому, что алгоритм указал на них как на более склонных к совершению преступлений.

В Мемфисе программа под названием Blue CRUSH (англ. Crime Reduction Utilizing Statistical History — «снижение преступности на основе статистических данных») предоставляет полицейским относительно точные данные о зонах потенциальной угрозы с точки зрения места (в пределах нескольких кварталов) и времени (в пределах нескольких часов конкретного дня недели). Система, по всей видимости, помогает правоохранительным органам лучше распределять свои ограниченные ресурсы. Согласно одному из подсчетов, с момента создания системы в 2006 году количество основных имущественных и насильственных преступлений снизилось на четверть (хотя, конечно, нет никакой причинно-следственной связи, указывающей на то, что это как-то связано с Blue CRUSH).[144]

В рамках инициативы в Ричмонде, Вирджиния, полиция устанавливает корреляции между данными о преступлениях и дополнительными наборами данных, например датами выплаты зарплат в крупных компаниях города, а также датами местных концертов или спортивных мероприятий. Как показывает практика, они подтверждают, а иногда и уточняют подозрения полицейских о тенденциях в области преступности. Например, полиция Ричмонда давно предполагала, что за оружейными шоу следует резкий рост тяжких преступлений. Анализ больших данных доказал их правоту, но с одной оговоркой: скачок преступности происходил через две недели после события, а не сразу после него.[145]

Такие системы направлены на профилактику преступлений путем их прогнозирования вплоть до выявления частных лиц, которые могут их совершить. Большие данные здесь служат новым целям: с их помощью можно было бы предупреждать преступления. Звучит многообещающе. Разве не лучше остановить человека до совершения преступления, чем наказывать его после? Нам удалось бы избежать трагических происшествий. В итоге выиграли бы не только потенциальные жертвы, но и общество в целом.

Однако это скользкий путь. Если на основе анализа больших данных мы сможем прогнозировать возможных преступников, то вряд ли станем довольствоваться профилактикой преступлений. Вероятно, мы захотим наказать потенциальных виновников. Это вполне логично. Если мы просто вмешаемся, чтобы не допустить незаконные действия, предполагаемый преступник, освобожденный от наказания, может попробовать еще раз. Но мы надеемся удержать его от такой попытки, возлагая на него ответственность за свои действия (в том числе будущие).

Прогноз на основе наказания кажется шагом вперед по сравнению с практикой. Профилактика нездорового, опасного или незаконного поведения является краеугольным камнем современного общества. Мы ограничили условия для курящих, чтобы предупредить рак легких, требуем пристегивать ремни безопасности, чтобы предотвратить жертвы ДТП, и не пускаем на борт самолетов людей с оружием, чтобы не допустить угонов. Все эти профилактические меры ограничивают нашу свободу, но мы готовы их принять как небольшую плату взамен на прогнозирование гораздо большего ущерба.

Во многих случаях анализ данных уже работает на профилактику. С его помощью людей объединяют в группы по общему признаку, а затем соответственно оценивают их. Страховые таблицы свидетельствуют, что мужчины старше пятидесяти склонны к раку простаты. Поэтому, если вы относитесь к этой группе, возможно, вам придется больше платить за медицинскую страховку, даже если вы не больны. Студенты, бросившие вуз, воспринимаются как группа людей, склонных не погашать кредиты, так что человек без высшего образования может получить отказ в кредите или будет вынужден оплачивать более высокие страховые тарифы. Кроме того, лица с определенными отличительными признаками подвергаются дополнительной проверке при прохождении контроля безопасности в аэропорту.

В современном мире малых данных такая методика получила название «профайлинг» (профилирование). Это поиск характерных ассоциаций в данных с последующим анализом тех, кто подходит под их описание. Это обобщенное правило, которое относится ко всем участникам группы. «Профайлинг» — весомое слово. Оно подразумевает не только дискриминацию в отношении определенных групп, но и при неправильном использовании означает «вину по ассоциации». Профайлинг имеет серьезные недостатки.[146]

Используя большие данные, мы можем определять не группы, а конкретных лиц, что избавляет нас от существенного недостатка профайлинга: каждый прогностически подозреваемый превращается в виновного по ассоциации. В мире больших данных человек с арабским именем, рассчитавшийся наличными за билет в одну сторону в первом классе, больше не должен подвергаться вторичной проверке в аэропорту, если остальные данные указывают, что он, скорее всего, не террорист. Благодаря большим данным мы можем избежать ограничений профайлинга — этой смирительной рубашки групповых особенностей — и заменить их более подробными прогнозами на каждого человека.

Роль больших данных в признании виновности частных лиц состоит в том, что, хотя мы делаем то же, что и раньше (профайлинг), но делаем это лучше, тщательнее, с индивидуальным подходом и меньшей дискриминацией. Такой подход приемлем, если целью является предотвращение нежелательных действий. Но он таит в себе огромную опасность, если прогнозы больших данных послужат принятию решений о виновности и наказании за еще не совершенные поступки.

Наказывать исходя из вероятности будущего поведения — значит отрицать саму основу традиционного правосудия, когда сначала совершается поступок, а затем уже человека можно привлечь к ответственности. В конце концов, думать о противоправных поступках не воспрещается, а вот совершать их — незаконно. Один из основополагающих принципов нашего общества состоит в том, что каждый несет ответственность за свой выбор действия. Если кого-то под дулом пистолета заставили открыть сейф компании, у него не было выбора и, следовательно, он не несет ответственности.

Если бы прогнозы больших данных были совершенными и алгоритмы могли предвидеть наше будущее с абсолютной точностью, мы не имели бы выбора, как поступать в будущем. Мы вели бы себя именно так, как предсказано. Если бы совершенные прогнозы были возможны, они бы отрицали человеческую волю, нашу способность жить свободной жизнью и, по иронии судьбы, из-за отсутствия выбора освобождали бы нас от любой ответственности.

Идеальное прогнозирование невозможно. Анализ больших данных, скорее, дает возможность прогнозировать наиболее вероятное поведение конкретного человека в будущем. Рассмотрим модель больших данных профессора Пенсильванского университета Ричарда Берка. Он утверждает, что эта модель может спрогнозировать, совершит ли убийство заключенный, если его выпустить условно-досрочно на поруки. В качестве исходных данных Берк использует бесчисленные переменные конкретных случаев, включая причину лишения свободы, дату первого преступления, а также демографические данные, такие как возраст и пол. Берк считает, что может прогнозировать будущее поведение с 75%-ной точностью. Что ж, неплохо. Но это также означает, что, если комиссия по условно-досрочному освобождению станет полагаться на анализ Берка, одно из ее четырех решений окажется ошибочным, то есть комиссия напрасно лишит свободы раскаявшихся заключенных либо отпустит на волю будущих убийц.

Основная проблема не в том, что общество подвергается большему риску, чем необходимо. Главная беда в том, что при такой системе мы наказываем людей, лишая их личной свободы, прежде чем они сделают что-то плохое. А путем предварительного вмешательства мы никогда не узнаем, что произошло бы на самом деле. Мы не позволяем судьбе вмешаться и при этом привлекаем частных лиц к ответственности за их возможные поступки, которые мы спрогнозировали. Такие прогнозы невозможно опровергнуть.

Это сводит на нет саму идею презумпции невиновности, которая лежит в основе нашей правовой системы и, по сути, нашего чувства справедливости. Поскольку мы несем ответственность за действия, которых, возможно, никогда не совершим, ответственность за спрогнозированные действия также отрицает способность людей делать нравственный выбор.

Опасность выходит далеко за рамки уголовного правосудия. Она охватывает все случаи человеческих суждений, в которых прогнозы больших данных используются для признания нашей виновности в будущих действиях. Сюда входят дела гражданских судов о совершении проступка по неосторожности, а также корпоративные решения по увольнению сотрудников.

Возможно, с такой системой общество стало бы более безопасным и эффективным, но разрушилась бы существенная часть того, что делает человека человеком, — наша способность выбирать действия и нести за них ответственность. Большие данные стали бы инструментом коллективизации человеческого выбора и отказа от свободы воли в нашем обществе.

Как уже говорилось в предыдущих главах, у больших данных множество преимуществ. И если они превратятся в самое мощное орудие дегуманизации, то не из-за свойственных им недостатков, а из-за того, что мы сделаем с прогнозами. Принуждая людей отвечать за спрогнозированные, но еще не совершенные действия, мы полагаемся на прогнозы больших данных, полученные на основе корреляций, и принимаем решения о виновности, которые должны учитывать причинные связи.

Большие данные помогают лучше понять текущие и будущие риски, а также скорректировать свои действия соответствующим образом. Их прогнозы помогают пациентам и страховщикам, кредиторам и потребителям. Но большие данные ничего не говорят о причинности. В отличие от них для признания «вины» — виновности частных лиц — требуется, чтобы подсудимый выбрал то или иное действие. Его решение служит причиной для последующего проступка. Именно потому, что большие данные основаны на непричинных корреляциях, они непригодны для того, чтобы судить о причинности, а значит, и признавать чью-либо виновность.

Беда в том, что люди настроены смотреть на мир сквозь призму причин и следствий. Таким образом, большие данные находятся под постоянной угрозой неправильного использования — в целях установления причинности или подкрепления наших наивных предположений о том, насколько эффективнее стал бы процесс принятия решений о признании виновности, если бы мы вооружились прогнозами больших данных.

Это скользкий путь в мир, изображенный в кинофильме «Особое мнение», в котором индивидуальный выбор и свобода воли ликвидированы, личный моральный компас заменен интеллектуальными алгоритмами, а частные лица беспрепятственно подвергаются коллективному суду. В таких условиях большие данные угрожают сделать нас заключенными (возможно, в буквальном смысле) в рамках вероятностей.

Диктатура данных

Большие данные бесцеремонно вторгаются в частную жизнь и угрожают свободе, создавая для нас невиданные риски. При этом они усугубляют старую проблему — привычку полагаться на цифры, в то время как они гораздо более подвержены ошибкам, чем мы думаем. Пожалуй, наиболее яркий пример того, как последствия анализа данных могут завести в тупик, — история Роберта Макнамары.

Макнамара был мастером по части чисел. Будучи назначенным министром обороны США в период напряженности во Вьетнаме в начале 1960-х годов, он настаивал на повсеместном внедрении данных. Макнамара считал, что только применение статистической строгости поможет ответственным лицам, принимающим решения, понять сложную ситуацию и сделать правильный выбор. Мир, по его мнению, представлял собой массу непокорной информации, а если ее определить, обозначить, разграничить и количественно измерить, ее можно приручить и подчинить своей воле. Макнамара искал Истину в данных. Среди цифровых данных, которые обернулись против него, был «подсчет убитых».

Макнамара развил свою любовь к числам, еще будучи студентом Гарвардской школы бизнеса, а затем стал самым молодым доцентом — в 24 года.[147] Он применил свои навыки во время Второй мировой войны в составе элитной группы военного министерства США «Статистическое управление», которая внедрила процесс принятия решений на основе данных в крупнейшую бюрократическую систему в мире. До этого военный сектор был слеп. Ему не были известны, например, тип, количество и расположение запасных частей самолета. Одно лишь проведение комплексной инвентаризации в 1943 году сэкономило 3,6 миллиарда долларов.[148] Условием современной войны стало эффективное распределение ресурсов. Работа группы имела ошеломительный успех.

По окончании войны группа решила держаться вместе и применить свои навыки в интересах американских корпораций. В то время компания Ford испытывала некоторые трудности. Отчаявшись, Генри Форд II передал участникам группы вожжи правления. Они ничего не смыслили в военном деле, когда помогли выиграть войну, и были столь же невежественны в производстве автомобилей. Тем не менее «вундеркиндам» удалось изменить деятельность компании к лучшему.

Макнамара быстро поднялся по служебной лестнице, показывая точки данных по каждой ситуации. Задерганные руководители завода предоставляли все числа, которые он требовал, будь они правильными или нет. Когда вышел указ, предписывающий до начала производства новой модели израсходовать все имеющиеся детали старой, руководители линейных подразделений с раздражением просто сбрасывали лишние части в ближайшую реку. Руководство в штаб-квартире Ford одобрительно кивнуло, получив от заводских мастеров цифры, подтверждающие, что распоряжение было выполнено. А на заводе стали шутить, что теперь можно ходить по воде — из нее торчали ржавые части автомобилей 1950 и 1951 годов.[149]

Макнамара был воплощением типичного руководителя середины ХХ века — рационального управленца, который полагался на числа, а не настроения и мог применить свои навыки для количественного измерения любой заинтересовавшей его отрасли. В 1960 году он был назначен президентом Ford и занимал эту должность всего несколько недель, прежде чем президент Кеннеди назначил его министром обороны.

Когда обострился вьетнамский конфликт и США направили дополнительные войска, стало ясно, что это война характеров, а не территорий. Стратегия Америки заключалась в том, чтобы усадить Вьетконг[150] за стол переговоров. По этой причине военные успехи измерялись количеством убитых врагов. Эти данные публиковались в газетах и использовались как аргумент сторонниками войны, а для критиков служили доказательством их безнравственности. Подсчет убитых стал точкой данных, определившей новую эпоху.

В 1977-м, спустя два года после того, как последний вертолет поднялся с крыши посольства США в Сайгоне, отставной генерал армии Дуглас Киннард опубликовал масштабный опрос генералов под названием The War Managers.[151] Он показал трясину, в которой погрязло количественное измерение. Всего 2% американских генералов считали, что подсчет убитых был верным способом измерения военных успехов. Две трети сказали, что цифры часто были завышены. «Поддельные и совершенно бесполезные», — писал один из генералов в своих комментариях. «Нередко откровенно лживые», — считал другой. «Они были многократно преувеличены в основном из-за невероятного интереса со стороны таких людей, как Макнамара», — делился третий.

Подобно тому как заводские мастера Ford сбрасывали детали двигателей в реку, младшие офицеры порой подавали своему начальству внушительные цифры, чтобы сохранить свое место или продвинуться по службе. Они сообщали то, что начальство хотело услышать. Макнамара и его окружение полагались на цифры, буквально боготворя их. С превосходно уложенными волосами и безукоризненно завязанным галстуком, Макнамара чувствовал, что может понять то, что происходит на земле, только уставившись в таблицу — на все эти стройные ряды и столбцы, расчеты и графики, овладев которыми он, казалось бы, станет на одно стандартное отклонение ближе к Богу.

Использование данных и злоупотребление ими американскими военными во время войны во Вьетнаме свидетельствуют о том, насколько ограниченной является информация в эпоху «малых данных». Этот урок необходимо усвоить, поскольку мир вступает в эпоху больших данных. Исходные данные могут быть низкого качества или необъективными. Их можно неправильно использовать и анализировать. Но, что хуже всего, данные могут не отражать то, что призваны количественно измерить.

Мы более уязвимы перед лицом «диктатуры данных», чем можем себе это представить, позволяя данным управлять нами как во благо, так и во вред. Угроза состоит в том, что мы бездумно позволяем связывать себе руки результатами анализов данных, даже если есть разумные основания полагать, что в них что-то не так. Еще один пример — одержимость собирать факты и числа просто ради данных или безосновательно оказывать им чрезмерное доверие.

Ввиду массовой датификации первое, к чему стремятся политики и бизнесмены, — получить как можно больше данных. «Мы верим в Бога — остальное дело за данными» — вот мантра современного руководителя, которая эхом разносится по офисам Кремниевой долины, заводским цехам и коридорам мэрии. Большие данные могут стать кладом в заботливых руках. Но неразумное обращение с ними чревато жуткими последствиями.

Образование катится вниз? Введите стандартизированные тесты для измерения результативности и примените санкции к учителям и школам, которые не дотягивают до нужного уровня. И если тесты и вправду могут оценить способности школьников, то вопрос о качестве преподавания или потребности в творческой, гибкой, современной рабочей силе остается открытым. Но данные не берут это в расчет.

Хотите предотвратить терроризм? Создайте многослойные списки людей для обязательного досмотра или запрета на вылет, чтобы обеспечить охрану порядка в небе. Впрочем, защита, которую такие списки предлагают, весьма сомнительна. Известен случай, когда сенатор от штата Массачусетс Тед Кеннеди, случайно попавший в список, был задержан и подвержен обыску только потому, что его имя и фамилия совпали с именем и фамилией другого человека в базе данных.

У тех, кто имеет дело с данными, в ходу выражение, отражающее суть некоторых проблем: «Мусор на входе — мусор на выходе». Иногда причина в низком качестве исходной информации, но чаще — в злоупотреблении самим анализом. Из-за больших данных эти проблемы могут возникать чаще или с более существенными последствиями.

Вся деятельность компании Google, как уже было показано в этой книге на многочисленных примерах, построена на данных. Несомненно, они обусловили значительную долю успеха компании. Однако время от времени они же приводят ее к промахам. Сооснователи Google Ларри Пейдж и Сергей Брин длительное время запрашивали от соискателей их балл по тесту SAT (англ. Scholastic Assessment Test — «академический оценочный тест») при поступлении в колледж, а также средний балл при выпуске. Пейдж и Брин рассуждали так: первый показатель отражает потенциал кандидата, а второй — его достижения. Таким образом, состоявшиеся руководители в возрасте 40 лет, которые рассматривались на ту или иную должность, к своему откровенному недоумению, могли быть отсеяны из-за недобора баллов. Компания еще долгое время продолжала требовать эти цифры даже после того, как ее внутренние исследования показали, что между баллами и эффективностью работы нет корреляций.[152]

Google следовало бы лучше знать, как не попасться на удочку ложной прелести данных, ведь показатели практически не оставляют места для изменений в жизни человека. Они не берут в расчет знания помимо академических. Они не могут отразить достоинства людей гуманитарных, а не научных и технических специальностей, где инновационные идеи легче измерить. Одержимость данными в кадровых целях вызывает особое недоумение ввиду того, что сами основатели Google являются выпускниками школ Монтессори, в которых особое внимание уделяется именно обучению, а не оценкам. Кроме того, такой подход повторяет прошлые ошибки американских технологических электростанций, в которых резюме кандидатов ставили выше их способностей. Какими были бы шансы Ларри и Сергея занять руководящие должности в легендарной корпорации Bell Labs, учитывая их незаконченное высшее образование доктора философии? По стандартам Google ни Билл Гейтс, ни Марк Цукерберг не получили бы место, так как не имеют высшего образования.

Зависимость компании от данных порой зашкаливает. Марисса Майер, в то время один из руководителей высшего звена Google, однажды дала задание сотрудникам проверить, какой из 41 оттенка синего наиболее популярен у пользователей, чтобы определить цвет панели инструментов на сайте.[153] Диктатура данных в Google была доведена до крайности и вызвала мятеж.

В 2009 году ведущий дизайнер Google Дуг Боумен уволился в гневе, потому что не выдержал постоянного количественного измерения всего и вся. «Недавно я участвовал в дискуссии по поводу того, какой должна быть ширина границы: 3, 4 или 5 пикселей. Меня попросили обосновать свой выбор. Я не могу работать в таких условиях, — написал он в блоге о своей отставке. — Когда в компании одни инженеры, они все превращают в инженерное решение вопросов. Сводят все к простым логическим задачам. Эти данные в конечном счете становятся костылем, тормозящим движение каждого решения, парализуя компанию».[154]

Гениальность не зависит от данных. Стив Джобс мог бы долгие годы непрерывно совершенствовать ноутбук Mac на основе отчетов об эксплуатации, но он воспользовался своей интуицией, а не данными, чтобы выпустить на рынок iPod, iPhone и iPad. Он полагался на свое шестое чувство. «Знать, чего хотят покупатели, не их забота», — сказал он репортеру, рассказывая, что не проводил исследование рынка перед запуском iPad.[155]

В книге «Благими намерениями государства» антрополог Джеймс Скотт из Йельского университета рассказывает о том, как правительства, возводя в культ количественные измерения и данные, в конечном счете скорее ухудшают качество жизни людей, чем улучшают его. Они прибегают к картам для определения преобразований в обществах, но ничего не знают о людях на местах. С помощью огромных таблиц данных об урожаях они принимают решение о коллективизации сельского хозяйства, ничего в нем не смысля. Они берут на вооружение все несовершенные, естественные способы взаимодействия, которыми люди пользовались в течение долгого времени, и подстраивают их под свои нужды, иногда просто ради того, чтобы удовлетворить свое желание привести все к исчисляемому порядку. Информация, по мнению Скотта, часто служит для расширения возможностей власть имущих.[156]

Это диктатура данных с большой буквы. Из-за подобного высокомерия США начали войну во Вьетнаме, руководствуясь, в частности, количеством убитых, а не более разумными показателями. «Вы правы, что не все сложные человеческие ситуации, которые только можно представить, могут быть полностью сведены к линиям на графике, выражены в процентных точках на диаграмме или отражены в цифрах в балансе компании, — произнес Макнамара в 1967 году, в период нарастающих национальных протестов. — Но в действительности все может быть обосновано. И не измерять количественно то, что можно измерить, — все равно что довольствоваться меньшим, чем полный спектр причин».[157] Если бы только правильные данные использовались должным образом, а не просто почитались за то, что они есть.

В течение 1970-х годов Роберт Макнамара удерживал пост главы Всемирного банка, а в 1980 году стал «голубем мира» — ярым критиком ядерного оружия и сторонником охраны окружающей среды. Позже в результате переоценки ценностей он написал мемуары «Взгляд в прошлое», в которых критиковал образ мышления, стоящий за военными действиями, и собственные решения на посту министра обороны. «Мы были неправы, совершенно неправы», — писал Макнамара, в то время как речь шла о масштабной военной стратегии. Однако по вопросу данных и, в частности, подсчета убитых он остался далек от раскаяния. Макнамара признался, что статистика была «недостоверной или ошибочной». «Но все факторы, которые вы можете подсчитать, вы обязаны подсчитать. Потеря убитыми — один из них…» Он умер в 2009 году в возрасте 93 лет, считаясь человеком умным, но не мудрым.

Соблазнившись большими данными, мы рискуем совершить страшную ошибку, как Макнамара, или настолько сконцентрироваться на данных и власти, которую они сулят, что будем не в состоянии оценить их ограничения. Чтобы наглядно представить эквивалент подсчета убитых в виде больших данных, достаточно снова вернуться к Google Flu Trends. Рассмотрим ситуацию (не такую уж невероятную), когда смертельный грипп бушует по всей стране. Медицинские работники были бы признательны за возможность в режиме реального времени прогнозировать крупнейшие очаги с помощью поисковых запросов. Они бы знали, где нужна помощь.

Однако во время такого кризиса политические лидеры могут возразить, что знать наибольшие очаги заболевания и пытаться остановить их распространение недостаточно. Они призывают ввести режим всеобщего карантина (а не только для населения в охваченных регионах), по сути, излишнего. Большие данные дают возможность быть адресными и применять карантин только к отдельным пользователям, чьи поисковые запросы в значительной степени коррелируют с гриппом. Таким образом, мы получаем данные о тех, кого нужно изолировать. Федеральные агенты, вооруженные списками IP-адресов и информацией GPS о мобильных устройствах, могут объединить отдельные запросы веб-поиска в карантинные центры.

Может показаться, что это оправданно, однако в корне неправильно. Корреляция не означает причинности. Эти люди могут болеть гриппом, но могут и быть здоровыми. Их необходимо обследовать. В такой ситуации люди стали бы заложниками прогноза. Что еще более важно, они стали бы жертвами апологии данных, которые по самой природе своей не могут отразить информацию такого рода. Суть фактического исследования Google Flu Trends состоит в том, что условия поиска связаны со вспышкой. Но причины тому могут быть совершенно разными: например, сотрудники могли услышать, как кто-то в офисе чихнул, и решили поискать в интернете информацию о том, как защититься, а сами при этом здоровы.

Темная сторона больших данных

Большие данные предоставляют больше возможностей наблюдать за нашей жизнью, во многом упраздняя некоторые правовые средства защиты неприкосновенности частной жизни. Они также сводят на нет эффективность основных технических методов сохранения анонимности. Как и фактическое нарушение правопорядка, прогнозы больших данных относительно отдельных лиц могут повлечь за собой наказание — однако не за действия, а за склонности. Такое положение дел отрицает свободу воли и унижает человеческое достоинство.

В то же время существует реальный риск того, что, поддавшись магии больших данных, люди станут руководствоваться ими в неподходящих условиях или же слишком полагаться на результаты анализов. Точность прогнозов будет возрастать, а с нею и желание все чаще пользоваться ими, подпитывая, в свою очередь, одержимость данными, раз они имеют такие широкие возможности. Такими были проклятие Макнамары и урок, который можно извлечь из его истории.

Нужно умерить увлечение данными, чтобы не повторить ошибку Икара, который гордился своей технической возможностью летать, но неправильно воспользовался ею и упал в море. В следующей главе мы рассмотрим способы, благодаря которым мы будем управлять данными, а не они нами. 

Глава 9

Контроль

Изменение способов производства информации и взаимодействия с ней поневоле меняет правила самоуправления. А эти изменения, хотим мы того или нет, преобразуют основные ценности, которые общество должно защищать. Вспомним предыдущий наплыв данных, который произошел благодаря печатному станку.

До того как Гутенберг изобрел наборный шрифт (примерно в 1450 году), распространять идеи было нелегко. Книги в основном находились в монастырских библиотеках, строго охраняемых монахами в соответствии с правилами, которые католическая церковь предусмотрительно установила для защиты своего господства. Вне церкви нескольким университетам удалось собрать десятки или, быть может, пару сотен книг. Библиотека Кембриджского университета была основана в XV веке с фондом в 122 тома.[158] Серьезным препятствием на пути распространения информации являлась безграмотность.

Благодаря печатному станку Гутенберга стало возможным массовое производство книг и брошюр. Переведя Библию с латинского языка на немецкий и тем самым открыв ее для многих читателей, которые получили возможность узнать слово Божье без помощи священников, Мартин Лютер мог напечатать и распространить ее среди сотен тысяч людей. Поток информации превратился из ничтожного в огромный. В конечном счете общество установило новые правила для управления информационным взрывом, вызванным изобретением Гутенберга.

Были созданы законы (например, об авторском праве), призванные расширить возможности авторов и дать им правовой и экономический стимул творить. Когда светское государство объединило свою власть, интеллигенция той эпохи стала добиваться установления правил для защиты слова от правительственной цензуры. В итоге свобода слова превратилась в конституционную гарантию. Но, как всегда, права влекут за собой обязанности. По мере того как недобросовестные газеты вторгались в частную жизнь людей или порочили их репутацию, возникали новые правила, чтобы оградить частную жизнь людей и дать им возможность подать в суд за клевету.

Изменились не только правила. Изменился и уровень доступности информации, что отразилось и на наших ценностях. В эпоху до печатного станка все управление сводилось к тому, чтобы спрятать всю текстовую информацию. Благодаря изобретению Гутенберга мы смогли по достоинству оценить, что значит широкое распространение информации в обществе. Столетия спустя мы предпочитаем получать как можно больше (а не меньше) информации, защищаясь от ее избытка не цензурой, а в первую очередь с помощью правил, ограничивающих злоупотребление информацией.

По мере того как мир движется в сторону больших данных, общество подвергается подобному «тектоническому» сдвигу. Большие данные заставляют нас пересмотреть фундаментальные представления о том, как стимулировать их рост и умерять потенциальный вред, поскольку они во многом меняют наш образ жизни и мышления. Однако, в отличие от печатной революции, на раздумья нам отведены не столетия, а, возможно, всего каких-то пара лет.

Защита частной жизни потребует от лиц, имеющих дело с личными данными, большей ответственности за свою политику и действия. Нам предстоит пересмотреть свое представление о справедливости, чтобы гарантировать человеческое право на свободу действий (и, конечно, соблюдение ответственности за эти действия). Понадобятся новые учреждения и эксперты (так называемые «алгоритмисты»), чтобы интерпретировать сложные алгоритмы, на основе которых формируются выводы из больших данных, и защищать интересы тех, кто может от этих выводов пострадать, например получить отказ в приеме на работу или хирургическом вмешательстве или не получить кредит из-за того, что о них «говорят» большие данные. Дело не в адаптации существующих правил, а в создании новых.

От безопасности к отчетности

На протяжении десятилетий важнейший принцип конфиденциальности во всем мире заключался в том, чтобы предоставить людям возможность самим решать, кто и как имеет право обрабатывать их личную информацию. В век интернета это достойное правило превращается в шаблонную систему «уведомления и согласия». В эпоху больших данных, когда больше пользы приносит вторичное применение данных, далеко не всегда предсказуемое на момент их сбора, этот принцип уже не так актуален.

Намного разумнее было бы отменить практику индивидуального управления конфиденциальностью и заменить ее расширенной подотчетностью, которая предъявлялась бы к пользователям данных, повышая их ответственность за свои действия. Компании, работающие с данными, больше не смогли бы приводить в свое оправдание то, что человек разрешил их использовать. Напротив, им пришлось бы оценивать потенциальные опасности, с которыми могут столкнуться люди при вторичном применении их данных. И только убедившись, что уровень угрозы низкий (то есть возможный ущерб ограничен или гарантированно может быть снижен), компании могли бы воплощать в жизнь свои планы. А в случае неправильной оценки угроз или небрежной реализации планов компании можно было бы привлечь к ответственности за нанесенный ущерб. В свою очередь, правила должны предусматривать вторичное использование данных в большинстве случаев без явного согласия.

Приведем наглядный пример. Представьте себе, что профессор Косимицу, токийский эксперт по «задней части», продал противоугонное устройство для автомобиля, которое использует сидячую позу водителя в качестве уникального идентификатора. Предположим, что позже он повторно проанализировал полученную информацию, чтобы спрогнозировать уровень внимательности водителя (сонный, подвыпивший, раздраженный и т. п.) и отправить уведомления другим водителям, находящимся поблизости, во избежание аварий. При нынешних правилах конфиденциальности Косимицу потребовалось бы пройти еще один этап «уведомления и согласия», поскольку он ранее не получал разрешения на подобное применение информации. А с системой подотчетности пользователей данных ему достаточно было бы оценить опасности предполагаемого использования и, если они минимальны, продолжить задуманное, тем самым повышая безопасность дорожного движения.

Логично было бы переложить бремя ответственности с общества на тех, кто обрабатывает данные. Тому есть целый ряд причин. Лица, которые обрабатывают данные, гораздо лучше других знают, что с ними будут делать. Их оценка (или оценка нанятых ими экспертов) позволяет избежать проблем с выявлением конфиденциальных бизнес-стратегий. Возможно, самое главное — то, что эти лица получают большую часть преимуществ вторичного использования данных. Так что вполне справедливо привлекать их к ответственности за свои действия.

Безусловно, правительство тоже играет важную роль. Если пользователи данных произведут неточную оценку или будут действовать вразрез с предполагаемой оценкой, регулирующие органы привлекут их к ответственности путем распоряжений, штрафов и, возможно, даже уголовного преследования. Подотчетность пользователей данных должна иметь рычаги влияния. Регулирующие органы могут ей содействовать, например, определив основные категории допустимых видов применения или таких, для которых достаточно ограниченных мер по обеспечению безопасности. Это позволит стимулировать поиск новых приемов повторного использования данных. Для более рискованных инициатив регулирующие органы составят основные правила, по которым пользователи данных должны оценивать опасности, влияние на отдельных лиц и пути сведения к минимуму возможного ущерба. Цель в том, чтобы получить объективное и точное представление об угрозах конфиденциальности и понять, какие меры нужно предпринять.

Далее, с пользователей данных будет снята юридическая обязанность удалять личную информацию сразу после ее основного целевого использования, как того требует большинство нынешних законов о конфиденциальности. Это важное изменение, поскольку, как мы видели, только выявив скрытую ценность данных, современные коммодоры Мори могут максимально эффективно работать с данными для собственной (и общественной) выгоды. Взамен пользователи данных получат право на более длительное, хоть и не вечное хранение информации. Обществу необходимо уравновесить преимущества повторного использования данных и риски, вызванные их слишком широким разглашением.

Для того чтобы достичь такого равновесия, регулирующие органы, например, назначат срок удаления различных видов личных данных. Сроки повторного использования могут зависеть от неизбежного риска, связанного с данными, а также от ценностей, присущих различным обществам. Одни страны будут более осторожными, чем другие, так же как некоторые виды рассматриваемых данных могут быть более конфиденциальными, чем другие: база данных домашних адресов слепых людей в конкретном городе понадобится специалистам по городскому планированию, специализированным розничным магазинам и самим людям, а домашние адреса лиц, больных ВИЧ/СПИДом, относятся к разряду данных, о которых не всем хотелось бы распространяться.

В рамках такого подхода конфиденциальность личных данных защищается ограничением времени, на протяжении которого они могут храниться и обрабатываться. Кроме того, этот подход устраняет угрозу «постоянной памяти» — риск того, что никто не сможет скрыться от своего прошлого, поскольку цифровые записи всегда можно извлечь.[159] В противном случае наши личные данные повисли бы над нами как дамоклов меч, угрожая рано или поздно пронзить нас личными подробностями или напоминанием о неудачных поступках. Сроки также служили бы для держателей данных стимулом реализовать свой ресурс, пока есть такая возможность. На наш взгляд, это позволило бы достичь лучшего равновесия для эпохи больших данных: компании получили бы право дольше использовать личные данные, взяв на себя ответственность за это, а также обязательство удалить с устройства личные данные спустя определенный период.

В дополнение к этому переходу в управлении — от конфиденциальности по согласию к конфиденциальности через подотчетность — нам нужно найти и ввести в действие новые технические способы обеспечения защиты личных данных. Один из инновационных подходов содержит понятие «дифференциальной конфиденциальности», которая подразумевает намеренное размытие данных, чтобы запрос большого набора данных выдавал не точные результаты, а лишь приблизительные. Такой подход делает процесс связывания определенных точек данных с конкретными людьми трудным и дорогостоящим.[160]

Может показаться, что подобное перемешивание информации способно уничтожить ценные открытия. Но это совсем не обязательно или по крайней мере может служить удачным компромиссом. Эксперты в области политики и технологий отмечают, что Facebook использует дифференциальную конфиденциальность, когда сообщает информацию о своих пользователях потенциальным рекламодателям: полученные значения являются приблизительными и поэтому не могут помочь установить личности отдельных людей. Поиск ряда женщин азиатского происхождения, проживающих в Атланте и интересующихся аштанга-йогой, выдаст результат, например, «около 400», а не постоянное количество. Таким образом, информацию невозможно будет статистически свести к конкретному человеку.[161]

Переход в управлении конфиденциальностью от согласия отдельных лиц к подотчетности пользователей данных является одним из основных и наиболее существенных изменений. Подобный переход необходим и в прогнозировании на основе больших данных, чтобы сохранить свободу человека и его ответственность.

Люди и прогнозирование

Суды привлекают людей к ответственности за совершенные действия. Когда судья оглашает свое беспристрастное решение после справедливого судебного разбирательства, это считается торжеством справедливости. В эпоху больших данных нам придется пересмотреть понятие справедливости, чтобы сохранить понятие «человеческого фактора» — свободы воли, согласно которой люди сами выбирают, как им действовать. Это простое понятие подразумевает, что люди могут и должны нести ответственность за свое поведение, а не склонности.

До появления больших данных эта фундаментальная свобода была очевидной, причем настолько, что вряд ли нуждалась в формулировке. В конце концов, на ней основан принцип работы нашей правовой системы: мы привлекаем людей к ответственности за свои действия, оценивая то, что именно они натворили. С помощью больших данных мы можем спрогнозировать действия человека, и порой достаточно хорошо. Это создает искушение судить о людях не по тому, что они сделали, а по тому, что они сделают, судя по нашим прогнозам.

В эпоху больших данных нам придется расширить свое представление о справедливости и включить меры по обеспечению безопасности человеческого фактора, аналогичные тем, которые существуют для защиты процессуальной справедливости. Без этого само понятие справедливости может быть подорвано.

Учитывая человеческий фактор как обязательное условие, мы гарантируем, что органы государственной власти будут судить о нашем поведении исходя из наших реальных действий, а не анализа больших данных. Таким образом, мы должны нести ответственность перед ними только за совершенные действия, а не статистически прогнозируемые в будущем. А судя о предыдущих действиях, органы государственной власти не должны полагаться исключительно на анализ больших данных. Рассмотрим случай, когда две компании подозреваются в ценовом сговоре. К анализу больших данных вполне приемлемо прибегнуть для выявления возможного сговора, поэтому регулирующие органы могут провести расследование и завести дело с использованием традиционных средств. Но эти компании нельзя признать виновными только потому, что, по прогнозам больших данных, они, вероятно, совершили преступление.

Аналогичный принцип должен применяться и вне органов государственной власти, когда компании принимают важные решения о нас: нанять или уволить, предложить ипотеку или отказать в кредитной карте. Если они руководствуются исключительно прогнозами больших данных, необходимо обеспечить определенные меры безопасности. Во-первых, открытость — предоставление данных и алгоритма, лежащих в основе прогноза, который касается конкретного человека. Во-вторых, сертификацию — прохождение сертификации, в ходе которой алгоритм должен быть признан экспертной третьей стороной как обоснованный и достоверный. В-третьих, недоказуемость — определение конкретных путей, с помощью которых человек может опровергнуть прогнозы относительно себя (аналогично традиции в науке раскрывать любые факторы, которые могут подорвать результаты исследования).

Самое главное, гарантия человеческого фактора защищает нас от угрозы «диктатуры данных», когда данным придается больше смысла и значения, чем они заслуживают.

Не менее важно то, что мы защищаем индивидуальную ответственность. Ведь всякий раз, когда общество принимает решение, затрагивающее других, возникает большой соблазн избавить их от ответственности. Общество переходит к управлению рисками, то есть к оценке возможностей и вероятностей потенциальных результатов. При всей видимой объективности данных очень заманчиво звучит идея оградить процесс принятия решений от эмоциональных и личностных факторов, поставив алгоритмы на смену субъективным оценкам судей и оценщиков и формулируя свои решения уже не на языке ответственности, а оперируя категориями более «объективных» рисков и их предотвращения.

Ввиду прогнозов больших данных возникает сильное искушение изолировать людей, которые, судя по прогнозам, склонны к совершению преступлений, и во имя снижения риска регулярно подвергать их тщательным проверкам, даже если они чувствуют (не без оснований), что наказаны без суда и следствия. Предположим, такой алгоритм «охраны правопорядка», основанный на прогнозах, определил, что конкретный подросток в высшей степени склонен к совершению тяжкого преступления в ближайшие пять лет. В итоге по решению властей социальный работник будет ежемесячно наведываться к подростку, чтобы контролировать его и попытаться ему помочь.

Если подросток и его родственники, друзья, учителя или работодатели воспринимают эти визиты как клеймо (что вполне вероятно), то это вмешательство можно оценить как наказание — по сути, штраф за действия, которые никто не совершал. Впрочем, немногим лучше ситуация, если визиты рассматриваются не как наказание, а как простая попытка уменьшить вероятность криминальных событий — так сказать, способ минимизации рисков (в данном случае сводится к минимуму риск совершения преступления, которое подрывает общественную безопасность). Чем чаще привлечение людей к ответственности за свои действия заменяется мероприятиями по снижению рисков, тем больше в обществе снижается ценность идеала индивидуальной ответственности. Государство, основанное на прогнозах, — в первую очередь государство-нянька. Отрицание ответственности человека за свои действия разрушает фундаментальную свободу людей выбирать свое поведение.

Если большинство решений на государственном уровне полагаются на прогнозы и желание снизить риски, наш личный выбор, а значит, и наша личная свобода действий больше не имеют значения. Где нет вины, там нет невиновности. Уступая такому подходу, мы не улучшаем, а скорее обедняем мир.

Основным стержнем управления большими данными является гарантия того, что мы продолжим судить других, принимая во внимание их индивидуальную ответственность, а не «объективно» обрабатывая числа, чтобы определить, являются ли те или иные лица преступниками. Только в таком случае мы будем относиться к ним по-человечески — как к людям, которые имеют свободу выбора своих действий и право быть судимыми за них. Это не что иное, как последствие наступления эпохи больших данных для нынешней презумпции невиновности.

Вскрытие «черного ящика»

Современные компьютерные системы принимают решения на основе явно запрограммированных правил, которым они должны следовать. Таким образом, если что-то пошло не так, а это неизбежно случается, мы можем вернуться и выяснить, почему компьютер принял то или иное решение. («Почему система автопилота подняла самолет на пять градусов выше, когда внешний датчик определил внезапное повышение влажности?») Сегодня компьютерный код можно открыть и проверить, а основания для решений системы независимо от их сложности — сделать понятными хотя бы для тех, кто разбирается в коде.

При использовании анализа больших данных отследить это станет гораздо сложнее. Основа прогнозов алгоритма зачастую может быть непосильной для человеческого понимания.

Когда компьютеры были явно запрограммированы следовать набору инструкций, как это было с одной из первых программ компании IBM для перевода с русского на английский (1954 год), человеку было легко понять, почему одно слово заменялось другим. Когда компания Google объединяет миллиарды страниц переводов, чтобы судить о том, почему английское слово light выводится на французском как lumire, а не lger (имеется в виду яркость, а не отсутствие тяжести), невозможно точно объяснить причину выбора: основа прогнозирования влечет за собой огромные объемы данных и обширные статистические вычисления.

Масштабы работы с большими данными выйдут далеко за рамки привычного для нас понимания. Так, корреляция, определенная компанией Google между несколькими условиями поиска и гриппом, стала результатом проверки 450 миллионов математических моделей. С другой стороны, Синтия Рудин первоначально разработала 106 прогностических факторов того, что канализационный люк может загореться, и сумела объяснить менеджерам компании Con Edison, почему ее программа выстроила места проверки именно в таком приоритетном порядке. «Объясняемость», как говорят в кругах исследования искусственного интеллекта, имеет большое значение для нас, смертных, которые, как правило, хотят знаь не только факты, но и их причину. А что если бы вместо 106 прогностических факторов система автоматически создала 601, подавляющее большинство из которых имеют очень низкий вес, но вместе взятые повышают точность модели? Основа для любого прогноза была бы невообразимо сложной. Что тогда Синтия сказала бы руководителям, чтобы убедить их перераспределить свой скудный бюджет?

В таких случаях мы видим риск того, что прогнозы больших данных, а также алгоритмы и наборы данных, стоящие за ними, станут «черными ящиками», которые не дают ни малейшей прозрачности, подотчетности, прослеживаемости или уверенности. Для того чтобы предотвратить это, необходимы отслеживание и прозрачность больших данных, а также новые виды специальных знаний и учреждения, которые бы ими занимались. Эти новые игроки окажут поддержку в многочисленных областях, где общество должно внимательно изучить прогнозы и дать возможность пострадавшим требовать возмещения.

В обществе такое происходило и раньше, когда при резком увеличении сложности и специализации определенной области возникала острая необходимость в специалистах для управления новыми техническими средствами. Профессии, связанные с юриспруденцией, медициной, бухгалтерским учетом и инженерией, подверглись таким преобразованиям более ста лет назад. Не так давно появились консультанты по компьютерной безопасности и конфиденциальности. Они следят за тем, чтобы деятельность компании соответствовала передовой практике, определяемой такими органами, как Международная организация по стандартизации (созданная ввиду возникшей необходимости в разработке правил в этой области).

В эпоху больших данных потребуются люди, которые взяли бы на себя эту роль. Назовем их алгоритмистами. Они могли бы выступать как представители независимых органов, которые работают вне организаций, и как специалисты самих организаций, аналогично тому как компании нанимают и штатных бухгалтеров, и внешних аудиторов, которые проверяют их работу.

Новая профессия — алгоритмист

Новые профессионалы должны быть специалистами в области компьютерных наук, математики и статистики. Выступали бы они в качестве инстанций, контролирующих анализ и прогнозы больших данных. Алгоритмисты давали бы клятву в беспристрастности и конфиденциальности, как это делают бухгалтеры и другие специалисты в наше время. Они могли бы оценивать выбор источников данных, аналитических средств и средств прогнозирования (в том числе алгоритмов и моделей), а также интерпретацию результатов. В случае возникновения спора алгоритмисты получали бы доступ к соответствующим алгоритмам, статистическим подходам и наборам данных, которые подготовили данное решение.

Если бы в Министерстве внутренней безопасности США в 2004 году был штатный алгоритмист, он смог бы заблаговременно выявить ошибку, закравшуюся в черный список преступников, в который попал сенатор от штата Массачусетс Тед Кеннеди. Вспомним недавние инциденты, где пригодились бы алгоритмисты. В Японии, Франции, Германии и Италии появились претензии от людей в том, что их позорила функция «автозаполнения» поисковой системы Google, которая выдает список наиболее распространенных условий запроса, связанных с их именем. Эта функция в значительной степени зависит от частоты предыдущих поисков: условия ранжируются в соответствии с их математической вероятностью. А кого бы не возмутило, если бы рядом с его именем отобразилось слово «зэк» или «проститутка», когда кто-то из потенциальных деловых партнеров или пассий решил поискать о нем информацию в Сети?

Мы рассматриваем алгоритмистов как рыночный подход для решения аналогичных проблем, который может оставить позади более навязчивые формы регулирования. Алгоритмисты удовлетворили бы потребность в обработке нового наплыва финансовой информации — так в начале ХХ века появились бухгалтеры и аудиторы. Обычным людям было трудно разобраться в обрушившемся на них потоке цифр. Возникла необходимость в объединении специалистов в гибкие, саморегулируемые структуры для защиты интересов общества. В ответ рынок породил совершенно новый сектор конкурирующих компаний, которые предлагали услуги финансового надзора. Таким образом новому поколению профессионалов удалось укрепить уверенность общества в экономике как таковой. Большие данные могут и должны использовать преимущества аналогичного повышения уверенности. И с этой задачей успешно справились бы алгоритмисты.

Внешние алгоритмисты

Внешние алгоритмисты могли бы выступить в роли независимых аудиторов для проверки точности и достоверности прогнозов больших данных по запросу клиента или правительства в судебном порядке или по решению регулирующих органов. Алгоритмисты также могли бы проводить аудит пользователей больших данных, нуждающихся в экспертной поддержке, и подтверждать обоснованность применения больших данных, допустим в технических средствах по борьбе с мошенничеством или системах обращения ценных бумаг. Наконец, они могли бы консультировать государственные органы, как лучше всего использовать большие данные в государственном секторе.

По примеру медицины, права и пр. эту новую сферу деятельности можно регулировать кодексом поведения. Беспристрастность, конфиденциальность, компетентность и профессионализм алгоритмистов обеспечивались бы жестким порядком ответственности. В случае нарушения этих стандартов алгоритмисты подвергались бы судебным искам. Их можно было бы привлекать к участию в судебных процессах в качестве свидетелей-экспертов или назначать в качестве «придворных мастеров» (по сути, экспертов в определенной предметной области для оказания помощи судье) при рассмотрении особо сложных вопросов, связанных с большими данными, в ходе судебного разбирательства.

Кроме того, люди, пострадавшие от прогноза больших данных (пациент, которому отказали в хирургическом вмешательстве, заключенный, которому отказали в досрочном освобождении, или заявитель, которому отказали в ипотеке), могли бы обратиться за помощью к алгоритмистам, равно как к адвокатам, чтобы разобраться в этом решении и опротестовать его.

Внутренние алгоритмисты

Внутренние алгоритмисты — штатные специалисты организаций, которые контролируют деятельность, связанную с большими данными. Их задача — отстаивать интересы не только компании, но и людей, пострадавших в результате анализа больших данных, проводимого данной компанией. Внутренние алгоритмисты отвечают за операции с большими данными и являются первыми контактными лицами для таких потерпевших, а также проверяют анализ больших данных на целостность и точность, прежде чем будет оглашен результат. Для выполнения этой задачи алгоритмистам нужен определенный уровень свободы и непредвзятости в рамках организации, в которой они работают.

Может показаться нелогичным, что человек, работающий в компании, должен оставаться беспристрастным по отношению к ней. Но такое встречается достаточно часто. Один из примеров — отделы по надзору в крупных финансовых учреждениях; далее — советы директоров во многих компаниях, которые несут ответственность перед акционерами, а не руководством. А многие медиакомпании, в том числе New York Times и Washington Post, нанимают омбудсменов, основной обязанностью которых является защита доверия общественности. Эти сотрудники работают с жалобами читателей и нередко публично подвергают суровой критике своего работодателя, если считают его виновным.

Еще более удачный аналог внутреннего алгоритмиста — специалист, который несет ответственность за злоупотребление личной информацией в корпоративной среде. В Германии компании, превышающие определенный размер (наличие в штате десяти и более человек, занятых обработкой личной информации), обязаны назначить представителя для защиты данных. Начиная с 1970-х годов штатные представители для защиты данных разработали профессиональную этику и корпоративный дух. Они регулярно встречаются для обмена передовым опытом и обучения, а также имеют собственные специализированные СМИ и проводят конференции. Кроме того, им удалось развить двойную лояльность: к своим работодателям и к своим обязанностям в качестве непредвзятого контролирующего органа.[162] Существование немецких представителей защиты корпоративных данных можно расценивать как успех в выполнении функций омбудсмена по защите корпоративных данных и укреплении ценностей конфиденциальной информации во всех сферах деятельности компании. На наш взгляд, алгоритмисты могли бы выполнять аналогичную функцию.

Раскрытие информации

Основной инструмент, который государственные органы используют для надзора за деятельностью граждан и компаний, — запрос на предоставление информации. Иногда раскрытия информации самого по себе достаточно, чтобы стимулировать соблюдение требований или отстаивать цели регулирования. Такой принцип лежит в основе законов, согласно которым компании, имеющие утечку больших данных, обязаны уведомлять об этом потребителей и регулирующие органы. Как видно, угроза общественного неодобрения может стимулировать надлежащую профилактику. На эту же идею опираются экологические законы, которые требуют от компаний не снижения выбросов токсичных веществ, а лишь раскрытия информации о выделяемом их количестве: контроль и отчетность стимулируют сторонников внутри компании и в обществе в целом оказывать давление на компанию, чтобы снизить загрязнение. Сама лишь прозрачность информации может достигать социальных целей, которые трудно даются политическим путем.[163]

Открытость станет важным способом контроля действий с большими данными и обеспечения надлежащей прозрачности для наборов данных, алгоритмов, предположений, статистических подходов и вытекающих из них решений. Проверки анализа больших данных могут потребоваться по решению суда, в рамках конкретного расследования или в качестве периодической меры (например, годовой финансовой отчетности для открытых акционерных компаний).

Конечно, прозрачность не означает, что компании будут разглашать конфиденциальную информацию. Публичное уведомление может содержать информацию о том, что организация проверяет или уже проверила свои прогнозные модели, не разглашая их суть. Такие уведомления характерны для современных проверок систем безопасности и конфиденциальности. Обязательная проверка и ограниченная огласка входят в требования, предъявляемые к компаниям, официально зарегистрированным на бирже до 2000 года; тогда компании должны были сообщать о своей готовности к полному изменению в своих отчетах на фондовой бирже.

Регулирующие органы США уже утвердили такой порядок в соглашениях на расследования Федеральной торговой комиссии (Federal Trade Commission, FTC), обязав Google и Facebook проводить аудит конфиденциальности раз в два года в течение 20 лет и предоставлять отчет FTC. Для компании Twitter срок аналогичных обязательств был установлен равным десяти годам. А после массовой утечки конфиденциальных данных о более чем 45 миллионах кредитных карт торговая сеть TJX, управляющая многочисленными магазинами уцененных товаров в США (T.J. Maxx и пр.), наряду с брокерами данных Reed Elsevier и Seisint согласилась ежегодно проводить независимый аудит безопасности в течение последующих 20 лет и сообщать о результатах в FTC.

Такой подход имеет ряд преимуществ. Лучше обеспечивается соблюдение требований, поскольку контроль осуществляется периодически в течение длительного периода. Главный вопрос поднимается на самые высокие уровни управления, а не остается в ведении ИТ-вундеркиндов, которые заняты решением повседневных задач для поддержания работы систем и могут поскупиться на надлежащие меры безопасности ввиду ограниченности времени и бюджета. Кроме того, этот подход изначально гибкий, а значит, передовая практика и надлежащие меры безопасности будут со временем меняться с учетом новых технологий и взглядов. Опорой служит более рыночно ориентированный механизм проведения проверок — участие независимых специалистов, а не регулирующих органов, которые не всегда достаточно компетентны, чтобы проводить такие мероприятия.

Бароны данных

Данные в информационном обществе — все равно что топливо в эпоху промышленной революции: крайне важный ресурс, подпитывающий нововведения, на которые полагаются люди. Без обширного, динамичного снабжения данными и надежного рынка услуг эти нововведения могут исчезнуть.

В этой главе рассмотрены три фундаментальных перехода в управлении, благодаря которым мы можем быть уверены, что темную сторону больших данных удастся укротить. По мере развития зарождающейся отрасли больших данных возникнет дополнительная задача первостепенной важности — защита конкурентных рынков больших данных. Мы должны предотвратить появление «баронов данных» — современный эквивалент баронов-разбойников ХІХ века, которые подмяли под себя железные дороги, производство стали и телеграфные сети США.

Для контроля этих ранних промышленников в США установлены чрезвычайно гибкие антимонопольные правила. Первоначально разработанные для железных дорог в 1800-х годах, позднее они были применены к другим компаниям, препятствующим потоку информации, от которой зависели компании, — от компании NCR Corporation (в 1910-х) до IBM (в 1960-х и далее), Xerox (в 1970-х), AT&T (в 1980-х), Microsoft (в 1990-х) и Google (в наше время). Технологии, впервые представленные ими, стали одним из основных компонентов «информационной инфраструктуры» экономики, и понадобилась сила закона, чтобы предотвратить их господство.

Для шумного рынка больших данных придется обеспечить условия, сопоставимые с конкурентной борьбой и надзором, которые уже успели закрепиться в этих технологических областях. Регулирующим органам потребуется найти равновесие между осторожными и решительными действиями. Антимонопольный опыт указывает, каким путем этого равновесия можно достичь. Но развитие технологий невозможно предугадать. Даже большие данные не могут спрогнозировать собственное развитие.

Антимонопольное регулирование обуздало злоупотребление властью. Удивительно, как превосходно принципы перемещаются из одного сектора в другой, а также между различными типами сетевых отраслей. Это словно вид мышечной регуляции, где каждая из технологий получает равную поддержку, что само по себе полезно, так как устанавливает равные условия для конкуренции, не предполагая ничего большего. Чтобы стимулировать здоровую конкуренцию в сфере больших данных, государственные органы должны применять антимонопольные правила. Кроме того, выступая одним из крупнейших в мире держателей данных, они должны выпускать свои данные публично. Подобные процессы мы наблюдаем уже сегодня.

Опыт антимонопольного регулирования заключается в том, что, определив всеобъемлющие принципы, регулирующие органы могут реализовать их, чтобы обеспечить необходимые гарантию и поддержку. Кроме того, три стратегии, которые мы обозначили: смещение защиты конфиденциальности от индивидуального согласия в сторону подотчетности пользователей данных, закрепление приоритетности человеческого фактора над прогнозами, а также создание нового класса аудиторов больших данных (алгоритмистов) — могут служить основой эффективного и справедливого управления информацией в эпоху больших данных.

Как это часто бывало в истории других нововведений (от ядерных технологий до биотехнологий), люди сначала создают инструменты, которые могут им навредить, а затем изобретают механизмы, чтобы от них защититься. В этом смысле большие данные занимают место в ряду таких сфер жизни общества, которые ставят перед нами задачи, не имеющие единственно верного решения. Они поднимают текущие вопросы о том, как мы распоряжаемся окружающим миром. Каждое поколение должно решать эти вопросы заново. Наша задача — оценить опасность этих новейших технологий, поддержать их развитие и собрать плоды.

Как и печатный станок, большие данные приводят к изменению порядка самоуправления в обществе. Это заставляет нас по-новому решать вечные проблемы и новые задачи, опираясь на основные принципы. Чего мы не должны допустить, так это неуправляемого развития больших данных, когда формирование технологии становится неподвластно человеку. Нужно способствовать развитию технологий, не забывая о безопасности людей. 

Глава 10

Что дальше?

Майк Флауэрс работал юристом в офисе окружного прокурора Манхэттена, занимаясь судебным преследованием по различным делам, от убийств до преступлений на Уолл-стрит, прежде чем перешел в одну из шикарных корпоративных адвокатских контор в начале 2000-х годов. Проведя год за скучной офисной работой, Майк решил уйти. Ему хотелось делать что-то более значимое, например помогать вершить перестройку в Ираке. Коллега сделал пару звонков вышестоящим лицам — и Флауэрс не успел опомниться, как направился в «Зеленую зону» (безопасный район для американских войск в центре Багдада) в составе группы юристов для суда над Саддамом Хусейном.

Его задача оказалась скорее логистической, чем юридической. Флауэрсу предстояло определить места предполагаемых массовых захоронений, чтобы знать, куда направить следователей на раскопки. Кроме того, ему нужно было благополучно переправить свидетелей в «Зеленую зону», обезопасив их от взрывов многочисленных СВУ (самодельных взрывных устройств), которые были страшной повседневной реальностью. Он увидел, что военные рассматривали эти вопросы как задачи обработки данных. Аналитики разведывательной службы, например, сочетали полевые отчеты со сведениями о местоположении, времени и жертвах прошлых СВУ, чтобы спрогнозировать наиболее безопасный маршрут на конкретный день.

По возвращении в Нью-Йорк два года спустя Флауэрс понял, что те методы являлись более эффективным способом борьбы с преступностью, чем он когда-либо имел, будучи прокурором. К тому же Флауэрс нашел поистине родственную душу в лице мэра Майкла Блумберга, который сколотил состояние на поставке банкам финансовой информации и ее анализа. Флауэрса определили в специальную оперативную группу по обработке чисел, которая должна была разоблачить преступников, замешанных в скандале с ипотеками высокого риска в 2009 году. Работа группы оказалась настолько успешной, что уже через год мэр Блумберг попросил ее расширить сферу деятельности. Флауэрс стал первым городским «директором по аналитике». Его миссия заключалась в том, чтобы создать команду лучших ученых в области данных, которых только можно было найти, и с их помощью обрабатывать нетронутые городские залежи информации на благо всех и вся.

Флауэрс раскинул сеть для поиска подходящих людей: «Меня не интересовали очень опытные статистики, поскольку они могли не принять новый подход к решению проблем». В ходе собеседований со статистиками для проекта, связанного с финансовым мошенничеством, Флауэрс заметил, что они склонны проявлять скрытое беспокойство по поводу математических методов. «Я даже не задумывался о том, какая модель будет использоваться. Мне нужны были результаты, дающие основания для конкретных действий. Это все, что меня заботило», — говорит он. Флауэрс собрал команду из пяти человек (как он их назвал, «напарников»). Все, кроме одного, были экономистами по специальности, окончившими вуз всего год или два назад, без особого жизненного опыта в большом городе, но с определенным творческим потенциалом.

Одна из первых задач, с которыми они столкнулись, была связана с серьезным вопросом «незаконного переоборудования» — практикой разделения жилищ на множество мелких помещений, чтобы вместить в десятки раз больше людей, чем предусмотрено по проекту. Незаконно переоборудованные жилища не только имеют высокую пожароопасность, но и являются рассадниками преступности, наркомании, болезней и вредителей. Клубки проводов, опоясывающие стены, электроплиты прямо на покрывалах, люди, утрамбованные вплотную. В таких адских условиях люди мрут как мухи. В 2005 году двое пожарных разбились насмерть, пытаясь спасти людей в одном из приютов. Нью-Йорк ежегодно получает около 25 000 жалоб на незаконное переоборудование, но их обработкой занимается всего 200 инспекторов. При этом у них нет надежного способа отличить простые неудобства от реальной угрозы воспламенения. Флауэрс и его напарники увидели в этом задачу, которую можно решить с помощью большого количества данных.

Они начали с составления списка всех 900 000 зданий в городе. Затем изучили наборы данных, полученные от 19 различных учреждений, в которых указывались наличие задержек в уплате налогов на недвижимость со стороны владельца здания, разбирательств по поводу взысканий по закладной, отклонений в оплате коммунальных услуг или их отключение за неуплату. Учитывались информация о типе здания и времени его постройки, визиты скорой помощи, уровень преступности, жалобы на грызунов и многое другое. Полученные данные сравнивались с упорядоченными по степени сложности данными о пожарах за последние пять лет. Тем самым планировалось выявить корреляции для создания модели, которая сможет прогнозировать, какие жалобы требуют наиболее быстрого реагирования.

Основная часть исходных данных была представлена в неподходящей форме. Отсутствовало единообразие в описании местоположения домов: каждые агентство и департамент, похоже, имели свой подход. Департамент строительства давал каждому зданию уникальный номер. У департамента по сохранению жилищного фонда была иная система нумерации. Налоговый департамент присваивал каждому объекту недвижимости идентификатор на основе района, квартала и участка. Полиция использовала декартову систему координат. Пожарные учитывали близость к «пожарным извещателям», связанным с расположением пожарной части (хотя сами пожарные извещатели уже упразднены). Напарники Флауэрса задействовали эти беспорядочные данные, разработав систему, которая учитывает радиус вокруг передней части здания на основе декартовых координат и добавляет геолокационные данные, полученные из других учреждений. Изначальные сведения были неточными, но огромное количество данных, загружаемых в систему, с лихвой компенсировало этот недостаток.

Команда не довольствовалась одними лишь математическими вычислениями. Напарники Флауэрса изучили работу инспекторов в полевых условиях. Они делали многочисленные заметки и выспрашивали у профессионалов мельчайшие подробности. Если умудренный опытом начальник сообщал, что здание, к которому они подошли, не представляет угрозы, напарники хотели знать причину его уверенности. Он не мог ее точно сформулировать, но со временем напарники поняли, что он имел в виду новую кирпичную кладку снаружи здания. Это означало, что владелец заботился о здании должным образом.

Напарники вернулись в свои кабины, задаваясь вопросом, как внести в свои модели такой сигнал, как «свежая кирпичная кладка». В конце концов, кирпичи пока еще не датифицированы. Зато на выполнение любых фасадных кирпичных работ требовалось разрешение городских властей. Эта информация значительно улучшила прогностическую эффективность системы, указывая, какие здания, скорее всего, не представляли особого риска.

Аналитика неоднократно демонстрировала, что некоторые из освященных веками способов ведения дел не были лучшими, равно как скаутам из фильма «Человек, который изменил всё» пришлось смириться с недостатками своей интуиции. Например, раньше количество звонков с жалобами по горячей линии города «311» рассматривалось как индикатор наиболее серьезных проблем: чем больше звонков, тем серьезнее проблема. Но это оказалось ложной предпосылкой. Крыса, замеченная в шикарном Верхнем Ист-Сайде, могла обеспечить 30 звонков в час, но в районе Бронкса понадобилось бы не меньше армии грызунов, чтобы соседи соизволили набрать номер. Точно так же большинство жалоб на незаконное переоборудование могло быть связано с шумом, не вызвавшим каких-либо серьезных последствий.

В июне 2011 года Флауэрс с напарниками «щелкнули выключателем». Все жалобы, подходящие под категорию незаконного переоборудования, были пропущены через их систему на еженедельной основе. Напарники отобрали данные о 5% статистически наиболее пожароопасных зданий и передали их инспекторам для незамедлительной проверки. Полученные результаты ошеломили всех.

До применения анализа больших данных инспекторы в первую очередь проверяли жалобы, которые считали самыми неотложными. Но только в 13% случаев условия оказывались достаточно тяжелыми, чтобы требовать выселения. Теперь инспекторы выдавали ордеры на выселение более чем в 70% случаев проверок. Большие данные позволили пятикратно повысить эффективность рабочего времени инспекторов. И результаты работы улучшились, так как можно было сконцентрировать усилия на самых серьезных проблемах. Обретенная эффективность имела и побочные преимущества. Пожары на незаконно переоборудованных участках в 15 раз чаще приводили к ранениям или гибели пожарных, поэтому новый подход тут же нашел признание в рядах пожарной службы. Флауэрс и его напарники были похожи на волшебников с хрустальным шаром, который позволяет заглянуть в будущее и предсказать, какие места наиболее опасны. Они взяли огромное количество данных, хранившихся долгие годы и практически не используемых с момента сбора, и применили их по-новому, извлекая реальную пользу. С помощью огромного массива информации напарникам удалось сделать ценные открытия, которые были бы невозможны при ее меньших количествах. В этом и есть суть больших данных.

Опыт нью-йоркских «алхимиков» в области аналитики наглядно демонстрирует множество тем, раскрытых в этой книге. Они использовали гигантский объем данных, а не его небольшую часть. Их список зданий в городе представлял собой не что иное, как массив данных «N = всё». Их не смутила беспорядочность данных, например информации о местоположении или записей скорой помощи. Преимущества большого количества данных перевесили недостатки меньшего количества нетронутой информации. Напарникам удалось достичь своих целей, поскольку многие характеристики города были представлены (пусть и непоследовательно) в виде данных, что позволило обрабатывать и использовать информацию для улучшения прогнозов.

Догадки экспертов, будь то напыщенные статистики или государственные служащие, отвечающие за горячую линию для жалоб, были вынуждены уступить место подходу, основанному на данных. Вместе с тем Флауэрс и его напарники постоянно сверяли свои модели с мнением опытных инспекторов, чьи советы помогли усовершенствовать систему. Однако важнейшей причиной ошеломительного успеха программы был отказ от причинности в пользу корреляции.

«Меня не интересуют причинно-следственные связи, если только они не касаются конкретных действий, — поясняет Флауэрс. — Это не для меня. И, честно говоря, все эти разговоры о причинности полны неясностей. Не думаю, что день разбирательства по поводу взысканий по закладной и статистическая вероятность пожара в определенном здании хоть как-то взаимосвязаны. Я полагаю, было бы глупо так считать. И никто бы не объявил об этом во всеуслышание. Считается, что есть основные факторы. Но я даже не хочу в это вникать. Мне нужна конкретная точка данных, которая имеет определенную значимость и к которой у меня есть доступ. Если она значима, мы будем ее учитывать, а если нет — то нет. В общем, нам нужно решать реальные проблемы. И, откровенно говоря, я не могу себе позволить отвлекаться на причинность и прочую ерунду».

Когда данные говорят

Большие данные имеют огромное практическое значение как технология, которая служит решению животрепещущих повседневных проблем, но при этом порождает еще больше новых. Большие данные способны изменить наш образ жизни, труда и мышления. В каком-то смысле мы упираемся в больший тупик, чем во времена других эпохальных инноваций, значительно расширивших объем и масштабы информации в обществе. Мы стоим на зыбкой почве. Старые факты подвергаются сомнению. Ввиду больших данных необходимо пересмотреть понятия природы принятия решений, судьбы и справедливости. Мировоззрение, сотканное из понимания причин, теперь оспаривается доминированием корреляций. Обладание знанием, которое когда-то означало понимание прошлого, постепенно преобразовывается в способность прогнозировать будущее.

Эти вопросы намного важнее тех, которые возникали по мере запуска интернет-магазинов, повседневного использования интернета, входа в эпоху компьютеров или введения в обиход абака. Мысль о том, что стремление понять причины может быть переоценено и в большинстве случаев выгоднее отказаться от вопроса почему в пользу вопроса что, предполагает, что эти вопросы оказывают существенное влияние на наш образ жизни и мышления. Однако они могут оказаться риторическими. По сути, эти вопросы — часть вечных дискуссий на тему места человека в мире и его поисков смысла жизни в суматохе хаотичного и непостижимого мира.

Большие данные ознаменовали момент, когда «информационное общество», наконец, начало оправдывать свое название. Всю собранную цифровую информацию теперь можно по-новому использовать в инновационных целях, открывая новые формы ценности. Для этого нужен иной тип мышления, который бросает вызов нашим учреждениям и даже нашему чувству идентичности. Ясно одно: объем данных будет неуклонно расти, равно как и возможности их обработки. Но если большинство людей рассматривают большие данные как технологический вопрос, сосредоточив внимание на аппаратном или программном обеспечении, мы считаем, что акцент необходимо перенести на то, что происходит, когда данные «говорят».

Мы можем собирать и анализировать больше информации, чем когда-либо. Нехватка данных отныне не определяет наши усилия для познания мира. Мы можем использовать значительно больше данных, а в некоторых случаях даже все. Но для этого придется взять на вооружение нестандартные способы обработки и, в частности, изменить свое представление об идеале полезной информации.

Вместо того чтобы ставить во главу угла точность, чистоту и строгость данных, мы можем — и это даже необходимо — несколько ослабить свои требования. Данные не должны быть заведомо ошибочными или ложными, но их беспорядочность не представляет особых проблем при многократном увеличении масштаба. Она может быть даже выгодной, так как, используя лишь небольшую часть данных, мы упускали из виду широкое поле подробностей, где обнаруживается масса знаний.

Поскольку корреляции можно найти гораздо быстрее и с меньшими затратами, чем причинность, им нередко отдается предпочтение. В некоторых случаях (например, при тестировании побочных эффектов препарата или проектировании важнейших частей самолета) по-прежнему понадобятся исследования причинно-следственных связей и эксперименты в контролируемых условиях с тщательным контролем данных. Но для многих бытовых нужд вполне достаточно знать ответ на вопрос что, а не почему. Кроме того, корреляции больших данных способны указать перспективные направления для поиска причинности.

Быстрые корреляции позволяют экономить на покупке авиабилетов, прогнозировать вспышки гриппа и определять люки и перенаселенные здания, которые следует осмотреть, в условиях ограниченных ресурсов. Они же позволяют медицинским страховым компаниям принимать решения по страховой защите без медицинского осмотра и снижают стоимость напоминаний больным о приеме лекарств. На основании прогнозов, сделанных с помощью корреляций среди больших данных, выполняются переводы и создаются системы автоматического управления автомобилем. Walmart может узнать, какой сорт печенья Pop-Tarts положить сразу у входа в магазин, когда надвигается ураган (ответ: со вкусом клубники). Конечно, причинно-следственные связи не лишние, когда их удается уловить. Проблема в том, что зачастую их выявить непросто, и мы нередко обманываем себя, считая, что нам это удалось.

Все эти новые возможности в какой-то мере обеспечиваются новыми инструментами — от более быстрых процессоров и увеличенного объема памяти до более эффективного программного обеспечения и алгоритмов. Они, безусловно, играют важную роль, но больше данных у нас появляется благодаря постепенной датификации всего и вся. Надо отметить, что стремление измерить мир количественно появилось задолго до компьютерной революции. Но цифровые инструменты подняли датификацию на новый уровень. Мало того что мобильные телефоны могут отслеживать, кому мы звоним и куда идем, — те же данные дают возможность определить, что мы заболели. Вскоре они смогут дать понять, что мы влюблены.

Способность создавать что-то новое, успевать больше и делать все лучше и быстрее раскрывает огромную ценность данных, разделяя мир на победителей и проигравших. Основную (альтернативную) ценность информации обеспечит ее вторичное использование, а не только первичное, как принято считать. Таким образом, целесообразно собирать как можно больше самых разных данных и удерживать до тех пор, пока это содержит добавочную ценность, а также давать возможность анализировать данные тем, кто имеет больше возможностей раскрытия их ценности (при условии разделения полученной выгоды).

Успеха добьются компании, которые сумеют попасть в центр информационных потоков и научатся собирать данные. Для эффективного использования больших данных требуются технические навыки и хорошее воображение — мышление категориями больших данных. Основная ценность достанется тем, кто владеет данными. При этом важным активом может оказаться не только та информация, которая на виду, но и выбросы данных, полученные от взаимодействия людей с информацией. Используя такие выбросы с умом, компания улучшит существующую службу или запустит совершенно новую.

Большие данные таят в себе огромные риски. Они стирают правовые и технические ограничения, с помощью которых мы пытаемся сохранить конфиденциальность, тем самым выявляя неэффективность существующих основных технических и правовых механизмов. Раньше было хорошо известно, что относится к личной информации: имена, номера социального страхования, идентификационные коды и пр. Защитить такую информацию было относительно нетрудно, заблокировав ее. Сегодня даже с помощью самых безобидных данных, если их накоплено достаточно много, можно установить личность. Попытки придать данным анонимную форму или скрыть их уже неэффективны. Кроме того, установление слежки за отдельными лицами теперь влечет за собой более глубокое вторжение в частную жизнь, чем когда-либо, поскольку органы власти хотят увидеть не только как можно больше информации о человеке, но и как можно более широкий спектр его отношений, связей и взаимодействий.

Независимо от того, насколько большие данные угрожают конфиденциальности, существует другая уникальная и тревожная проблема. Ввиду того что прогнозы больших данных становятся все более точными, их можно использовать для наказания людей за прогнозируемое поведение, то есть действия, которые им предстоит совершить. Такие прогнозы невозможно опровергнуть в очевидной форме, поэтому никто не в силах себя оправдать. Наказание на этой основе отрицает понятие свободы воли и вероятность, пусть и небольшую, что подозреваемый выберет другой путь. Поскольку мы назначаем индивидуальную ответственность (и применяем наказание), человеческая воля должна быть неприкосновенна. Если будущее не оставит нам свободного поля деятельности, большие данные извратят саму суть человеческой природы: рациональное мышление и свободу выбора.

У нас пока нет надежных способов подстроить нормы и законы под специфику грядущего мира больших данных. Однако по мере постижения обществом их особенностей и недостатков его процветанию будут способствовать некоторые реформы. Мы в состоянии обеспечить свободный обмен информацией, учредив права исключения для данных, контролируя расстановку сил на рынке и поощряя государственные инициативы в поддержке идеи открытых данных. Мы можем расширить доступ к личной информации, установив способы ее приемлемого вторичного использования (для чего не понадобятся дополнительные разрешения), но в то же время ограничив сроки хранения и применения такой информации. Мы можем найти новые технические решения, например способы «размывания» признаков для установления личности. Прогнозы больших данных не должны служить назначению индивидуальной ответственности. Человеческая воля неприкосновенна. Наконец, людям нужно дать возможность исследовать алгоритмы и исходные данные, применявшиеся в ходе принятия решений, влияющих на их интересы (особенно если это влияние негативное). Для преодоления этой задачи необходимо новое поколение специалистов (алгоритмистов), призванных помочь анализировать и интерпретировать эффективность и законность инструментов и процессов обработки больших данных.

Большие данные станут неотъемлемой частью понимания и решения многих насущных глобальных проблем. Борьба с изменением климата требует анализа данных о загрязнении, чтобы понять, куда лучше всего направить усилия, и найти пути смягчения последствий проблем. Немыслимое количество датчиков, размещенных по всему миру (в том числе встроенных в смартфоны), позволяет моделировать ситуацию на более высоком уровне детализации. Улучшение структуры здравоохранения и снижение затрат на него, особенно в беднейших странах мира, станет значительной частью программы автоматизации процессов, которые в настоящее время нуждаются в человеческих суждениях, но могли бы выполняться компьютерами (например, изучение биопсии раковых клеток или обнаружение признаков инфекции до ее полного развития).

Большие данные уже использовались на благо экономического развития и предотвращения конфликтов. Так, данные о передвижении владельцев сотовых телефонов показали участки африканских трущоб, которые являются средоточием бурной экономической активности. Кроме того, большие данные дали возможность обнаружить общины с наиболее обострившейся межэтнической напряженностью и показали, чем может обернуться кризис беженцев.[164] Со временем большие данные станут использоваться все чаще, поскольку технология находит применение во всех сферах жизни.

Большие данные позволяют не только делать лучше то, что мы уже умеем, но и изобретать что-то новое. Однако это не волшебная палочка. Они не установят мир во всем мире, не приведут к искоренению нищеты или появлению нового Пикассо. С помощью больших данных невозможно произвести на свет младенцев, зато можно спасти преждевременно рожденных. Со временем большие данные наверняка войдут почти во все аспекты нашей жизни. Возможно, их отсутствие даже станет вызывать легкое беспокойство сродни тому, когда мы ожидаем от врача направление на рентген для выяснения того, что не удалось выявить путем обычного медицинского обследования.

Поскольку большие данные входят в нашу жизнь, они вполне могут влиять на наше представление о будущем. Около пятисот лет назад изменилось восприятие человечеством времени в рамках движения к более светской, научно обоснованной и просвещенной Европе.[165] На заре человечества время считалось циклическим понятием, как и сама жизнь. Каждый день (и год) был очень похож на предыдущий, и даже конец жизни напоминал ее начало, поскольку стареющие взрослые снова становились беспомощны, как дети. Когда стало преобладать линейное восприятие времени, мир предстал в виде развертывающейся вереницы дней — линии жизни, подвластной нашему влиянию. Если раньше прошлое, настоящее и будущее были слиты воедино, то теперь у человечества появилось прошлое, на которое можно оглянуться, и будущее, которого можно с трепетом ожидать, пока длится настоящее.

В то время как настоящее мы в силах формировать, будущее превратилось из чего-то абсолютно предсказуемого в нечто открытое и нетронутое — огромный пустой холст, который каждый мог заполнить в соответствии со своими ценностями и усилиями. Одна из характерных черт современности — то, что мы воспринимаем себя хозяевами своей судьбы, и это отличает нас от наших предков, для которых предопределенность в той или иной форме была нормой. Прогнозы больших данных делают полотно нашей жизни менее открытым, чистым и нетронутым. Наше будущее кажется в какой-то мере предсказуемым для тех, кто владеет технологией, чтобы это сделать. Похоже, это уменьшает нашу способность определять самим свою судьбу, а потенциальные возможности возлагает на алтарь вероятности.

В то же время большие данные могут означать, что мы всегда остаемся узниками своих предыдущих действий, которые модели прогнозирования используют против нас, претендуя на знание наших последующих действий: нам никогда не уйти от того, что случилось. «Прошлое — это лишь пролог», — писал Уильям Шекспир. Большие данные закрепляют это утверждение алгоритмически со всеми его достоинствами и недостатками. Но омрачит ли это нашу радость каждому восходу солнца или желание оставить в этом мире свой след?

Скорее всего, наоборот. Зная, что может произойти в будущем, мы примем надлежащие меры, чтобы предотвратить проблемы или улучшить результаты. Мы сможем заметить, кто из студентов начал «скатываться», задолго до выпускного экзамена. Мы выявим мельчайшие раковые опухоли и вылечим их, прежде чем они успеют разрастись. Мы узнаем о вероятности нежелательной подростковой беременности или преступности и сможем вмешаться, сделав все возможное, чтобы предотвратить вероятный исход. Мы предупредим пожары с потенциальными жертвами в многоквартирных зданиях Нью-Йорка, зная, какие из них проверить в первую очередь.

Ничто не предопределено, потому что мы всегда можем отреагировать на полученную информацию. Прогнозы больших данных не высечены на камне — это всего лишь наиболее вероятные результаты, а значит, при желании их можно изменить. Мы сами выбираем, как встретить и приручить будущее — словно Мори, отыскавший естественные пути среди огромной глади моря и ветров. Для этого не нужно понимать природу космоса или доказывать существование богов — достаточно больших данных.

Больше чем большие данные

Преобразуя свою жизнь с помощью больших данных — оптимизируя, улучшая, повышая эффективность и используя преимущества, — какую роль мы отводим интуиции, вере, неопределенности и новизне?

Большие данные учат нас тому, что более эффективные поступки и постоянное совершенствование, пусть и лишенные глубокого понимания, достаточно надежны. Твердо придерживаясь такого подхода, вполне можно преуспеть. Даже если вы не знаете, почему ваши усилия сказываются тем или иным образом, с большими данными вы добьетесь большего успеха, чем без них. Флауэрс и его напарники в Нью-Йорке, может, и не являются воплощением просвещенных мудрецов, но они и вправду спасают жизни. Так что большие данные не только повышают нашу эффективность, но со временем, вероятно, смогут дать то, что мы могли бы назвать мудростью.

Большие данные — нечто большее, чем холодный мир алгоритмов и автоматики. Существенную роль играют люди со всеми своими слабостями, заблуждениями и ошибками, поскольку эти черты — неотъемлемая часть творчества, интуиции и гениальности человека. Одни и те же беспорядочные умственные процессы ведут как к унижениям или упорству в заблуждениях, так и к успехам и обретению величия. Это наводит на мысль, что следует приветствовать некоторую неточность как своего рода часть человеческой природы, так же как мы учимся охватывать беспорядочные данные, поскольку они служат большой цели. В конце концов, беспорядочность является важным достоянием мира и нашего мышления. Принять ее и считаться с ней — значит получить преимущества.

Вы спросите, какой толк от людей в условиях, когда решения опираются на данные, а интуиция противоречит фактам? Если бы все обращались к данным и использовали соответствующие инструменты, возможно, критическим отличием стал бы элемент непредсказуемости — человеческий фактор интуиции, риска, случайностей и ошибок.

В таких условиях неизбежно придется выкроить место для человека — его интуиции, здравого смысла и прозорливости, чтобы их не заглушили данные и машинные ответы. Главное преимущество человека заключается в том, чего не могут уловить и показать алгоритмы и кремниевые микросхемы, поскольку это нельзя выразить в виде данных. Мы имеем в виду не то, что есть, а то, чего нет, будь то пустое пространство, трещина в тротуаре или невысказанная либо пока еще не сформировавшаяся мысль.

Человеческий фактор имеет огромное значение для достижения прогресса в обществе. Большие данные означают, что мы можем экспериментировать быстрее и исследовать больше инициатив, при этом создавая больше инноваций. Искра изобретения — то, о чем не узнаешь из данных, и то, что не удастся подтвердить при любом их количестве, поскольку речь идет о том, чего пока не существует. Если бы Генри Форд спросил большие данные, чего хотят его клиенты, они бы ответили — более быстрых лошадей (мы перефразировали его крылатую фразу). В мире больших данных будут поощряться такие человеческие качества, как творчество, интуиция, риск и интеллектуальные амбиции, ведь наша изобретательность — источник прогресса.

Большие данные являются как инструментом, так и ресурсом и предназначены в большей степени информировать, чем объяснять. Они ведут людей к пониманию, но все еще могут вызывать недоразумения в зависимости от того, как с ними обращаться. Какими бы ослепительными ни были возможности больших данных, мы не должны позволять, чтобы их соблазнительный блеск затмил свойственные им недостатки.

Мы никогда не сможем собрать, сохранить или обработать всю совокупность мировой информации — максимальное количество «N = всё» — с помощью существующих технологий. Лаборатория физики элементарных частиц ЦЕРН в Женеве собирает менее 0,1% информации, которая создается в процессе экспериментов, а остальное рассеивается, как дым, вместе с сопутствующими знаниями.[166] Но это вряд ли новая истина. Общество всегда было ограничено в инструментах, используемых для измерения и познания действительности — от компаса и секстанта до телескопа, радара и, наконец, GPS. Наши инструменты завтра могут стать вдвое, десятикратно или даже в тысячу раз мощнее, чем сегодня, основательно снизив значимость наших нынешних знаний. В скором времени наш мир больших данных покажется чем-то столь же забавным, как память 4 Кб бортового управляющего компьютера «Аполлон-11».[167]

Мы всегда сможем собирать и обрабатывать лишь малую часть совокупной всемирной информации, и она может быть только подобием действительности, словно тени на стенах пещеры Плато.[168] Поскольку информация не бывает идеальной, наши прогнозы так или иначе подвержены ошибкам. Но это не означает неправильности данных — просто они не бывают полными. Такое положение вещей не отрицает открытий со стороны больших данных, но все расставляет по местам. Большие данные не дают окончательных ответов, но и те, что есть, дают нам возможность дождаться лучших методов и, следовательно, лучших ответов. А между тем нам следует использовать большие данные с большой долей беспристрастности… и человечности.

Страницы: «« 1234

Читать бесплатно другие книги:

Договор с Создателями заключен, а значит полковника Ветрова и его команду ждет рейд в глубь Прокляты...
Алла не находила себе места – Оля пропала, а она так и не успела оформить над девочкой опекунство! Р...
Владельца сети канцелярских магазинов «Веселая промокашка», одинокого любителя азалий Волопасова пре...
Судьба переменчива и непредсказуема. Откомандированный в Аусбург следователь первого ранга Курт Гесс...
У Маркиза и Лолы – новое дело. Владелец ювелирной фирмы внезапно исчезает с деньгами и драгоценностя...
Если вы можете все – это не значит, что счастливая и спокойная жизнь вам гарантирована. Москвич Иван...