WTF? Гид по бизнес-моделям будущего О’Рейли Тим
Статистические методы становятся не только все более мощными; они становятся все более быстрыми и более утонченными. Если наши разработчики программного обеспечения когда-то клепали роботизированные механизмы, то теперь они производят нечто больше похожее на джиннов, могущественных независимых духов из арабской мифологии, которых можно заставить исполнять наши желания, но которые так часто искусно интерпретируют желание своего хозяина в максимально невыгодном для него свете. Подобно метле из диснеевской версии фильма «Ученик чародея», алгоритмические джинны делают все, о чем мы их попросим, но их трактовки могут быть слишком бестолковыми и однобокими, что приводит к непредвиденным и иногда пугающим результатам. Как нам добиться того, чтобы они делали то, что мы их просим?
Управление ими – это процесс сравнения результатов программ и алгоритмов с некой идеальной целью плюс проведение тестирований, чтобы определить, какие изменения приблизят вас к этой цели. В отношении некоторых приложений, таких как поисковый робот Google, ключевыми функциями для анализа могут быть скорость, полнота и новизна. В 1998 году, когда была основана компания Google, сканирование и индексирование веб-страниц происходило каждые несколько недель. Сегодня это происходит практически моментально. В случае определения актуальности это вопрос сравнения результатов программы с тем, что мог бы ожидать информированный пользователь. На первых этапах работы Google эта практика была довольно примитивной. В документе, посвященном поиску Google, опубликованном в то время, когда они еще учились в Стэнфорде, основатели Google Ларри Пейдж и Сергей Брин писали: «Функция ранжирования имеет множество параметров… Выяснить правильные значения этих параметров – это что-то из области черной магии».
Разработчики Google сообщают, что количество сигналов, используемых для расчета релевантности, выросло до 200, а гуру маркетинга в области поисковых систем Дэнни Салливан считает, что может существовать до 50 000 подсигналов. Каждый из этих сигналов измеряется и вычисляется с помощью комплекса программ и алгоритмов, каждый из которых имеет свою собственную функцию приспособленности, которую он стремится оптимизировать. Результатом этих функций является оценка, которую вы можете рассматривать как цель главной функции приспособленности, предназначенной для оптимизации релевантности.
У некоторых из этих функций, таких как PageRank, есть имена, им даже посвящены научно-исследовательские материалы, объясняющие их значение. Другие являются коммерческой тайной, известной только командам инженеров, которые создают их и управляют ими. Многие из них представляют собой коренные улучшения в искусстве поиска. К примеру, дополнение, которому корпорация Google дала название «Граф знаний», позволило связать известные ассоциации между структурами различного вида, такими как даты, люди, места и организации, и различать, например, что человек может «родиться» тогда-то, «работать» там-то, являться «дочерью» того-то или «матерью» такого-то, «проживать» там-то и т. д. Эта работа была основана на базе данных, созданной компанией Metaweb, которую в 2010 году приобрела корпорация Google. Когда Metaweb представила свой проект в марте 2007 года, я с восторгом написал: «Они создают новые синапсы для глобального мозга».
Другие компоненты для всеобъемлющего алгоритма поиска были созданы в ответ на изменяющиеся условия в этом глобальном мозге, коллективное выражение мнений миллиардов взаимосвязанных людей. Например, корпорация Google сначала изо всех сил пыталась адаптироваться к потоку информации, поступающий из Twitter в режиме реального времени; алгоритмы также должны были быть откорректированы, поскольку смартфоны сделали видео и изображения в Интернете такими же доступными, как текст; поскольку все больше и больше поисковых запросов поступало с мобильных устройств, точное местоположение которых было известно, локальные результаты стали гораздо более важными; с появлением голосового ввода стиль речи поисковых запросов стал более разговорным.
Google постоянно пробует новые идеи, которые могут обеспечить лучшие поисковые результаты. В интервью 2009 года вице-президент Google по поисковым запросам Уди Манбер отметил, что в прошлом году они провели более 5000 экспериментов и «возможно, по 10 экспериментов для каждого успешного запуска». Корпорация Google внесла изменения в алгоритм, определила новый коэффициент ранжирования, от 100 до 120 раз в квартал, или в среднем один раз в день. С тех пор эта скорость только увеличивалась. В области рекламы проводилось еще больше экспериментов.
Как они узнают, что изменение улучшает релевантность? Один из способов оценить изменение – это реакция пользователей в краткосрочном плане: на какую ссылку они нажимают? Другим является реакция пользователей в долгосрочном плане: обратились ли они к Google еще раз? Еще один способ – беседовать с фактическими пользователями напрямую и спрашивать их, что они думают.
В Google также есть группа специалистов по оценке, которые проверяют результаты стандартизованного перечня общих вопросов, который ведется автоматически на постоянной основе. На заре истории Google как составление списка вопросов, так и его анализ выполнялись самими инженерами. К 2003 или 2004 году корпорация Google создала отдельную команду, определяющую качество поиска, которая стала этим заниматься. В это подразделение входят не только инженеры, занимающиеся поисковыми запросами, но и статистически значимая группа внешних пользователей, которые работают по принципу шахматного автомата «Механический турок», оценивая, «нравятся» им или «не нравятся» самые различные результаты поиска. В 2015 году корпорация Google даже опубликовала руководство, которое использует в своей работе команда, определяющая качество поиска.
Однако важно помнить, что, когда оценщики находят проблему, Google не изменяет рейтинг сайта в большую или в меньшую сторону вручную. Когда они обнаруживают аномалию – результат, созданный алгоритмом, не соответствует ожиданиям участвующих в тестировании людей, – они спрашивают себя: «Какие дополнительные факторы или какую иную оценку качества мы можем добавить к алгоритму, чтобы он выдавал тот результат, который, как мы считаем, ищут пользователи?»
Не всегда сразу становится очевидным, как решить некоторые проблемы поиска одним лишь только ранжированием. В какой-то момент лучшим результатом для запроса «Глейшер-Бей», определенным при помощи алгоритма, оказался сайт компании Glacier Bay, производящей краны и раковины, а не одноименный национальный парк в США. Алгоритм сработал верно, потому как большинство людей переходили по ссылкам и искали сантехнические приборы Glacier Bay, но пользователи были бы очень удивлены, если бы парк вообще не отображался в топе поисковой выдачи.
Моя собственная компания O’Reilly Media столкнулась с аналогичной проблемой. Сайт компании O’Reilly Media (в то время еще звавшейся O’Reilly & Associates) был одним из самых первых в Интернете, и мы опубликовали много содержательного и высококачественного контента, который был особенно актуален для первых интернет-пользователей, поэтому у нас было много-много внешних ссылок. Это дало очень высокий показатель авторитетности страницы PageRank. В какой-то момент, на заре истории Google, кто-то опубликовал «алфавит Google» – лучший результат для поиска по одной букве. Моя компания оказалась под буквой О. Но как насчет компании O’Reilly Auto Parts, входящей в рейтинг 500 крупнейших мировых компаний Fortune 500? Ее не было даже на первой странице результатов поиска.
Какое-то время, пока они не придумали, как исправить алгоритм, корпорация Google разделяла такие страницы на две части. В случае с Glacier Bay национальный парк занял верхнюю половину страницы поисковой выдачи, а нижняя половина была отдана раковинам, туалетам и кранам. В случае с O’Reilly мы с Биллом O’Райли решили поделить между собой верхнюю часть страницы, в то время как компании O’Reilly Auto Parts досталась нижняя половина. В конце концов корпорация Google значительно улучшила алгоритмы ранжирования, чтобы результаты на странице чередовались.
Одним из факторов, требующих постоянной корректировки алгоритмов, является стремление создателей веб-страниц адаптироваться к системе. Ларри и Сергей предвидели эту проблему в своем оригинальном исследовательском докладе:
«Еще одно существенное различие между веб-сайтами и строго регламентированными традиционными системами сбора данных заключается в том, что нет практически никакого контроля за тем, что люди могут разместить в Интернете. Эта свобода публиковать все, что угодно, пока огромная сила поисковых систем распределяет трафик, при наличии компаний, которые намеренно манипулируют поисковыми системами для получения прибыли, порождает серьезную проблему».
Это было преуменьшением. Целые компании были созданы для того, чтобы обманывать систему. Многие из алгоритмов поиска Google были созданы в ответ на то, что получило название «интернет-спама». Даже когда интернет-издатели не использовали коварную тактику, они все чаще боролись за улучшение своего рейтинга. «Поисковая оптимизация», или SEO, стала новым направлением. Консультанты, знающие передовые практики, советовали клиентам, как структурировать их веб-страницы, как сделать так, чтобы веб-документ содержал ключевые слова, и как выделить их надлежащим образом, объясняли, почему важно, чтобы на него ссылались существующие высококачественные сайты, и многое другое.
Существовали также и «черные методы» поисковой оптимизации – создание сайтов, которые намеренно обманывают поисковых роботов и нарушают условия их работы. «Черные методы» оптимизации включали в себя наполнение веб-страницы невидимым текстом, который поисковик может прочитать, а человек нет, а также создание множества «контент-ферм», представляющих собой алгоритмически сгенерированный контент низкого качества, отвечающий всем правильным критериям поиска, но содержащий мало полезной информации, которая действительно заинтересовала бы пользователя, и страницы перекрестных ссылок для создания видимости активности и интереса людей. Корпорация Google внедрила множество обновлений для алгоритмов поиска, предназначенных специально для борьбы с подобным спамом. Борьба с плохими игроками неизбежна для любого широко используемого онлайн-сервиса.
Однако у корпорации Google было одно огромное преимущество в этой битве: особое внимание она уделяла интересам пользователей, что нашло отражение в качественной релевантности. В своей книге 2005 года «The Search» Джон Баттел назвал Google «базой намерений». Веб-страницы могут использовать скрытые методы, чтобы попытаться улучшить свое положение, – и многие так и делали, – но корпорация Google постоянно стремилась соответствовать простому золотому стандарту: то ли это, что хочет найти пользователь?
Когда в 2002 году корпорация Google представила модель рекламного аукциона с оплатой за клик, запущенную из идеалистического стремления улучшить результаты поиска, он стал основой невероятно успешного бизнеса. К счастью, в отличие от других рекламных бизнес-моделей, которые создают конфликт интересов рекламодателей и пользователей, оплата за клик учитывает интересы и тех и других.
В модели с оплатой за показ, которая ранее занимала доминирующее положение в сфере интернет-рекламы и продолжает преобладать в печати, радио и на телевидении, рекламодатели платят за то, сколько раз зрители/слушатели увидят или услышат объявление (или в случае со средствами массовой информации, в меньшей степени поддающимися измерению, как часто они могут его видеть или слышать, на основе оценок читателей или зрителей), что обычно выражается в CPM (стоимости за обработанное количество тысяч рекламопоказов). Но в модели с оплатой за клик, представленной небольшой компанией под названием GoTo (позднее переименованной в Overture) в 1998 году, в том же году, когда была основана компания Google, рекламодатели платят только тогда, когда зритель фактически нажимает на объявление и посещает рекламируемый веб-сайт.
Таким образом, клик по объявлению становится похож на клик по результату поиска: признаком намерения пользователя. В модели оплаты за клик компании Overture объявления продавались по самой высокой цене, предложенной компанией, готовой заплатить больше всех за то, чтобы ее объявление отображалось на популярной странице релевантных результатов поиска и на желаемой позиции. С этой моделью компания добилась скромных успехов, а реально преуспела она только тогда, когда эту идею стала продвигать корпорация Google. Проницательность Google заключалась в том, что фактический доход от рекламы с оплатой за клик был комбинацией его цены и вероятности того, что ссылка на рекламу в самом деле будет нажата. Объявление, которое стоит всего 3 доллара США, но по которому переходят в два раза чаще, чем по объявлению стоимостью 5 долларов, принесет дополнительный доллар к ожидаемому доходу. В ретроспективе измерение вероятности клика по объявлению и его использование для классификации мест размещения рекламы очевидно, но, как и в случае с «покупкой в 1 клик» в магазине Amazon или с автоматической оплатой приложения Uber, люди, ослепленные сложившимися стереотипами о том, как должна продаваться реклама, не могли себе этого представить.
Это очень упрощенная схема того, как действительно работает рекламный аукцион Google, но она дает представление о соответствии поисковой бизнес-модели корпорации Google ее обещанию помогать пользователям находить наиболее релевантные результаты.
Компании Facebook не так повезло с определением соответствия между задачами своих пользователей и своих рекламодателей.
Почему? Люди обращаются к социальным сетям не только за фактами. Они обращаются к ним для общения со своими друзьями, за новостями, развлечениями и последними мемами. В попытке охватить эти задачи пользователей компания Facebook избрала функцию приспособленности, которая измеряет то, что, по их мнению, пользователи считают значимым. Подобно Google, Facebook использует множество сигналов, чтобы определить, что их пользователи считают наиболее значимым в своей ленте, но один из самых сильных тот, что мы могли бы назвать «вовлеченностью». Вездесущая кнопка Like под каждым постом – это одно из мерил вовлеченности; пользователи хотят получить выброс эндорфина, который происходит, когда их друзья обращают внимание на контент, которым они делятся, и одобряют его. Facebook считает клики, так же как Google, но клики, которые они больше всего ценят, – это не те, с помощью которых люди переходят на другие сайты, а те, благодаря которым они остаются на сайте и ищут нечто похожее на то, что они только что видели.
Изначально лента новостей Facebook была четко выстроенным во времени набором обновлений от друзей, на которых вы подписались. Это была нейтральная платформа. Но как только компания Facebook поняла, что может получить более высокий уровень взаимодействия, продвигая страницы с наибольшим количеством «лайков» и наиболее кликабельные ссылки в верхнюю часть новостной ленты, иногда показывая их снова и снова, она стала чем-то вроде старых телемагазинов.
В первые дни коммерциализации Интернета у меня была возможность посетить компанию QVC, «бабушку» телемагазинов, которая хотела создать онлайн-эквивалент своей передаче. На трех вращающихся сценах располагались товары и ведущие, которые восторженно рекламировали их зрителям. Напротив сцены стоял аналитик с гигантской компьютерной рабочей станцией, отслеживающий количество звонков и продаж каждого из call-центров компании в режиме реального времени. Он только тогда посылал сигнал переходить к следующему продукту, когда заинтересованность к предыдущему и его продажи падали. Мне сказали, что ведущих нанимали на работу за способность неустанно рассказывать о достоинствах карандаша в течение как минимум пятнадцати минут.
Это образ социальных сетей с их вовлеченностью в качестве функции приспособленности. Миллионы ведущих, работающих в режиме нон-стоп. Миллиарды персональных торговых каналов для контента.
Как и в случае с Google, на сильных и слабых сторонах алгоритма вскоре стали играть как честные, так и нечестные игроки. Как совершенно точно обобщил идеи Маршалла Маклюэна отец Джон Калкин: «Мы формируем наши средства коммуникации, а затем наши средства коммуникации формируют нас». Вы выбираете функцию приспособленности для своих алгоритмов, а они, в свою очередь, формируют вашу компанию, ее бизнес-модель, ее клиентов и в конечном счете все наше общество. Мы рассмотрим некоторые из недостатков функции приспособленности Facebook в главе 10 и функции финансовых рынков – в главе 11.
Если начало использования вероятностных больших массивов данных было похоже на замену поршневого двигателя реактивным, начало использования машинного обучения похоже на переход к ракетам. Ракета может полететь туда, куда не может полететь устройство с реактивным двигателем, поскольку оно несет не только собственное горючее, но и собственный кислород. Это слабая аналогия, но она дает представление о глубине изменений, которые машинное обучение привносит в практику даже такой компании, как Google.
Себастьян Трун, первопроходец в области беспилотных автомобилей, который руководил первыми попытками Google в этой сфере и который в настоящее время является генеральным директором платформы онлайн-обучения Udacity, рассказал о том, как меняется практика разработки программного обеспечения: «Раньше я разрабатывал программы, которые делали именно то, что я им говорил делать, что заставляло меня создавать правила для каждой непредвиденной ситуации. Теперь я строю программы, насыщаю их данными и обучаю их, как делать то, что мне нужно».
При использовании старого подхода у инженера-программиста, работающего над поисковой системой Google, возможно, возникла бы гипотеза о сигнале, который улучшил бы результаты поиска. Он скопировал бы алгоритм, проверил его на некой подгруппе поисковых запросов и, если бы результаты стали лучше, мог бы перейти к внедрению. Если бы результаты не улучшились, то разработчик, возможно, изменил бы код и повторил эксперимент. При использовании машинного обучения разработчик, как и прежде, начинает с гипотезы, но вместо того, чтобы создавать алгоритм для обработки данных вручную, он составляет набор обучающих данных, отражающих эту гипотезу, а затем передает данные программе, которая выводит модель – математическое представление элементов, которые необходимо искать в данных. Этот цикл повторяется снова и снова, при этом программа вносит поправки в модель до последней минуты, постепенно трансформируя гипотезу с использованием такой техники, как градиентный спуск, пока она не будет более точно соответствовать данным. Короче говоря, усовершенствованная модель рождается благодаря изучению данных. Затем эту модель можно использовать для работы с реальными данными, аналогичными набору обучающих данных.
Ян Лекун, пионер революционного метода машинного обучения, названного глубинным обучением, в настоящее время возглавляющий лабораторию исследования искусственного интеллекта в Facebook, использует следующую аналогию, чтобы объяснить, как модель обучается распознаванию изображений:
«Система распознавания образов похожа на черный ящик с камерой с одной стороны, с зеленой и красной лампочкой сверху, а также с целой кучей рычагов спереди. Алгоритм обучения пытается настроить рычаги так, чтобы, когда перед камерой находится, скажем, собака, загорался красный свет, а когда перед камерой находится автомобиль, загорался бы зеленый свет. Вы показываете машине собаку. Если красный свет яркий, ничего не делайте. Если он тусклый, подрегулируйте рычаги так, чтобы свет стал ярче. Если загорится зеленый свет, настройте рычаги так, чтобы он стал тусклее. Затем покажите автомобиль и подстройте рычаги, чтобы красный свет погас, а зеленый свет стал ярче. Если вы покажете много примеров автомобилей и собак и каждый раз будете продолжать подстраивать рычаги, в конце концов машина каждый раз начнет выдавать правильный ответ… Сложность заключается в том, чтобы выяснить, в каком направлении регулировать каждый рычаг и насколько, и особо с ними не возиться. Это включает в себя вычисление «градиента», который указывает для каждого рычага, как изменяется свет при его регулировании. Теперь представьте себе коробку с 500 миллионами рычагов, 1000 лампочек и 10 миллионами изображений для обучения. Это типичная система Глубинного обучения».
Глубинное обучение использует наслоения распознавателей. Прежде чем вы сможете распознать собаку, вы должны уметь распознавать фигуры. Прежде чем вы сможете распознавать фигуры, вы должны уметь распознавать края, чтобы отличить фигуру от ее фона. Каждый из этих последовательных этапов распознавания дает сжатое математическое представление, которое передается на следующий уровень. Правильное сжатие имеет ключевое значение. Если вы попытаетесь сжать слишком много, вы не сможете отобразить богатство происходящего и у вас появится уведомление об ошибке. Если вы попытаетесь сжать слишком мало, сеть прекрасно запомнит примеры для обучения, но не обобщит должным образом новые материалы.
Машинное обучение использует способность компьютеров очень быстро делать одно и то же или незначительные вариации одного и того же снова и снова. Ян однажды в шутку заметил: «Главная проблема с реальным миром заключается в том, что вы не можете ускорить реальный ход времени». Но компьютеры делают это постоянно. Программа для игры в го на базе искусственного интеллекта AlphaGo, созданная британской компанией DeepMind, в 2016 году победившая одного из лучших игроков в мире, сначала изучила 30 миллионов позиций го из исторических матчей, сыгранных опытными игроками-людьми. Затем она сыграла миллионы игр сама с собой, чтобы еще больше усовершенствовать свой стиль игры.
Машинное обучение стало основной составляющей поиска Google. В 2016 году компания Google анонсировала RankBrain, модель машинного обучения, помогающую определить страницы, которые относятся к теме запроса пользователя, но фактически могут не содержать слова из запроса. Это может быть особенно полезным для запросов, которых никогда не было раньше. По данным компании Google, оценка RankBrain стала третьей по важности среди более чем двухсот факторов, которые она использует для ранжирования страниц.
Google также использует глубинное обучение для перевода на иностранные языки. Результаты настолько разительно улучшились, что после нескольких месяцев тестирования команда прекратила работу над старой системой Google Translate и полностью заменила ее на систему, базирующуюся на глубинном обучении. Она еще не настолько хороша, как люди-переводчики, но она близка к этому, по крайней мере в том, что касается повседневного функционального использования, хотя, возможно, пока не подходит для литературного перевода.
Для Google Фото также используется глубинное обучение. Если вы пользовались сервисом Google Фото, вы видели, как он может распознавать объекты на ваших фотографиях. Введите слово «лошадь», и вы увидите изображения лошадей, даже если они не подписаны. Введите слово «замок» или «забор», и вы увидите изображения замков или заборов. Это магия.
Не забудьте, что сервис Google Фото делает это по запросу для фотографий более 200 миллионов пользователей для сотен миллиардов фотографий, которые он никогда раньше не видел.
Это называется контролируемым обучением, потому что, несмотря на то что сервис Google Фото не видел ваших фотографий раньше, он видел много других фотографий. В частности, он видел то, что называется учебным набором. В учебном наборе данные промаркированы. «Механический турок» компании Amazon или похожие сервисы используются, чтобы отправлять изображения одно за другим тысячам работников, которым предлагается назвать, что содержит каждое из них, или ответить на вопрос о каком-либо аспекте (например, о цвете), или, как и в случае с учебным набором для Google Фото, просто подписать его.
Amazon называет эти микрозадания хитами (HITs – Human Intelligence Tasks). Каждому задается один вопрос, возможно даже с множеством вариантов ответов: «Какого цвета автомобиль на этом изображении?», «Что это за животное?». Один и тот же хит отправляется множеству работников; когда многие работники дают один и тот же ответ, это, по-видимому, правильно. За каждый хит платят копейки, используя распределенную рабочую силу «экономики свободного заработка», благодаря которой работа водителем Uber выглядит как хорошая работа для среднего класса.
Роль «Механического турка» компании Amazon в обучении – служить напоминанием о том, насколько глубоко переплетаются человеческий и машинный труд в разработке приложений следующего поколения. Мэри Грей, исследователь из Microsoft, которая изучила использование «Механического турка», обратила мое внимание на то, что историю исследований ИИ можно проследить, посмотрев, как менялись хиты, использовавшиеся для создания наборов обучающих данных, с течением времени. (Интересным примером является обновление Руководства Google по определению рейтинга сайтов в начале 2017 года, которое было произведено, по словам Пола Хаара, инженера по ранжированию поисковых систем Google, чтобы создать наборы обучающих данных для алгоритмического обнаружения фальшивых новостей.)
Святой Грааль в сфере ИИ – это неконтролируемое обучение, в ходе которого ИИ самообучается без осуществления тщательной подготовки. Всеобщий восторг вызвало заявление разработчиков DeepMind о том, что их алгоритмы «способны самостоятельно обучаться непосредственно на основе первичного опыта или исходных данных». Компания Google приобрела компанию DeepMind в 2014 году за 500 миллионов долларов, после того как та продемонстрировала ИИ, который научился играть в различные старые компьютерные игры Atari, просто наблюдая за тем, как в них играют.
Вызвавшая широкий общественный резонанс победа AlphaGo над Ли Седолем, одним из лучших игроков в го, стала важным этапом для ИИ: это игра очень сложная, в ней невозможно использовать грубый анализ всех возможных шагов. Но соучредитель DeepMind Демис Хассабис писал: «Мы все еще далеки от создания машины, которая может научиться с легкостью выполнять весь спектр интеллектуальных задач, которые может выполнить человек, что является отличительной чертой настоящего искусственного интеллекта».
Ян Лекун также осадил тех, кто слишком превозносил значимость победы AlphaGo, написав: «Основная часть обучения людей и животных – это неконтролируемое обучение. Если представить интеллект в виде торта, то неконтролируемое обучение будет коржом, контролируемое обучение будет глазурью на торте, а укрепляющее обучение будет вишенкой на торте. Мы знаем, как сделать глазурь и вишенку, но мы не знаем, как сделать корж. Нам необходимо решить проблему неконтролируемого обучения, прежде чем мы сможем хотя бы подумать о создании истинного ИИ».
На данный момент в процесс всегда вовлечены люди, не только в проектирование модели, но и в обработку данных, которые предоставляются модели для обучения. Это может привести к непредвиденной ошибке. Возможно, наиболее важным вопросом в создании ИИ является не разработка новых алгоритмов, а то, как убедиться в том, что наборы данных, при помощи которых мы их обучаем, являются по сути объективными. Книга Кэти О’Нейл «Weapons of Math Destruction» содержит крайне важную информацию по этому вопросу. Например, если бы вам понадобилось подготовить модель машинного обучения для превентивных полицейских мер, основываясь на наборе данных с записями арестов, но не принимая во внимание, что полиция арестовывает людей с темным цветом кожи, а белым говорит «больше не попадайся», то ваши результаты были бы сильно искажены. Для результата гораздо важнее характеристики обучающих данных, чем алгоритм. Неспособность это осознать – сама по себе является необъективностью, с которой будет трудно справиться тем, кто долго изучал информатику до появления машинного обучения.
Этот пример также дает представление о том, как работают модели машинного обучения. В любой заданной модели есть множество векторов функций, создающих n-мерное пространство, в которое классификатор или распознаватель помещает каждый новый элемент, требующий обработки. Несмотря на фундаментальные исследования, направленные на разработку совершенно новых алгоритмов машинного обучения, основная часть тяжелой работы в прикладном механическом обучении заключается в определении функций, которые с наибольшей вероятностью могут предугадать желаемый результат.
Однажды я спросил Джереми Ховарда, бывшего главного технического директора Kaggle, компании, которая проводит соревнования по краудсорсинговому анализу данных, что отличает победителей от проигравших. (Сам Джереми пять раз становился победителем, прежде чем присоединиться к Kaggle.)«Креативность, – сказал он мне. – Все используют одни и те же алгоритмы. Разница заключается в том, какие функции вы хотите добавить в модель. Вы ищете неординарные идеи о том, что может стать предиктивным». (Однако Питер Норвиг отметил, что граница, где необходимо проявить творчество, уже сдвинулась: «Безусловно, это было верно в те времена, когда победителями Kaggle становились такие технологии, как алгоритмы Random Forest и методы опорных векторов. Что касается сетей, использующих технологию глубинного обучения, в них гораздо чаще используется каждая доступная функция, поэтому креативность проявляется в выборе архитектуры модели и в настройке гиперпараметров, а не в выборе функций».)
Возможно, самым важным вопросом для машинного обучения, впрочем, как и для любой новой технологии, является то, какие проблемы мы должны решить в первую очередь. Джереми Ховард стал соучредителем Enlitic, компании, которая использует машинное обучение для анализа снимков диагностической радиологии, а также для сканирования многих других видов клинических данных для определения вероятности и актуальности проблемы, которую врачу-человеку следует рассмотреть более подробно. Учитывая, что ежегодно в Соединенных Штатах делается более 300 миллионов рентгеновских снимко, можно предположить, насколько возможности машинного обучения способны снизить стоимость и улучшить качество медицинского обслуживания.
Компания DeepMind, принадлежащая Google, также работает в сфере здравоохранения, помогая Национальной службе здравоохранения Великобритании повысить эффективность ее работы и ее способность диагностировать различные состояния. Расположенная в Швейцарии компания Sophia Genetics каждый месяц сравнивает данные о 6000 пациентов для того, чтобы найти наилучшее лечение от рака, причем эта цифра ежемесячно увеличивается на десятки.
Джефф Хаммербачер, который работал на Уолл-стрит, прежде чем возглавить команду по обработке данных в Facebook, однажды сказал: «Лучшие умы моего поколения думают о том, как заставить людей нажимать на рекламу. Это отстой». Джефф ушел из Facebook и теперь выступает в двух ипостасях: главного научного сотрудника и соучредителя крупной компании по обработке данных Cloudera и преподавателя в медицинском колледже Icahn School of Medicine at Mount Sinai в Нью-Йорке, где он руководит Hammer Lab – командой разработчиков программного обеспечения и специалистов по обработке данных, пытающихся понять, как иммунная система борется с раком.
Выбор, для решения каких проблем мы будем применять суперсилу нашего нового цифрового «персонала», в конечном счете зависит именно от нас. Мы инициируем гонку джиннов, стремящихся исполнить наши желания. О чем мы их попросим?
Глава 9. «Пылкий темперамент преодолеет все холодные правила»
В начале 2017 года я выступал с речью на собрании министров из организации экономического сотрудничества и развития (ОЭСР) и стран Большой двадцатки по вопросу цифрового будущего. Один из министров Германии за обедом уверенно утверждал: «Единственная причина, по которой компания Uber успешна, заключается в том, что она не должна следовать правилам». К счастью, мне не пришлось самому задавать очевидный вопрос. Один из чиновников ОЭСР спросил: «Вы когда-нибудь пользовались Uber?» «Нет, – признался критик, – у меня есть собственная машина и водитель».
Если вы когда-нибудь пользовались услугами Uber или Lyft, вы по опыту знаете, что это намного лучше, чем такси в большинстве стран. Водители вежливы и дружелюбны; все они используют карты Google или Waze, чтобы определить наиболее эффективный способ добраться до места назначения; поскольку отсутствует счетчик, вы можете заранее оценить стоимость поездки и получить подробный электронный чек в течение нескольких секунд после того, как прибудете на место; и вам никогда не придется возиться с наличными или кредитной картой для оплаты. Но самое главное – у вас есть автомобиль по вызову, который заберет вас, где бы вы ни были, как и у этого немецкого министра, только гораздо дешевле.
На протяжении многих лет я вел подобные беседы с людьми, отвечающими за регулирование новых технологий или участвующими в судебных разбирательствах по вопросам новых технологий. Например, еще в 2005 году во время дискуссии на тему поиска Google Книги меня попросили стать оппонентом адвоката гильдии авторов, которая подала в суд на Google за сканирование книг для создания поискового индекса их содержимого. В поисковом индексе были показаны только фрагменты содержания книг, так же как и фрагменты текста веб-сайтов, которые отображаются в обычном индексе Google. Содержание целиком можно было просматривать только с разрешения издателя, за исключением книг, которые считаются общественным достоянием.
«Сканирование книг означает, что они делают несанкционированную копию, – сказала адвокат. – Они крадут наш контент!» Когда я пытался объяснить, что создание копии – это необходимый шаг в создании поисковой системы и что сервис поиска Google Книги работает точно так же, как и поиск в Сети, меня осенило, что она понятия не имеет, как работает поиск Google. «Вы когда-нибудь пользовались Google?» – спросил я. «Нет, – ответила она, добавив (я не шучу): – Но люди в моем офисе пользовались».
Непредвиденные последствия того, что люди попросту пытаются применить старые правила и классификации к радикально новой модели, подчеркивают необходимость более глубокого понимания технологий со стороны регулирующих органов и проявления нового мышления как с их стороны, так и со стороны компаний, которые они стремятся регулировать. Компании Кремниевой долины, полные решимости произвести «революцию», часто рассматривают регулирующие органы как врагов. Они выступают против правил или просто игнорируют их. «Пылкий темперамент преодолевает все холодные правила», как выразилась шекспировская Порция в «Венецианском купце».
Регулирование также является темой особой остроты в сегодняшней политике. «У нас его слишком много», – говорит одна сторона. «Нам нужно больше», – утверждает другая. Возможно, истинная проблема состоит в том, что у нас просто не тот тип регулирования: гора документов с правилами, неэффективные процессы и весьма ограниченные возможности корректировать правила или процессы, когда мы неизбежно обнаруживаем их нежелательные последствия.
Представим регулирование в более широком контексте. Электроника вашего автомобиля регулирует топливно-воздушную смесь в двигателе, чтобы найти оптимальный баланс между эффективностью топлива и минимальными выбросами. Автопилот самолета регулирует огромное количество факторов, необходимых для того, чтобы удерживать самолет в воздухе и двигаться в правильном направлении. Кредитные компании контролируют и регулируют платежи, чтобы выявлять мошенничество и следить, чтобы вы не превысили свой кредитный лимит. Врачи регулируют дозировку лекарств, которые они прописывают нам, иногда в порядке общих рекомендаций, иногда с особой строгостью, как в случае с химиотерапией, призванной уничтожить раковые клетки, при этом сохранив нормальные клетки в живых, или в случае с анестезией, которая поддерживает пациента в бессознательном состоянии во время операции, в то время как жизненно важные процессы продолжают происходить. Поставщики интернет-услуг и корпоративные почтовые системы контролируют доставляемую клиентам почту, в меру своих возможностей отфильтровывая спам и вредоносные программы. Поисковые системы и социальные сети регулируют поисковую выдачу и рекламные объявления, которые они нам показывают, делая все возможное, чтобы дать нам больше, чем мы хотим увидеть.
Что общего у всех этих форм регулирования?
• Четкое понимание желаемого результата.
• Проведение измерений в режиме реального времени, для определения того, достигнут ли этот результат.
• Алгоритмы (т. е. набор правил), которые постоянно вносят корректировки для достижения результата.
• Регулярный, более глубокий анализ того, являются ли сами алгоритмы правильными и работают ли они так, как ожидалось.
Существует несколько областей – этого слишком мало, – в которых органы власти и квазигосударственные организации осуществляют регулирование с использованием процессов, сходных с теми, что описаны выше. Например, центральные банки регулируют денежную массу с целью управления процентными ставками, инфляцией и общим состоянием экономики. У них есть цель, которую они пытаются достичь, периодически внося в правила небольшие корректировки. Сравните это с обычной моделью регулирования, которая сосредоточена на правилах, а не на результатах. Как часто мы сталкиваемся с правилами, которые попросту больше не имеют смысла? Как часто мы видим доказательства того, что правила действительно достигают желаемого результата?
Законодательства Соединенных Штатов и большинства других стран стали поразительно сложными. Закон о реформе здравоохранения и защите прав пациентов содержал почти две тысячи страниц. В отличие от него Закон о национальном финансировании строительства автомобильных дорог 1956 года, благодаря которому была создана Система межштатных автомагистралей США, крупнейший общественный проект в истории, содержал двадцать девять страниц. Закон Гласса-Стиголла 1933 года, который регулировал деятельность банков после Великой депрессии, содержал тридцать семь страниц. Его отмена привела к финансовому кризису 2008 года. Современный ответ с позиции регулирования, закон Додда – Франка 2010 года, содержит 848 страниц и предусматривает более чем 400 дополнительных актов нормотворчества, в общей сумме составляющих до 30 000 страниц правил.
Законы должны определять цели, права, результаты, полномочия и ограничения.
Если они будут определены четко и с широким охватом, такие законы смогут выдержать испытание временем. Положения, в которых гораздо более подробно указывается, как выполнять эти законы, должны рассматриваться практически так же, как программисты рассматривают свой код и алгоритмы, то есть как постоянно обновляемый набор инструментов, предназначенных для достижения указанных в законах результатов.
Все чаще в современном мире такого рода гибкое регулирование становится чем-то большим, чем метафора. Ежедневно изобретаются и при помощи алгоритмов реализуются новые финансовые инструменты, которые торгуют с электронной скоростью. Как можно регулировать эти инструменты, кроме как программами и алгоритмами, которые отслеживают и управляют ими в их родной стихии, во многом по тем же принципам, что и алгоритмы поиска Google, «положения» Google, контролируют постоянные попытки спамеров обыграть систему? Есть те, кто говорит, что правительство должно просто держаться подальше от регулирования множества сфер и позволить «рынку» во всем разобраться самому. Но недобросовестные игроки в отсутствие активного регулирования используют этот вакуум в своих целях. Подобно тому как такие компании, как Google, Facebook, Apple, Amazon и Microsoft, создают механизмы регулирования своих платформ, правительство существует как платформа для обеспечения успеха нашего общества, и эта платформа нуждается в хорошем регулировании.
Поскольку 2008 год наглядно продемонстрировал практически крах мировой экономики, стало очевидным, что регулирующие органы не смогли идти в ногу с постоянно возникающими в финансовом секторе «инновациями», с помощью которых стремились получить прибыль, невзирая на последствия. Существуют некоторые обнадеживающие признаки. Например, в результате анализа «схем Понци», ставших основой афер Берни Мейдоффа и Аллена Стэнфорда, КЦББ учредила алгоритмические модели, отмечающие хедж-фонды, результаты которых значительно превосходят результаты коллег, использующих те же самые заявленные методы капиталовложения, для проведения расследования. Но после того как подозрительные хедж-фонды отмечены, правоприменительная практика продолжает идти по длинному окольному пути расследований и переговоров, сталкиваясь с проблемами, которые решаются бессистемно, каждая в индивидуальном порядке. В противоположность этому, когда компания Google обнаруживает, что новый вид спама вредит результатам поиска, она может быстро изменить правила, чтобы ограничить последствия деятельности недобросовестных участников. Эти правила выполняются системой автоматически, в соответствии с ее согласованной функцией приспособленности.
Нам нужно найти новые способы включить последствия недобросовестной деятельности в систему, сделать их частью высокоскоростного рабочего процесса, сродни тому, как интернет-компании используют DevOps для оптимизации и ускорения внутренних бизнес-процессов. Это не означает, что мы должны выбросить концепцию «надлежащей правовой процедуры», которая лежит в основе Пятой поправки, поскольку во многих случаях этот процесс можно значительно ускорить и сделать его более справедливым и в то же время более понятным.
Технологические платформы преподносят некие важные уроки. Несмотря на колоссальную сложность алгоритмических систем, используемых для таких платформ, как Google, Facebook и Uber, функция приспособленности этих алгоритмов обычно проста. Считает ли пользователь эту информацию актуальной, если он кликает на нее, а затем уходит? Считает ли пользователь этот контент увлекательным, если он продолжает кликать на следующие истории? Забрал ли водитель клиента в течение трех минут? Обладает ли водитель рейтингом выше 4,5 звезды?
Внешние механизмы регулирования должны сосредоточиться на определении желаемого результата и того, достигнут ли он. Они также должны определить дельту между предполагаемыми результатами и функцией приспособленности алгоритмов, используемых теми, кого они стремятся регулировать. То есть намерены ли участники достичь заявленной цели регулирования или они пытаются этому помешать? Более совершенные регулирующие положения стимулируют объект регулирования самостоятельно решать проблему. Это не «саморегулирование» в том смысле, что правительство просто доверяет рынку принимать правильные решения. Речь идет о создании правильных стимулов. Например, закон «О справедливости расчетов по кредитным покупкам» 1974 года постановил ограничить ответственность потребителей всего 50 долларами в случае любых мошеннических операций по кредитным картам, заставив индустрию в ее собственных интересах ужесточить меры против мошенничества.
Диего Молано Вега, бывший министр информационных технологий и коммуникаций Колумбии, рассказал мне, как он использовал подобный подход для решения хронической проблемы пропущенных телефонных звонков, заменив систему штрафов и трехлетние исследования простым правилом: провайдеры телекоммуникационных услуг должны были возместить клиентам стоимость каждого сброшенного вызова. Спустя год и 33 миллиона долларов возмещенных средств проблема была решена.
А вот пример того, как корпорация Google урегулировала проблему «контент-ферм», которые создавали контент, специально предназначенный для обмана алгоритмов поиска, но которые не представляли большой ценности для пользователей. Корпорация Google не стала начислять штрафы. Она не стала устанавливать подробные правила относительно того, какой тип контента можно публиковать. Но, понизив эти сайты в результатах поиска, она создала обстоятельства, которые привели к тому, что недобросовестные участники или улучшили качество своего контента, или ушли из бизнеса.
Эндрю Халдейн, исполнительный директор по вопросам финансовой стабильности в Банке Англии, привел убедительный аргумент в пользу простоты правил в речи 2012 года, обращенной к Федеральному резерву Канзас-Сити, под названием «Собака и фрисби». Он отметил, что, тогда как точное моделирование полета фрисби и параметров бега, чтобы поймать его, требуют сложных уравнений, простой эксперимент показывает, что даже собака может это сделать. Он доказал, что неудачи финансового регулирования, повлекшие за собой кризис 2008 года, в значительной мере обусловлены сложностью процесса, которая сделала управление практически невозможным. Чем сложнее правила, тем менее вероятно, что они достигнут цели регулирования, и тем более беспомощными становятся они перед лицом изменяющихся условий.
Модернизация того, в каком виде данные предоставляются как правительству, так и рынку, является важным методом улучшения результатов регулирования. Когда отчетность выполняется на бумажном носителе или в непрозрачных цифровых форматах, таких как PDF, или выпускается только ежеквартально, она становится гораздо менее полезной. Когда данные предоставляются в редактируемых цифровых форматах, частный сектор может помочь в устранении проблем, а также в создании новых услуг, которые обеспечивают ценность для клиентов и для граждан. Существует совершенно новая область технологий регулирования, или RegTech, которая использует программные средства и открытые данные для регулятивного мониторинга, предоставления отчетов и обеспечения выполнения.
Системы регулирования, основанные на данных, не обязательно должны быть столь же сложными, как те, которые используются Google или кредитными компаниями. Смысл состоит в том, чтобы оценить результаты и, соответственно, разделить их на отрицательные последствия расхождения и ожидаемые результаты. Слишком часто стимулы не согласованы с результатом. Например, правительство выдает операторам мобильной связи эксклюзивные лицензии на использование радиочастотного спектра с целью создания надежного и всеобщего доступа, однако лицензии на использование радиочастотного спектра продаются с аукциона по самой высокой цене. Дает ли этот метод правильный результат? Качество мобильных услуг в Соединенных Штатах говорит об обратном. Что, если бы вместо этого лицензии на использование радиочастотного спектра предоставлялись тому оператору, который обещает максимальное покрытие? Точно так как министр Молано Вега поступил с телефонной связью в Колумбии, предоставление скидок клиентам за невыполнение обещаний по поводу покрытия потенциально могло бы сделать систему гораздо более саморегулируемой.
Все чаще наши взаимоотношения с предприятиями, правительством и антропогенной средой становятся цифровыми и, следовательно, допускают творческий подход в измерении и в конечном счете гибкое регулирование. Например, штрафы обычно выписываются автолюбителям, которые проезжают на красный свет или поворачивают в неположенном месте, что определяется при помощи камер, установленных на оживленных перекрестках. С развитием GPS-технологий мы приближаемся к будущему, в котором полицейские больше не будут задерживать случайно выявленных нарушителей скоростного режима, а вместо этого лихачам автоматически будет выписываться штраф всякий раз, когда они превышают скорость.
Также мы можем представить себе будущее, в котором это ограничение скорости регулируется автоматически в зависимости от загруженности дорог, погодных условий и других изменяющихся условий, что более целесообразно, чем установленное сегодня скоростное ограничение. Конечным результатом могут стать беспилотные транспортные средства будущего, которые смогут двигаться быстрее, потому что связаны невидимой сетью, системой регулирования движения, которая оберегает нас надежнее, чем сегодняшние ограничения скорости. Скорость может оказаться менее важна, чем качество алгоритма, управляющего автомобилем, и чем тот факт, что автомобиль обновлен до последней версии и оснащен соответствующими датчиками. В конечном счете цель состоит не в том, чтобы автомобили двигались медленнее, чем они могли бы, а в том, чтобы сделать наши дороги безопасными.
Такие сборы, как дорожные пошлины, призванные уменьшить загруженность на дорогах в центре города, – еще один пример. Схожими возможностями обладают умные парковочные счетчики: в часы пик парковка может стоить дороже, а в другое время – дешевле, точно так же как билеты на самолет или гостиничные номера в сезон и после него. Но, возможно, более важным является то, что умные парковочные счетчики могут сообщать, занята ли парковка, и в перспективе давать указания водителям и автомобильным навигационным системам, уменьшая количество времени, которое тратится на бесцельное движение по кругу в поисках парковочного места.
Поскольку мы движемся к будущему с большим количеством электромобилей, появились предложения по замене налогов на бензин, за счет которых мы сейчас финансируем ремонт дорог с каждой пройденной милей – о чем сообщается, конечно же, с помощью той же системы GPS. Такие компании, как Metromile, уже предлагают устанавливать свои страховые тарифы на основании того, как часто и как быстро вы ездите. Это лишь небольшой шаг к тому, чтобы в дальнейшем сделать то же самое с налогами.
Жизнь в мире, где повсеместно господствуют подключенные датчики, ставит под сомнение наши предположения о неприкосновенности частной жизни и о других основных свободах, но мы уверенно движемся к такому миру, исключительно благодаря коммерческим структурам. За нами уже следят через каждый сайт, который мы посещаем в Интернете, через каждый платеж по кредитной карте, который мы совершаем, через каждый набор карт и маршрутов, которым мы следуем, и при помощи растущего количества государственных или частных камер наблюдения. В итоге писатель-фантаст Дэвид Брин оказался прав, написав об этом в своей пророческой книге научного содержания 1998 года «The Transparent Society». В эпоху вездесущего коммерческого наблюдения, которое является неотъемлемой частью возможности компаний предоставлять нужные нам услуги, та неприкосновенность частной жизни, которой мы наслаждались в прошлом, умерла. Брин утверждает, что единственно возможные ответные меры – это сделать наблюдение двусторонним, посредством прозрачности. На вопрос римского поэта Ювенала «Кто будет наблюдать за наблюдателями?» («Quis custo-diet ipsos custodes?») Брин отвечает: «Все мы».
Тем не менее специалист по безопасности и конфиденциальности информации Брюс Шнайер делает прозрачному сообществу важное предостережение, особенно в отношении сбора данных со стороны правительства. Когда существует серьезный дисбаланс власти, прозрачности недостаточно. «Это принцип, которым должны руководствоваться директивные органы, когда они обсуждают установку камер наблюдения или запуск программ интеллектуального анализа данных, – пишет он. – Недостаточно обнародовать деятельность для общественного контроля. Все аспекты правительственной деятельности работают лучше, когда соотношение сил между управляющими и управляемыми максимально сбалансировано, – когда уровень свободы высокий, а контроля – низкий. Принудительная прозрачность для правительства меняет соотношение сил между ними и обществом, и в целом это хорошо. Принудительная прозрачность для населения сдвигает соотношение сил [в сторону правительства], и в целом это плохо».
Нам явно нужны новые стандарты того, каким образом могут быть использованы данные как частными лицами, так и правительством. Мне нравятся слова Гибу Томаса, руководителя международной торговли в компании PepsiCo, сказанные им в те времена, когда он возглавлял отдел цифровых инноваций в компании Walmart: «Здесь должно присутствовать уравнение стоимости. Если мы сэкономим им деньги или напомним им о чем-то, что им может пригодиться, никто не скажет: «Постойте-ка, откуда у вас эта информация?» Или: «Почему вы используете эти данные?» Они скажут: «Спасибо!» Я думаю, что все мы интуитивно понимаем, где появляется фактор страха».
Понятие фактора страха должно быть центральным для будущего регулирования неприкосновенности частной жизни. Когда компании используют наши данные в наших интересах, мы это знаем и мы благодарны за это. Мы с радостью сообщаем данные о нашем местоположении приложению Google, чтобы оно могло указать нам направление, или Yelp или Foursquare, чтобы они могли помочь нам найти лучший ближайший ресторан. Мы даже не возражаем, когда они сохраняют эти данные, если это помогает им давать более четкие рекомендации в будущем. Конечно, Google, я был бы рад, если бы вы могли работать лучше, рассчитывая, сколько мне понадобится времени, чтобы добраться до работы в час пик. И да, я не против, что вы используете мою историю браузера, чтобы выдать мне лучшие результаты поиска. Более того, я бы пожаловался, если бы кто-то изъял эти данные и я бы вдруг обнаружил, что мои результаты поиска стали не так хороши, как раньше.
Но нам также известны случаи, когда компании используют наши данные против нас или продают их людям, которые не собираются действовать в наших интересах. Если у меня нет равноправного доступа к лучшим ценам на онлайн-сайте, потому что сайт определил, что у меня есть возможность или готовность заплатить больше, мои данные незаконно используются против меня. В одном показательном примере компания Orbitz предлагала пользователям Mac более дорогие отели, чем пользователям ПК. Это данные, используемые для практики «красной черты», название которой происходит от старой практики обведения красным цветом на карте тех географических районов, где в кредитах или в страховке будет отказано или они обойдутся дороже из-за их месторасположения (зачастую критерием служит расовая принадлежность). Политический микротаргетинг со специализированными, вводящими в заблуждение сообщениями, основанными на данных профиля, также определенно не проходит тест на «фактор страха».
Эти люди – нарушители конфиденциальности, которые используют дисбаланс власти, чтобы узнать подробности нашей частной жизни, не имеющие отношения к услугам, ради которых эти данные были собраны первоначально. Государственное регулирование неприкосновенности частной жизни должно сфокусироваться на нарушителях конфиденциальности, а не на обычном хранении и использовании данных для обслуживания клиентов.
Регулирующие органы должны осознать, где проходит граница честности в сфере передачи данных между потребителем и поставщиком услуг. Мне кажется, что страховые компании имеют полное право предлагать более низкие тарифы людям, которые согласны водить автомобиль со всей ответственностью, и проверять заявления клиентов о том, сколько миль они проезжают в год или придерживаются ли они скоростного режима. Но если мои страховые тарифы внезапно подскочат на основании некогда конфиденциальных данных, таких как характеристика риска моей трудовой деятельности или рискованность поездок по личным мотивам, у меня будут основания полагать, что мои данные незаконно используются против меня.
Верный способ борьбы с практикой «красной черты» в сфере данных – это не запрещать сбор данных, к чему призывают многие защитники неприкосновенности частной жизни, а скорее запрещать компаниям, обладающим этими данными, их неправомерное использование. Как однажды сказал мне Дэвид Брин: «По сути, невозможно узнать, есть ли у кого-то информация о вас. Гораздо легче сказать, делают ли они что-то с тобой».
Регулирующие органы должны учитывать возможность причинения вреда людям, которые предоставили свои данные, и работать над устранением этой возможности, вместо того чтобы ограничивать сбор данных как таковой. Когда людям отказывают в медицинской страховке из-за предшествующих заболеваний, значит, их данные используются против них. Положения о защите информации в Законе об ответственности и переносе данных о страховании здоровья граждан 1996 года, которые были направлены скорее на установление чрезмерно строгих гарантий в отношении конфиденциальности информации, чем на ее использование, напротив, оказали крайне негативное воздействие на многие виды медицинских исследований, так же как и на возможность для пациентов получить доступ к своим собственным данным.
Как и в случае с мошенничеством с кредитными картами, регулирующие органы должны стараться создавать стимулы для самих компаний, чтобы сформировать правильное поведение. К примеру, материальная ответственность за неправомерное использование данных, проданных третьим лицам, предотвратила бы продажу этих данных. Соответствующая концепция представлена в правовых режимах, таких как контроль за инсайдерской торговлей: если вы обладаете важной закрытой информацией, полученной от инсайдеров, вы не можете спекулировать этими знаниями, в то время как использование знаний, полученных общедоступными средствами, – это честная игра.
Агрегаторы данных, которые собирают сведения не для непосредственного предоставления услуг потребителям, а для других компаний, должны подвергаться особой проверке, поскольку транзакция данных между потребителем и поставщиком услуг была изъята, и скорее всего, данные будут использоваться не в интересах потребителя, как предполагалось изначально, а в интересах того, кто эти данные приобрел.
Практикуемое в настоящее время согласие на раскрытие информации является чрезвычайно ненадежным инструментом регулирования. Это позволяет провайдерам скрывать преступные намерения за сложным юридическим языком текстов соглашений, которые редко читают, а если и читают, то не всегда понимают. Машиносчитываемое раскрытие информации, аналогичное тому, что было разработано Creative Commons для выражения воли правообладателей, стало бы серьезным шагом вперед в создании служб, отвечающих за соблюдение конфиденциальности. Лицензия Creative Commons позволяет тем, кто публикует контент, просто и ясно выражать свое намерение, начиная от традиционного «Все права защищены» до ссылки на такую лицензию, как CC BY-NC-ND (которая требует указания авторства, но позволяет свободно использовать контент в некоммерческих целях, запрещая вносить изменения в произведение). Благодаря сочетанию четырех или пяти тщательно продуманных утверждений, которые могут быть прочитаны как человеком, так и машиной, Creative Commons позволяет пользователям сайтов для обмена фотографиями, таких как Flickr, или сайтов для обмена видео, таких как YouTube, искать только тот контент, который соответствует определенным лицензиям. Эквивалентная структура для обеспечения неприкосновенности частной жизни была бы весьма полезной.
Во время президентства Обамы были предприняты целенаправленные попытки по обеспечению так называемого «интеллектуального раскрытия информации», которое определяется как «своевременное предоставление комплексной информации и данных в стандартизованных машиносчитываемых форматах таким образом, чтобы потребители могли принимать обоснованные решения». Новые технологии, такие как блокчейн, также могут кодировать контракты и правила, создавая новые виды «умных контрактов». Использование смарт-контрактов в обеспечении конфиденциальности данных могло бы стать очень эффективным. Вместо того чтобы использовать в своем браузере инструмент грубой силы «Запретить отслеживание», пользователи могли бы устанавливать более детальные ограничения на использование своих данных. В отличие от раскрытия информации на бумажных носителях, цифровые договоры о конфиденциальности данных могут иметь законную силу и отслеживаться.
Однако, когда мы сталкиваемся со все более автоматизированными системами для обеспечения соблюдения правил, важно иметь возможность понять критерии для принятия решения. В будущем, когда будет господствовать режим, который некоторые называют «алгократией» – правление посредством алгоритма, – алгоритмы все чаще начнут использоваться для принятия решений в реальном мире. Начиная с решения, кому выдавать ипотеку, а кому нет, и заканчивая тем, как распределять донорские органы, а также кого выпускать из тюрьмы, а кого нет. Соблюдение принципа равных возможностей требует, чтобы у нас было какое-то «окно», позволяющее увидеть процесс принятия решений.
Если вы, как и я, однажды проехали на красный свет и вас засекла камера автоматического слежения, то вы знаете, что алгоритмическое правоприменение может выглядеть вполне справедливым. Мне было предоставлено изображение с временной отметкой, где мой автомобиль выезжал на перекресток после того, как зажегся красный свет. Не поспоришь.
Преподаватель права Таль Зарски, пишущий об этике интеллектуального анализа данных и алгоритмических решений, утверждает, что, даже когда программное обеспечение принимает решение на основе тысяч переменных, и самое большее, что разработчик алгоритма может сказать, «это то, что выявил алгоритм на основе предыдущих случаев», существует потребность в интерпретации. Если мы ценим нашу человеческую свободу, должна существовать возможность объяснения, почему к человеку был применен дифференцированный подход на основе алгоритма.
По мере того как мы вступаем в эпоху все более продвинутого машинного обучения, возможно, делать это будет все труднее и труднее. Если мы не будем иметь четко выраженную позицию относительно того, какой режим регулирования – старый или вновь выработанный – необходимо применить, ждите судебных разбирательств.
Говорят, что «лучшее правительство то, которое правит как можно меньше». К сожалению, факты говорят об обратном. Без верховенства закона власть устанавливает правила в основном в пользу правящего меньшинства. Так что под фразой «правит меньше» подразумевается, что правила приведены в соответствие с интересами обычных людей. В экономике, подстроенной под интересы меньшинства, правила часто несправедливы по отношению к остальным. Экономика, учитывающая интересы большинства, может показаться несправедливой для некоторых. Но «завеса невежества» Джона Ролза[6] – идея о том, что лучшими правилами для политического или экономического строя являются те, которые люди выбрали бы, не зная заранее о своем положении в этом строе, – убедительный аргумент в пользу того, что лучшим является то правительство, которое действует в интересах большинства.
Как оказалось, в этом также состоит урок технологических платформ. Как мы видели на примере TCP/IP, правила в идеале должны быть неотъемлемой частью дизайна платформы, а не каким-то дополнением к ней. Но поскольку правила, сколь бы сложными они ни были, приведены в соответствие с интересами участников, как в случае со стремлением корпорации Google к релевантности, регулирование становится по большей мере невидимым. Кажется, что все работает само по себе.
Системы репутации – это один из способов встраивания регулирования в дизайн онлайн-платформ. У каждого из миллионов товаров компании Amazon есть потребительский рейтинг, помогающий потребителям принимать обоснованные решения относительно того, какие товары покупать. Такие сайты, как Yelp и Foursquare, предоставляют подробные отзывы посетителей ресторанов: те сообщают о своем недовольстве, если еда или обслуживание оказались низкого качества, и ставят высокую оценку тем заведениям, которые преуспели в кулинарном мастерстве и сервисе. TripAdvisor и другие подобные сайты предоставляют аналогичные отзывы, помогая путешественникам найти лучшие места для проживания в самых отдаленных уголках планеты. Эти отзывы помогают сайтам алгоритмически создавать рейтинг товаров или услуг, которые, вероятнее всего, понравятся пользователям.
Компания eBay, возникшая благодаря стремлению Пьера Омидьяра создать идеальный рынок, стала пионером в использовании системы репутации. Компания столкнулась с огромными проблемами. В отличие от компании Amazon, которая начала свою деятельность с продажи продуктов известных марок и, следовательно, была просто онлайн-версией чего-то привычного – книжного магазина, – eBay была онлайн-версией всемирной «гаражной распродажи» или обмена, где авторитет существующих брендов не действует.
Экономисты Пол Ресник и Ричард Зекхаузер в своей статье «Доверие между незнакомыми людьми в сфере интернет-транзакций: эмпирический анализ системы репутации eBay» отмечают, что участники онлайн-аукциона не могут проверить товары и самостоятельно определить их качество, они редко покупают у одного и того же продавца, и они не могут узнать о продавце от друзей или соседей. Особенно в первое время фотографии и описания товаров часто были непрофессиональными, и о продавцах мало что было известно. Существовал риск не только того, что предметы окажутся не такими, как показано на картинке, или вовсе окажутся подделкой, но и того, что их никогда не доставят. И само по себе использование кредитной карты в Интернете в 1995 году, когда были основаны eBay и Amazon, по мнению многих, было недопустимым риском.
Таким образом, помимо формирования сети покупателей и продавцов, компании eBay пришлось создавать механизмы, помогающие покупателям и продавцам доверять друг другу. Одним из их решений стало создание системы репутации eBay, в которой покупатели ставили оценки продавцам, а продавцы – покупателям. Это решение получило широкое распространение.
Дэвид Лэнг подвел итог движения Интернета к доверию в статье на сайте Medium, посвященной успеху образовательного краудфандингового сайта DonorsChoose. Он отмечает, что традиционные благотворительные организации обычно предоставляют средства только солидным некоммерческим организациям, в крупных масштабах; процесс, как правило, подвергается серьезному контролю. DonorsChoose, напротив, позволяет отдельно взятым учителям заявлять о потребности в учебных классах, и их потребности могут быть удовлетворены либо отдельными лицами, либо учреждениями. Описывая другие примеры, где благодаря технологии возникло доверие, Лэнг пишет: «Новшеством является не финансовая транзакция – аренда помещений, совместные поездки на автомобиле и поддержка искусства существовали уже много веков. Новшеством скорее является уровень доверия, при котором мы охотно взаимодействуем с незнакомыми людьми, потому что приложения и алгоритмы предоставляют фильтр».
Однако, как показывают баталии таких компаний, как Uber, Lyft и Airbnb, с регулирующими органами, путь к доверию требует большего, чем просто привлечение клиентов. Логан Грин сказал мне, что первоначальное официальное разрешение на предоставление услуг пирингового проката автомобилей компании Lyft было выдано Калифорнийской комиссией по регулированию коммунальной сферы на основании того, что те могут использовать технологии, чтобы обеспечить многие из тех же гарантий, что и традиционное такси. Для Калифорнийской комиссии по регулированию коммунальной сферы первостепенное значение имела безопасность пассажиров. Один из главных членов регулирующей организации, бывший офицер, известный просто как Генерал, якобы заявил: «Никто не умрет в мою смену!» Логан сказал, что его команда смогла убедить Калифорнийскую комиссию по регулированию коммунальной сферы, что отслеживание поездки через GPS, система репутации и тщательная проверка водителей являются эффективным способом достижения их общих целей. «Для наших пользователей безопасность тоже важнее всего, – отметил Логан. – Поэтому мы сказали: «Давайте сделаем это!»
Но во многих юрисдикциях системы репутации и традиционные правила все еще находятся на стадии конфронтации. Вроде бы услуги такси регламентируются ради защиты качества поездки и безопасности клиентов, а также для обеспечения оптимального количества транспортных средств, предоставляющих услуги в то время, когда они необходимы. Большинство из нас знает, что на практике положения этого регламента плохо справляются с обеспечением качества или доступности услуг. Мощным аргументом может стать то, что система репутации, используемая Uber и Lyft, при которой пассажиры должны давать оценку своим водителям после каждой поездки, лучше справляется с отсеиванием недобросовестных участников. Лично у меня был опыт общения с такими таксистами, которые никогда не смогли бы снова сесть за руль, если бы подать жалобу на такси было так же легко, как поставить рейтинг в одну звезду.
Однако это не помешало оппонентам новых услуг утверждать, что водители, услуги которых предлагают компании Uber и Lyft, недостаточно проверенные люди. Хотя все новые сервисы проводят проверку анкетных данных водителей, прежде чем им разрешат возить людей, оппоненты заявляют, что проверка недостаточно тщательная, поскольку не предусматривает снятия отпечатков пальцев и прохождения проверки на наличие судимости по базе ФБР. Эти процедуры являются обременительными и отнимающими много времени, что нежелательно с точки зрения компаний Uber и Lyft, поскольку это ограничивает участие водителей, работающих на неполную ставку или нерегулярно и составляющих основной костяк поставщиков услуг на этих платформах. Uber и Lyft настроены в этом вопросе столь решительно, что фактически свернули свои услуги в городе Остин после того, как там затребовали снятие отпечатков пальцев у водителей и их полную проверку по базе ФБР. Обе компании утверждают, что проверка анкетных данных, которую они осуществляют, используя услуги третьей стороны, реально предоставляет наиболее полные данные о водителях.
Как бы то ни было, получается, что существующие правила лицензирования водителей обеспечивают два взаимосвязанных следствия: с одной стороны, гарантию, что у водителей имеется соответствующая квалификация, и, с другой, по ряду причин, ограничение количества предоставляемых услуг. Стивен Хилл, автор «Raw Deal», критической книги о компании Uber, указывает, что первые правила, регулирующие услуги такси, были приняты в 1635 году королем Англии Карлом I, который приказал, чтобы все транспортные средства на улицах Лондона были лицензированы «для ограничения множественного и беспорядочного использование экипажей». То же самое произошло в Соединенных Штатах во время Великой депрессии. Людям отчаянно была нужна работа, и улицы наводнили такси. В 1933 году сотрудник Министерства транспорта США писал: «Избыточное количество такси привело к тарифным войнам, вымогательствам и отсутствию страховки и финансовой ответственности среди операторов и водителей. Государственные должностные лица и пресса в городах по всей стране взмолились о создании государственного контроля в сфере такси». В результате города установили ограничения на количество такси, используя систему «медальонов». Они выдавали только ограниченное количество лицензий водителям коммерческих транспортных средств и издали постановления о тарифах, страховании, проверке безопасности транспортных средств и о проверке личных данных водителей.
Этот краткий экскурс в историю показывает, как легко перепутать цели и средства. Если проблема сформулирована как «множественное и беспорядочное использование экипажей», как выразился король Карл I, ограничение числа лицензированных экипажей выглядит функциональным эквивалентом фактической цели, которая состоит в устранении пробок на дорогах и загрязнений. (В 1635 году конский навоз был эквивалентом смога XX века.) Если, как заявил представитель Министерства транспорта США в 1933 году, избыточное предложение привело к тарифным войнам, при которых ни один водитель не мог обеспечить себе достойный заработок, к снижению безопасности и отсутствию страховок у водителей, единовременное решение, ограничивающее количество водителей и предписывающее им проходить обязательный технический осмотр, становится самоцелью. Но, как поется в припеве песни из «Темной башни» Стивена Кинга, «мир изменился», и, возможно, теперь существуют лучшие решения.
Несмотря на то что по-прежнему существует риск нарваться на плохих водителей (а критики приписывают водителям Uber огромное количество правонарушений), тот факт, что каждая поездка Uber отслеживается в режиме реального времени, с указанием точного времени, местоположения, маршрута, с идентификацией личности водителя и пассажира, делает поездку Uber или Lyft, по сути, более безопасной, чем поездку на такси. А использование системы выставления оценок после поездки как пассажирами, так и водителями помогает со временем отсеять недобросовестных участников. Хэл Вэриан применил эту концепцию в более широком контексте того, как компьютерные транзакции меняют правила игры в регулировании: «Весь процесс транзакции контролируется. Если с транзакцией что-то пойдет не так, вы можете использовать цифровую запись в компьютере, чтобы выяснить, что пошло не так».
Что же касается перегруженности дорог, поскольку существующий алгоритм оптимизирован для уменьшения времени ожидания, нет причин, по которым он не мог бы учитывать другие факторы, которые повышают степень удовлетворенности клиентов и снижают стоимость, – такие как влияние слишком большого числа водителей на загруженность дорог и увеличение времени ожидания. Алгоритмическая диспетчеризация и маршрутизация находятся на ранних стадиях. Думать иначе – значит полагать, что эволюция поиска Google завершилась в 1998 году с изобретением PageRank. Однако для этой многофакторной оптимизации при разработке своих алгоритмов Uber и Lyft должны учитывать интересы всех сторон на рынке. Непонятно, делают ли они это.
Понимание различий между средствами и целями – эффективный способ помочь распутать нормативные разногласия между ТСК (транспортными сетевыми компаниями) и органами, регулирующими деятельность такси и лимузинов.
Обе стороны хотят находиться в достаточной безопасности, пользоваться услугами квалифицированных водителей, которые могли бы обеспечить потребности любого желающего совершить поездку пассажира. Но чтобы при этом водителей было не слишком много, чтобы водители могли зарабатывать достаточное количество денег для поддержания своих автомобилей в рабочем состоянии и предоставления хорошего сервиса. Регулирующие органы считают, что наилучшим способом достижения этих целей являются ограничение количества водителей и предварительная сертификация этих водителей путем выдачи специальных бизнес-лицензий. Uber и Lyft считают, что их компьютерный рынок более эффективно достигает тех же самых целей. Несомненно, должна существовать возможность оценить успех или неудачу этих альтернативных подходов при помощи данных.
Как обсуждалось в главе 7, частично проблема заключается в глубоком культурном и эмпирическом разрыве между компаниями Кремниевой долины и правительством. В Кремниевой долине каждое новое приложение или услуга рождается как эксперимент. С самого первого дня компания финансируется венчурными капиталистами или начинает свою работу без финансирования, ее успех зависит от достижения ключевых показателей, таких как принятие пользователями, использование или вовлеченность. Поскольку сервис предоставляется в режиме онлайн, обратная связь приходит почти что в режиме реального времени. На языке популярной методологии «Lean Startup» Эрика Риса первую версию принято называть «минимально жизнеспособным продуктом (MVP)», которому дано такое определение: «Это версия нового продукта, которая позволяет команде собрать максимальный объем проверенной информации о клиентах с наименьшими усилиями». Цель каждого предпринимателя заключается в том, чтобы наращивать MVP до тех пор, пока он не найдет «соответствие на товарном рынке», что приведет к стремительному росту.
Этот образ мышления преподается каждому предпринимателю. После запуска приложения или услуги новые функции добавляются и тестируются поэтапно. Мало того что оценивается использование функций и те, которые не были приняты пользователями, молча отбрасываются или пересматриваются, но также существуют разные версии каждой функции – размещение или размер кнопки, обмен сообщениями или графика, – которые проверяются на случайных выборках пользователей, чтобы увидеть, какая версия работает лучше. Обратная связь крепка и важна для успеха сервиса.
И наоборот, несмотря на изменения, начатые во времена администрации Обамы, которые были описаны в главе 7, законодатели и государственные регулирующие органы привыкли к другой процедуре: рассматривать вопрос, принимать предложения от заинтересованных сторон на открытых собраниях (а слишком часто – на закрытых заседаниях с лоббистами), принимать взвешенное решение, а затем его придерживаться. Оценка результата, если она вообще имеет место, возможно, происходит в виде научного исследования годы спустя после этого события, при отсутствии четкой обратной связи для процесса формирования политики. Однажды я наткнулся на многомиллионный проект по созданию системы поиска рабочих мест для ветеранов, который смог привлечь лишь несколько сотен пользователей, но контракт на него собирались продлевать. Я спросил высокопоставленного правительственного чиновника, осуществлявшего надзор над проектом, производили ли они когда-либо расчеты, чтобы понять, каковы были их издержки на каждого пользователя. «Это было бы хорошей идеей», – сказал он. Хорошей идеей? Любого предпринимателя из Кремниевой долины, который не смог бы ответить на этот вопрос, просто засмеяли бы. Том Лусмор, бывший главный операционный директор Британской государственной цифровой службы, выступая на саммите «Код для Америки» в 2015 году, отметил, что типичная государственная нормативно-правовая база представляет собой «500 страниц непроверенных предположений».
Процессы государственных закупок технологий используют тот же самый подход. Пишется огромная спецификация, отражающая лучшие идеи каждого и разъясняющая каждую деталь реализации так, чтобы ее можно было выставить на торги. Обычно на разработку продукта уходят годы, а прогнозы впервые проверяются, когда он запускается в работу. (Обратите внимание, что, хотя это может показаться похожим на концепцию «работы в обратном порядке» компании Amazon, на самом деле это совсем другое. Компания Amazon поручает своим сотрудникам задания по представлению предполагаемого опыта пользователей, дабы заранее не создавать спецификации с указанием всех деталей реализации. По мере того как они создают реальный продукт или услугу, они продолжают изучать и совершенствовать свои идеи.)
Сейчас на многое (хотя далеко не на все) из того, что регламентируется правительством, делаются гораздо более высокие ставки, чем на пользовательские приложения. «Двигаться стремительно и ломать стереотипы» – знаменитое наставление Марка Цукерберга его разработчикам в Facebook – вряд ли относится к проектированию мостов, управлению воздушным движением, безопасности продовольственного снабжения или многим другим вещам, которые регламентируются правительством. Государственное регулирование также должно быть всеобъемлющим, обслуживающим всех граждан страны, а не только строго определенную группу пользователей. Тем не менее для правительства очень важно перенять знания из процессов итеративного развития современных цифровых организаций.
«Регулятивный захват» – процесс, посредством которого компании, которые получают выгоду от регулирования, становятся участниками управления, усугубляет путаницу. Однажды я беседовал с бывшим спикером палаты представителей Нэнси Пелоси о законодательном акте («О прекращении онлайн-пиратства», или «SOPA»). Я сказал ей, что согласно данным моей компании, представителя издательского бизнеса, онлайн-пиратство представляет собой меньшую проблему, чем утверждали сторонники законопроекта. Она не пожелала взглянуть на мои данные, она не стала спорить с тем, что сторонники законопроекта предоставили другие данные. Она сказала: «Что ж, мы должны сохранять баланс между интересами Кремниевой долины и интересами Голливуда».
Я был шокирован. Это все равно как если бы команда качественных поисковых запросов Google встретилась с представителями спамеров и согласилась выделить для них треть топ-результатов поисковой выдачи, чтобы сохранить свою бизнес-модель. На мой взгляд, работа наших представителей состоит не в том, чтобы находить баланс между интересами различных лоббирующих групп, а для сбора данных и принятия обоснованных решений от лица общественности. Я не говорю, что представители Кремниевой долины всегда все делают правильно, – у них определенно не получается все правильно с первого раза. И правительство не всегда поступает неверно. Хотя правительство слишком часто действует в интересах лоббистов, его основная цель состоит в том, чтобы учитывать интересы общества, включая интересы тех групп населения, которые в данном случае игнорируются.
Получение предельно конкретной информации о целях любого регулирования позволяет проводить более откровенные и более продуктивные дискуссии. Обе стороны могут обсудить правильные цели. И когда они придут к соглашению, могут начать искать альтернативные пути их достижения, так же как и способы измерить, преуспели ли они в этом. В соответствии с результатами этих измерений, они должны начать процесс изменения регулирования. И должен существовать механизм разрешения конфликтов между пересекающимися нормативными актами. Если это комплексное регулирование, этот процесс должен выполняться для каждого подкомпонента. Уроки модульности из меморандума платформы Джеффа Безоса на удивление актуальны для разработки нормативных положений, так же как и для платформ и организаций, занимающихся современными технологиями.
В этом плане я был воодушевлен вышедшим в 2016 году руководством по регулированию беспилотных автомобилей Национального управления безопасности движения на трассах. В нем излагается четкий комплекс задач, организованных таким образом, чтобы их выполнение можно было отследить. Руководство начинается с главы «Область оперативных мероприятий» (ODD – Operational Design Domain), в которой перечислен набор сдерживающих факторов, для преодоления которых необходимо проявить профессиональные навыки: типы дорог, географическое положение, диапазон скоростей, условия освещения (дневное и/или ночное), погодные условия и другие. В руководстве подчеркивается необходимость проведения измерений: «Необходимо разработать и провести тесты, при помощи которых можно оценить (посредством сочетания моделирования, испытательного трека или автодорог) и подтвердить, что система высокоавтоматизированного транспортного средства может безопасно функционировать в условиях заданной ODD и обладает способностью вернуться при необходимости в положение минимального риска».
Когда вы фокусируетесь на результатах, а не на правилах, вы можете видеть, что существует несколько способов достижения сопоставимых результатов, а иногда – существуют новые методы, которые дают лучшие результаты. Вывод о том, какой метод является наилучшим, должен основываться на данных.
К сожалению, не только правительство не хочет или не может обнародовать свои данные. Такие компании, как Uber, Lyft и Airbnb, ревниво охраняют большую часть своих данных, из страха выдать коммерческую тайну или соотношение сил на рынке конкурентам. Вместо этого им следует обнародовать большее количество данных как для ученых, так и для регулирующих органов, пытающихся изучить влияние транспортировки по требованию в городах. Ник Гроссман, директор по вопросам государственной политики, регулирования и гражданских проблем в фирме Union Square Venture, утверждает, что открытые данные могут послужить решению многочисленных разногласий компании Uber с регулирующими органами. Он объясняет, что «регулирующим органам необходимо принять новую модель, в которой они меньше фокусируются на том, чтобы мешать людям в их начинаниях». Менее жесткие требования к лицензированию и расширение свободы действий означают возможность вовлечения большего количества людей и большую свободу для экспериментов для компаний. «Но в обмен на эту свободу действий, – продолжает Ник, – компаниям необходимо будет делиться данными с регулирующими органами – без прикрас и в режиме реального времени, так же, как делятся с ними данными их собственные пользователи. И необходимо признать, что эти данные в итоге могут превратиться в форму отчетности».
Открытые данные могут помочь положить конец другим настойчивым вопросам о рыночном подходе Uber. Например, Uber утверждает, что низкие цены не влияют на доход водителей, но водители говорят, что они должны работать дольше, чтобы заработать достаточную сумму, и что слишком большое количество водителей увеличивает время ожидания между вызовами.
Это не должно стать причиной претензий и встречных исков, потому что ответ на вопрос, так ли это, можно найти в данных, которые хранятся на сервере Uber. Открытые данные – прекрасный для всех способ понять, насколько хорошо работает система. Открытые данные также помогли бы городам осмыслить влияние услуг такси по требованию на общую загруженность дорог и значительно упростить оценку влияния Airbnb на доступность и ценовую приемлемость жилья. Это печально, что города и платформы не взаимодействуют более активно, используя данные для достижения более эффективных результатов для обеих сторон.
Нет лучшей демонстрации того, как устаревшие карты формируют государственную политику, защиту прав трудящихся и экономику, чем споры о том, следует ли классифицировать водителей Uber и Lyft (и работников других стартапов, предоставляющих услуги по требованию) как «независимых подрядчиков» или как «сотрудников». В мире трудового права США независимый подрядчик – это квалифицированный специалист, который предоставляет свои услуги множеству клиентов как индивидуальный предприниматель или как представитель малого бизнеса. Сотрудник предоставляет услуги одной компании за заработную плату. Большинство работников по требованию, похоже, не попадают ни под одну из этих категорий.
Защитники прав трудящихся отмечают, что работники нового типа, предоставляющие услуги по требованию, не имеют гарантированной заработной платы, что резко контрастирует с практикой стабильных рабочих мест времен производственной экономики 1950-х и 1960-х годов, которые мы теперь вспоминаем как золотой век среднего класса. Однако, если мы стремимся к светлому будущему, мы должны начать с четкого представления о настоящем и понять, почему такие стабильные рабочие места встречаются все реже. Аутсорсинг – это новая корпоративная норма. Он выходит далеко за пределы офшоринга в странах с низкой заработной платой. Даже применительно к рабочим местам в сфере обслуживания в Соединенных Штатах компании используют аутсорсинг, чтобы меньше платить работникам и сократить объем социального обеспечения. Думаете, ваша горничная работает на Hyatt или Westin? Скорее всего, она работает на компанию, занимающуюся кадровым обеспечением и подбором персонала, Hospitality Staffing Solutions. Думаете, те работники склада Amazon, которые упаковывают ваши праздничные подарки, работают на Amazon? Подумайте еще раз. Это, скорее всего, сотрудники компании по кадровому обеспечению и подбору персонала Integrity Staffing Solutions. Такая практика позволяет компаниям выплачивать щедрые премии и высокую заработную плату основным особо ценным сотрудникам, в то же время рассматривая других как расходный материал. Возможно, хуже всего то, что множество из предоставляемых сегодня низкооплачиваемых рабочих мест не только не обеспечивают прожиточный минимум, но и предлагают только частичную занятость.
Какой из сценариев представляется вам более лояльным к работникам?
«Наши работники – это сотрудники. Раньше они работали сменами по восемь часов. Но теперь мы стали намного умнее и можем снизить наши затраты на рабочую силу, содержа большой штат работников, занятых неполный рабочий день, прогнозируя время пиковой нагрузки и составляя расписание для работников с использованием коротких смен. Поскольку спрос колеблется, работники дежурят в ожидании звонка, и мы платим им только в том случае, если они действительно необходимы. Более того, наше интеллектуальное программное обеспечение, составляющее графики работы, позволяет гарантировать, чтобы ни один служащий не работал более 29 часов в неделю, чтобы избежать необходимости выплат более дорогого вознаграждения за работу на полную ставку».
Или:
«Наши работники – это независимые подрядчики. Мы предоставляем им инструменты для понимания того, когда и где существует спрос на их услуги, а когда количества подрядчиков недостаточно для удовлетворения спроса, мы взимаем с клиентов большую плату, увеличивая заработок работников, пока спрос и предложение не придут в равновесие. Мы не платим им зарплату и не производим почасовую оплату. Мы берем процент от денег, которые они зарабатывают. Они могут работать столько, сколько захотят, пока не достигнут своих целей в отношении дохода. Они конкурируют с другими работниками, но мы делаем все возможное, чтобы расширить объем рынка для их услуг».
В первом из этих сценариев кратко излагается, каково это – работать на такого работодателя, как Walmart, McDonald’s, Gap, или даже такого прогрессивного, выплачивающего низкую заработную плату работодателя, как Starbucks. Жалобы работников включают в себя отсутствие контроля над графиком, даже в случае чрезвычайных ситуаций; уведомления о том, что они должны выйти на работу, в последний момент; бездумно составленные рабочие расписания, известные как «закрыть-открыть» (например, один тот же работник должен закрыть магазин в 11 вечера и открыть его в 4 часа утра следующего дня – практика, которую компания Starbucks запретила только в середине 2014 года и которая все еще существует во многих магазинах розничной торговли и фастфудах); «недостаток часов» и множество других трудовых бед.
Во втором сценарии кратко излагается трудовая практика компаний Uber и Lyft. Поговорите со множеством водителей, как это сделал я, и они скажут вам, что им по большей части нравится свобода устанавливать свое собственное расписание и работать так мало или так много, как им того хочется. Это подтверждается исследованием, проведенным среди водителей Uber экономистами Аланом Крюгером из Принстонского университета и Джонатаном Холлом, который теперь работает экономистом компании Uber. Пятьдесят один процент водителей Uber работает менее 15 часов в неделю для получения дополнительного дохода. Другие сообщают, что работают, пока не достигнут своей целевой прибыли. Семьдесят три процента заявили, что предпочли бы «работать там, где сам составляешь свой график и сам себе господин», чем «стабильная работа с 9 до 5 с некоторыми льготами и фиксированной заработной платой».
Руководство компании, где работники не привязаны к расписанию, а просто включают приложение, когда хотят выйти на работу, и где они конкурируют с другими работниками за имеющиеся в наличии заказы, требует мощного набора алгоритмов, чтобы гарантировать динамическое равновесие количества работников и клиентов.
Традиционным компаниям также всегда приходилось регулировать неравномерный спрос на рабочую силу. Раньше они достигали этого, сохраняя стабильный штат из работников на условиях полной занятости для удовлетворения базового спроса и имея небольшую группу сотрудников или субподрядчиков, работающих неполный рабочий день, для удовлетворения пикового спроса. Но в современном мире эта концепция уступила место практике постоянной-частичной занятости большинства низкооплачиваемых рабочих, особенно в крупных компаниях. Программное обеспечение для составления рабочего расписания от таких поставщиков, как ADP, Oracle, Kronos, Reflexis и SAP, позволяет розничным торговцам и фастфудам набирать более многочисленный, чем это постоянно необходимо, штат работников по требованию для удовлетворения пикового спроса, а затем разбивать рабочее время на короткие смены таким образом, чтобы ни у кого не набирался полный рабочий день. Эта схема стала доминирующей стратегией управления низкооплачиваемыми работниками в Америке. Согласно исследованию по вопросам управления, проведенному Сьюзен Ламберт из Чикагского университета, к 2010 году 62 % рабочих мест в сфере розничной торговли были с неполной занятостью, а две трети менеджеров в сфере розничной торговли предпочитали содержать обширный штат из частично занятых работников увеличению количества часов для отдельных работников. Эта тенденция появилась с запуском программного обеспечения для составления рабочего расписания. Как рассказала Эстер Каплан из Фонда поддержки журналистских расследований в своей статье в журнале Harper’s Magazine «Шпион, который меня уволил», в августе 2013 года, менее чем через две недели после того, как сеть магазинов подростковой одежды Forever 21 начала использовать Kronos, сотни штатных сотрудников получили уведомление о том, что будут переведены на неполную ставку и что их медицинская страховка будет аннулирована. Нечто подобное произошло в прошлом году в Century 21, нью-йоркском магазине высокой моды…
То есть и традиционные компании, и компании, предоставляющие услуги по требованию, используют приложения и алгоритмы для управления работниками. Но существует существенное различие. Компании, использующие директивный подход к составлению рабочего расписания, перенятый у традиционных работодателей, обеспечивающих низкий оклад, задействовали технический прогресс, чтобы активизировать и усилить все худшие стороны существующей системы: распределение смен, минимально учитывающее мнение трудящихся, и перевод сотрудников на неполную ставку, чтобы избежать необходимости оплаты дорогостоящих медицинских страховок. Для алгоритма руководящим принципом является оптимизация затрат для компании, а не интересы клиентов или сотрудников.
Uber и Lyft, напротив, обнародуют данные не только для менеджеров, но и для работников, сообщая им о времени и месте, где существует спрос, и позволяя им выбирать, когда и сколько работать. Это дает работникам возможность ориентироваться и задействует рыночные механизмы, чтобы мобилизовать большее количество работников в периоды пикового спроса, или в то время или в том месте, где предоставление услуг обычно вызывает затруднение.
Когда вы рисуете карту новых технологий, важно использовать правильную отправную точку. Большая часть проводимых в Кремниевой долине аналитических исследований экономики услуг по требованию или «свободного заработка» слишком узконаправленные и не принимают во внимание более широкие аспекты экономики труда. Как только вы начнете рисовать карту «работников, управляемых алгоритмом» и «отсутствия гарантированного трудоустройства», вы вырабатываете совершенно другое восприятие мира.
Почему мы регулируем труд? В интервью с Лорен Смайли Том Перес, занимавший пост министра труда в администрации Обамы, подчеркивает, что наиболее важным вопросом является то, зарабатывают ли люди прожиточный минимум. Глава департамента заработной платы и нормирования рабочего дня Дэвид Вайл изложил свою мысль весьма кратко: «Мы всегда должны ориентироваться на базовые принципы: кого мы пытаемся защитить и насколько люди, появляющиеся на этих новых рабочих местах, попадают в спектр нашего внимания».
На первый взгляд, казалось бы, у штатного сотрудника есть множество преимуществ. Но существует огромная пропасть между преимуществами, предоставляемыми сотрудникам, работающим на полную ставку, и сотрудникам, работающим неполный рабочий день. Речь о том, что я называю «29-часовой лазейкой». Недобросовестные менеджеры могут устанавливать задачи для автоматизированного программного обеспечения, составляющего рабочее расписание, чтобы быть уверенными, что ни один работник не будет трудиться более 29 часов в неделю. Поскольку по трудовому праву для занятых неполный рабочий день и для занятых полный рабочий день (порог – 30 часов в неделю) предусмотрены различные категории вознаграждений, эта лазейка позволяет выплачивать щедрые пособия штатным сотрудникам компании, в то время как низкооплачиваемый контингент получает лишь остатки с барского стола. Как только вы осознаете это, вы поймете потенциально разрушительное воздействие действующих трудовых норм не только на новые компании из Кремниевой долины, но и на их работников. Переведите работников, предоставляющих услуги по требованию, с формы налогообложения 1099 для независимых подрядчиков на форму W2 для сотрудников, и, скорее всего, в результате работники уйдут из таких компаний, как Uber или TaskRabbit, где они могли работать столько, сколько захотят, в одну из компаний, где они смогут работать более 29 часов в неделю. Фактически именно это и произошло, когда Instacart перевел некоторых своих работников, предоставляющих услуги по требованию, в штат. Они превратились в сотрудников, занятых неполный рабочий день.
(Еще до появления компьютеризированного программного обеспечения для составления рабочего расписания компании вели нечестную игру относительно оплаты труда и выплат вознаграждения сотрудникам. Я помню проходившие в 2000 году в Гарварде студенческие протесты, в которых участвовала моя дочь, против несправедливого отношения к уборщикам и другому обслуживающему персоналу. «Вы не являетесь штатными сотрудниками и не имеете права на получение полной пенсии, – говорили уборщикам. – Вы не работаете 40 часов в Гарвардском университете. Вы работаете 20 часов в Гарвардском колледже и 20 часов в Гарвардской школе права».)
Возможно, столь же пагубным, как и тот факт, что компании сокращают труд работников до 29 часов в неделю, является изменчивый характер многих рабочих расписаний, которые составляются традиционными работодателями, нанимающими низкооплачиваемых работников. Отсутствие возможности заранее узнать количество рабочих часов означает, что работники не могут эффективно спланировать часы для второй работы. Они не могут планировать свою жизнь, заботу о детях, короткий отпуск или даже знать, смогут ли присутствовать на днях рождения своих детей. Работники, предоставляющие услуги по требованию, напротив, могут работать столько часов, сколько им захочется, – многие сообщают, что работают до тех пор, пока не достигнут желаемого недельного уровня дохода, а не какое-то определенное количество часов, – и, что не менее важно, они работают, когда захотят. Многие сообщают, что возможность в любой момент взять отпуск для ухода за детьми, решения проблем со здоровьем или юридических вопросов – это самое важное из того, что они ценят в своей работе.
Крайне важно заглянуть за ярлыки – «сотрудник» и «независимый подрядчик» – и изучить реальные условия, которые скрываются за ними. Столь часто мы живем в мире ярлыков и связанных с ними оценочных суждений и предположений и забываем приводить наше интеллектуальное уравнение к общему знаменателю. Как писал незабвенный Альфред Коржибски, мы должны помнить, что «карта – это не территория».
Когда вы ставите себя на место картографа вместо того, чтобы просто использовать существующую карту как точное отражение неизменной реальности, вы начинаете видеть новые возможности. Правила, которым мы следуем как общество, должны обновляться при изменении основополагающих условий. Разделение на сотрудников и независимых подрядчиков на самом деле не имеет смысла в модели предоставления услуг по требованию, которая предусматривает свободу действий как для независимых подрядчиков, для работников, которые приходят и уходят по своему усмотрению, и в которой правила относительно сверхурочной работы для штатных сотрудников не позволили бы работникам увеличить свой доход.
И профессор Андрей Хагиу, пишущий для журнала Harvard Business Review, и венчурный капиталист Саймон Ротман, пишущий для веб-сайта Medium, утверждают, что нам нужно разработать новую классификацию для работников – мы могли бы назвать их «зависимыми подрядчиками». Эта новая классификация могла бы обеспечить им некоторые из свобод независимых подрядчиков, добавив некие гарантии, предоставляемые сотрудникам. Ник Ханауэр и Дэвид Рольф пошли дальше, утверждая, что, так же как технология позволяет нам привлекать работников без накладных расходов на традиционные командно-административные методы найма, она может позволить нам предоставить работникам, занятым неполный рабочий день, традиционные социальные гарантии. Нет причины, по которой мы не могли бы объединить общее количество часов, отработанных у нескольких работодателей, и попросить каждого из них перечислить средства на счет работника, пропорционально этому количеству часов. Ханауэр и Рольф называют это «счетом общей безопасности» с сознательной отсылкой к системе социального обеспечения.
Аналогичное стратегическое предложение по «передвижному» характеру льгот поступило от Стивена Хилла из аналитического центра New America. Ханауэр, Рольф и Хилл указывают, что мы отделяем льготы – такие как компенсационные выплаты трудящимся, взносы работодателей в систему социального обеспечения и медицинской помощи, так же как и отпускные и оплату больничных – от работодателей и вместо этого связываем их с работниками, стирая многие различия между независимыми подрядчиками, облагающимися налогами по форме 1099, и сотрудниками, облагающимися налогами по форме W2. Учитывая современные технологии, эту проблему можно решить. Вполне возможно было бы объединить льготы, предоставляемые несколькими работодателями. Если я работаю 29 часов на McDonald’s и 11 на Burger King, это не должно иметь значение, если обе этих компании обязаны выплачивать мне пособия в соответствующей пропорции.
Однако ни одно из этих предложений не решает более глубокую проблему, побуждающую компании использовать 29-часовую лазейку. Компании хотят, чтобы на них трудились два вида работников не из-за основных налогов на заработную плату. Это происходит в первую очередь из-за отчислений на здравоохранение (система единого плательщика решила бы эту проблему, как и многие другие), а также потому, что другими «люксовыми» льготами компании предпочитают щедро одаривать только своих самых ценных работников, а не всех. Но гораздо сильнее на ситуацию влияет представление о том, что работники – это всего лишь расходы, которые следует сократить, а не ресурс, который следует разрабатывать. В конечном итоге практику разделения работников на привилегированные и непривилегированные классы, а также моральных и финансовых расчетов, которые стоят за этим разделением, необходимо прекратить.
Со временем мы поймем, что это экзистенциальный, а не только нравственный долг для нашей экономики.
Нам потребуется гораздо более глубокое осмысление (и энергичные целенаправленные активные действия) для создания правильных стимулов, чтобы компании осознали и приняли значимость заботы о всех своих работниках в равной степени. Хорошо начать с книги Зейнеп Тон «The Good Jobs Strategy». Тон излагает общие принципы, применение которых делает такие разные компании, как Costco и Google, отличными работодателями. Вот что пишет лектор Гарвардской школы бизнеса и бывший генеральный директор Stop&Shop Хосе Альварес: «Зейнеп Тон доказала то, что великие лидеры знают инстинктивно, – что активный, хорошо оплачиваемый кадровый состав, к которому относятся с достоинством и уважением, создает огромную прибыль для инвесторов. Она доказала также, что гонка на понижение в сфере трудоустройства в розничной торговле не должна стать единственной игрой, которую ведут сейчас. Экономисты давно признали это явление. Они призывают повысить заработную плату выше минимального уровня, который предлагает рынок в качестве «эффективной заработной платы». То есть они предлагают надбавку к заработной плате, которую работодатель платит за сокращение текучки кадров, наличие более высококвалифицированных сотрудников, более низкие затраты на обучение и многие другие значительные преимущества.
В главах 11 и 12 мы рассмотрим основные движущие силы гонки на понижение заработной платы и обсудим, почему нам нужно переписать правила ведения бизнеса. Но даже без радикального изменения правил игры предприятия могут получить огромные тактические преимущества благодаря лучшему пониманию того, как усовершенствовать алгоритмы, используемые ими для управления своими работниками. А благодаря предоставлению работникам лучших инструментов для управления своим временем можно улучшить качество обслуживания клиентов.
Алгоритмические рыночные решения относительно заработной платы на рынке услуг по требованию представляют собой потенциально интересную альтернативу мандатам с минимальной заработной платой как способ увеличить доходы работников. Вместо того чтобы бороться с новыми предприятиями свободного онлайн-заработка, пытаясь сделать их более похожими на предприятия XX века, органы регулирования должны требовать у традиционных работодателей, предпочитающих платить низкие оклады, предоставить большую ликвидность на рынке посредством обмена данными. Навыки, необходимые для работы в McDonald’s и Burger King, не так уж различаются. То же самое можно сказать о Starbucks и Peet’s, Walmart и Target или о магазинах AT&T и Verizon. Предоставление работникам возможности меняться сменами или оказывать услуги по требованию конкурирующим работодателям, очевидно, потребует некоторых изменений в инфраструктуре управления, обучении и алгоритма обмена данными между работодателями. Но учитывая, что большинство рабочих расписаний составляется стандартными программными платформами, а также то, что начисление заработной платы также производится крупными аутсорсинговыми компаниями, многие из которых предоставляют услуги тем же конкурирующим работодателям, похоже, что эту интересную задачу можно решить.
Алгоритм – это новый хозяин смен. На что следует обратить внимание регулирующим органам и политикам – это на функцию приспособленности, управляющую алгоритмом, и на то, улучшают или ухудшают полученные в результате рабочие правила возможности работников или же они просто предназначены для увеличения прибыли корпораций.
В следующих двух главах мы рассмотрим, как одна и та же ошибочная функция приспособленности управляет средствами массовой информации и финансами, а также то, как скорость и масштаб цифровых платформ алгоритмически усиливают этот недостаток.
Глава 10. Средства массовой информации в эпоху алгоритмов
После президентских выборов 2016 года велись поиски виноватых, и многие обвиняли компанию Facebook, утверждая, что алгоритмы ее новостной ленты сыграли важную роль в распространении дезинформации и усугублении поляризации. Фейковыми статьями, в которых утверждалось, что папа Франциск поддержал Дональда Трампа, что Майк Пенс якобы сказал, что Мишель Обама «самая вульгарная первая леди из всех виденных ранее» и что Хиллари Клинтон вскоре предстанет перед судом, поделились более миллиона раз. Все эти новости были сфабрикованы македонскими подростками, чтобы срубить деньжат. Статья о том, что «агент ФБР, ответственный за утечку информации с электронной почты Хиллари, найден мертвым», также абсолютно фальшивая, но ею поделились полмиллиона раз – это работа парня из Южной Калифорнии, который начал с того, что в 2013 году решил доказать, как легко распространяется дезинформация, а закончил созданием бизнеса с двадцатью пятью сотрудниками, чтобы штамповать подобные материалы.
Пользователи Facebook были не единственными, кто распространял эти статьи. Многие из них распространялись по электронной почте и в социальной сети Twitter, на канале YouTube, на сайтах reddit и 4chan. Компания Google выложила их в Google Suggest, выпадающем списке рекомендаций, который появляется перед каждым пользователем, когда он начинает вводить запрос.
Но именно Facebook стал яблоком раздора, возможно потому, что поначалу Марк Цукерберг отрицал эту проблему, сказав на конференции Techonomy через несколько дней после выборов, что считает «довольно безумной идеей» то, что эти истории повлияли на результат выборов. Он утверждал, что они были крошечной частью общего контента, размещенного на сайте.
Поддельные новости – это желтая пресса. Маргинальная, бывшая когда-то предметом насмешек. Как случилось, что она смогла сыграть такую большую роль в формировании нашего общего будущего?
Как минимум президентские выборы 2016 года в США продемонстрировали то, что Эли Паризер назвал «пузырем фильтров», в полной мере. Алгоритмы социальных сетей, основанные на «лайках», показывают людям больше той информации, на которую они реагируют положительно, подтверждая их предубеждения, усиливая их убеждения и подталкивая их общаться в Интернете с единомышленниками. Газета Wall Street Journal создала познавательный сайт под названием Blue Feed/Red Feed («Синяя новостная лента/Красная новостная лента»), который использовал исследовательские данные социальной сети Facebook о политических предпочтениях ее пользователей для создания параллельных прямых трансляций гиперпристрастных историй, которые преподносятся каждой группе. То, насколько разными оказались новости, которые показываются «крайним либералам» и «крайним консерваторам», шокирует. Я и сам испытал это на себе на примере статей, которые пересылались мне консервативными членами моей семьи, и прогрессивных статей, которые я пересылал им в ответ. Мы живем в разных мирах. Или, может быть, мы просто живем в новом мире «постправды», где эмоции имеют большее значение, чем факты.
Важную роль сыграла не только демократизация распространения средств массовой информации, но и демократизация создания этих массмедиа. Колин Мегилл, основатель pol.is, службы, ориентированной на создание более открытого общественного диалога, рассказал мне, что его мать, врач по профессии, которая всю свою жизнь боролась с дискриминацией на работе, сомневалась по поводу Хиллари Клинтон, и в особенности на нее повлияло видео, в котором утверждалось, что ее помощница, Хума Абедин, была членом организации «Братья-мусульмане», – видео, которое включилось автоматически после того, как она смотрела записи ночного эфира на YouTube.
«После этого я долго думал по поводу своего разговора с мамой и пришел к единственно возможному объяснению, – сказал Колин. – За всю свою жизнь она привыкла, что абсолютная ложь не попадает в новости. За это отвечали редакторы. Идея о том, что высококачественный контент, которым поделились миллионы людей, может не содержать ни малейшего зерна истины, действительно не вписывалась в ее матрицу вероятностей». Мысль о том, что видео могло быть создано анонимным сторонником Трампа, просто не являлась частью ее ментальной карты.
По данным некоммерческой организации Pew Research, 66 % американцев узнают новости через сайты социальных сетей, из них 44 % – только через Facebook. Многое из этого контента может поступать из традиционных средств массовой информации через ссылки, которыми делятся в социальных сетях, но также многое создается самой платформой или приходит с новых гиперпристрастных сайтов, таких как те, что были состряпаны македонскими подростками ради прибыли, или исходит от крайне правых или крайне левых политических организаций. Не говоря уже о таких организациях, как ИГИЛ[7], которая успешно пользовалась социальными сетями для вербовки террористов, или о роли пропаганды, спланированной или усиленной Россией, с целью повлиять на результаты президентских выборов в США. Как сказал мне один правительственный чиновник США, который пожелал остаться анонимным: «Мы не сражаемся в первой кибервойне. Она только что закончилась. И мы уже проиграли».
Во многих отношениях растущее влияние фальшивых новостей – это страшная история об алгоритмах, с которыми что-то пошло не так, о цифровых джиннах, которым были даны плохо сформулированные инструкции, таящие в себе катастрофические последствия. Этот вопрос стоит изучить, даже несмотря на то, что на момент публикации этой книги Facebook и Google проделали огромную работу по решению проблемы в ее нынешней интерпретации.
В последующей статье Facebook, неделю спустя после своих пренебрежительных комментариев, Марк Цукерберг признал, что фальшивые новости – это проблема и что Facebook работает над ее решением. Решение, которое он предложил, состояло в том, чтобы предоставить «сообществу» больше инструментов для сигнализации о том, что они считают истинным, а что ложным. Я встречался с Марком за несколько недель до выборов по поводу связанной с этим проблемы, которая заключалась в том, каким образом Facebook может дать своим пользователям возможность высказываться в отношении норм и ценностей общества. Остро ощущалось его желание сделать Facebook нейтральной платформой, на которой ее пользователи могут общаться и делиться информацией. В завершении своей статьи о фальшивых новостях и выборах он отметил: «По моему опыту, люди хорошие. И даже если вы не ощущаете этого сегодня, вера в людей в долгосрочной перспективе приводит к лучшим результатам».
Эта вера в то, что контроль над фальшивыми новостями – забота пользователей, а не платформы, сформировала реакцию Facebook на кризис. Марк написал: «Мы уже начали работать над тем, чтобы дать возможность нашему сообществу отмечать заведомо ложные сообщения и фальшивые новости, и мы можем сделать гораздо больше. Мы добились прогресса, и мы будем продолжать работу над этим ради дальнейших улучшений». Пока что все идет хорошо.
Он акцентировал роль пользователей Facebook в поддержании правопорядка на сайте: «Я уверен, что мы сможем найти для нашего сообщества способ рассказать, какой контент является наиболее значимым, но я считаю, что мы должны быть крайне осторожны с тем, чтобы самим не выступать в роли определителей критериев истины». Он верно отметил, что «сложно определить «истину». В то время как некоторые заведомо ложные сообщения могут быть полностью опровергнуты, большая часть контента, в том числе из формальных источников, часто берет за основу правдивую идею, но некоторые детали передает неверно или опускает. Еще большее количество статей выражает мнение, с которым множество людей не согласится, и будет отмечать их как неправильные, даже если они построены на фактах.
Однако сам факт внутренних дебатов на таких платформах, как Facebook и Google, по поводу их ответственности за контроль над фальшивыми новостями – это не просто предостережение о том, что необходимо исправить эту ситуацию. Это также предупреждение по поводу создания правового прецедента. Закон о защите авторских прав в цифровую эпоху (Digital Millennium Copyright Act – DMCA), принятый в 1998 году, освободил поставщиков интернет-услуг и других онлайн-посредников от ответственности за нарушение авторских прав на основании того, что они являются нейтральными платформами, которые просто позволяют пользователям публиковать то, что они хотят. Они больше похожи на стену, на которой пользователи могут наклеивать листовки, чем на издателя, который выбирает, что публиковать, и должен придерживаться более высоких правовых стандартов. Этот аргумент в пользу «нейтральности платформы» занимает центральное место в существовании интернет-услуг. Без него Google будет нести ответственность за каждое нарушение авторских прав, сделанное любым пользователем, оставляющим сообщения в Интернете, просто за то, что включает этот контент в индекс поиска. Аналогичным образом будут нести ответственность Facebook, Twitter, YouTube или Word-Press, если какой-либо пользователь разместит нарушающие авторское право материалы. Аналогичную правовую защиту, в качестве дополнения, можно распространить на другие виды контента, размещаемого пользователями. Для своих пользователей сервис является платформой, а не контент-провайдером. Ни один онлайн-сервис не желает ломать эту защитную стену.
Критики сердито ворчат по поводу этой защиты. Одна из таких критиков, Карол Кадуолладр, была возмущена тем, что функция Google Suggest предлагала такие результаты, как «евреи – это зло», в качестве автозаполнения поиска для «евреи – это…». Когда она кликнула на него, то обнаружила, что в топе поисковой выдачи оказалась статья под названием «Топ 10 причин, почему люди ненавидят евреев». Страница с неонацистского сайта Stormfront стала третьим результатом, дополнительные пояснения, почему евреи – это зло, появились в качестве пятого, шестого, седьмого и десятого результата. Когда она забила в поиск «был ли холо…», Google предложил в качестве автозаполнения вопрос «был ли холокост на самом деле?», и ей был представлен список сайтов, отрицающих холокост, опять же с сайтом Stormfront в топе поисковой выдачи.
Ее вывод таков: Google должен немедленно прекратить предоставлять ссылки на эти страницы. «Бизнес-модель корпорации Google строится вокруг идеи о том, что она является нейтральной платформой. Что ее магический алгоритм размахивает волшебной палочкой и выдает магические результаты без какого-либо человеческого вмешательства, – писала она в яростной редакционной статье для газеты The Guardian. – Она отчаянно не хочет, чтобы ее воспринимали как медиакомпанию, как контент-провайдера, как новостной и информационный носитель, который должен подчиняться тем же правилам, которые действуют для других средств массовой информации. Но это именно то, чем она является».
Я разделяю негодование Кадуолладр и ее убежденность в том, что Google (как и все СМИ)«структурирует, формирует или искажает то, как мы воспринимаем мир». Я согласен с тем, что корпорация Google должна вплотную заняться этими проблемами, так же как они вплотную занялись другими проблемами для улучшения качества результатов поисковой выдачи. Но Кадуолладр не учла масштаб, в котором работает Google, и то, как этот масштаб в корне меняет природу решения.
Google, Facebook, Twitter и подобные им компании необходимо воспринимать как новое явление, которое не вписывается в старую карту. Это новое явление функционирует по другим правилам – не из-за прихоти или нежелания брать на себя расходы на курирование, а в силу своей специфики.
Нежелание Google и Facebook вводить операции, выполняемые вручную, – это не просто вопрос ухода от ответственности за удобной правовой оговоркой. Эти сайты выдают свои результаты поиска не после некого собрания редакторов, такого как собрание редакторов газеты New York Times в старые времена, в ходе которого те решали, какие истории будут размещены на первой странице и где именно. К 2015 году практика проведения таких собраний постепенно сошла на нет даже в Times. Результат любого поискового запроса в Google является результатом огромных усилий по поиску и ранжированию каждой страницы в Интернете – а их 30 триллионов, принадлежащих 250 миллиардам уникальных доменов, согласно данным вице-президента отдела поиска компании Google Амита Сингхала, – и по их обслуживанию в ответ на более чем 5 миллиардов запросов в день. Многие из этих поисковых запросов – довольно распространенные, но по крайней мере десять миллионов из них представляют собой довольно редкие сочетания слов и фраз. Оскорбительные результаты запроса «Холокост», на которые жаловалась Кадуолладр, это результат поискового запроса, который, согласно данным Google, выполняется всего около 300 раз в день. Из 5 миллиардов. Это 0,000006 % ежедневных поисковых запросов, несколько миллионных долей процента.
Объем информации, обрабатываемой Facebook, также огромен. В 2013 году социальная сеть сообщила, что ежедневно публикуется около пяти миллиардов единиц контента. Сейчас эта цифра намного больше, так как сейчас у сайта более 1 миллиарда активных пользователей в день, по сравнению с 700 миллионами в 2013 году.
Идея о том, что Google или Facebook могут решить проблему, просто наняв команду редакторов или фактчекеров или воспользовавшись услугами внешних медиаорганизаций для борьбы с фальшивыми новостями, ненавистническими высказываниями или другими нежелательными результатами, удаляя их или понижая их в поиске один за другим, указывает на то, что люди не имеют представления о масштабах или о сущности проблемы. Это похоже на ярмарочную игру «Поймай крота», за исключением того, что кротов миллиарды, а молотков лишь сотни. Человеческий контроль и вмешательство, безусловно, необходимы, но они мало что изменят, если будут реализованы так, как представляют себе такие критики, как Кадуолладр. Чтобы поймать миллиарды кротов, вам нужны гораздо более быстрые молотки.
Мы должны отказаться от представления о том, что человеческая роль в этом цикле подобна нажатию на аварийный выключатель человеком, принимающим окончательное решение. Известная статья в журнале Harvard Business Review под названием «Кому достанется обезьяна?» объясняет, почему всякий раз, как у подчиненного появляется проблема, которую сравнивают с обезьяной, сидящей на его или на ее спине, менеджер должен предложить свой совет, а затем отправлять подчиненного восвояси вместе с его обезьяной. В противном случае все обезьяны множества подчиненных окажутся на спине у менеджера. Насколько это верно в эпоху алгоритмов? На спине у менеджера оказывается миллион обезьян. Хороший менеджер всегда играет роль учителя. Насколько это справедливо в отношении могущественной, но, в сущности, глупой расы джиннов, которые делают большую часть работы на наших огромных онлайн-платформах?
У Google нет сомнений в том, что группы разработчиков, менеджеры цифровых работников, генерирующих индекс и формирующих результаты поисковой выдачи, трудятся в поте лица, обучая своих шустрых бездушных джиннов тому, как смягчить эту проблему. Я был бы очень удивлен, если бы к тому времени, как будет издана эта книга, не произошло бы всеобъемлющего пересмотра выявления фальшивых новостей, подобного обновлениям Panda и Penguin 2011 года, которые касались контент-ферм. И действительно, в течение нескольких недель после выхода редакционной статьи Кадуолладр результаты поискового запроса по слову «холокост» были улучшены. Но первоначальная корректировка не сработала системно, и Google по-прежнему изо всех сил пытается придумать комплексное решение для борьбы с фальшивыми новостями, но механизмы, при помощи которых они отражают атаки на эффективность работы поисковой системы, определены четко.
Проблемы Facebook не идентичны проблемам Google. В то время как Google проводит оценку и дает ссылки на контент сотен миллиардов внешних сайтов, контент социальной сети Facebook публикуется ее собственными пользователями на ее собственной платформе. Большая часть этого контента представляет ссылки на внешние сайты, но часть этого не делает. Даже когда контент поступает с внешних сайтов, зачастую он переделывается в мем, что в настоящее время означает графическое изображение или видеоизображение ключевого момента или цитаты, которое отделяется от исходного контекста и скорее предназначено оказывать воздействие на пользователей, чтобы они им делились, нежели для более глубокого диалога или понимания.
В мае 2016 года, задолго до избрания Трампа, Майло Яннопулос в своей статье для новостного ресурса Breitbart News предсказал, что способность Трампа создавать интернет-мемы и апеллировать к людям, которые делятся ими, сыграла решающую роль в его успехе. «Различные учреждения, без сомнения, считают, что это все ерунда, глупые приколы для школьников, – писал он. – И так оно и есть. Но в то же время это эффективно… У противников Трампа, оказавшихся между молотом его медиамашины и наковальней в виде армии его онлайн-троллей, не было ни единого шанса. Трамп понимает, как работает Интернет, и Интернет может запросто протолкнуть его в Белый дом. Магия мемов – это реальность».
В результате недостатка контекста многие сигналы, на которые опирается Google, например структура ссылок в Интернете, отсутствуют. Хотя социальная сеть Facebook может использовать те же методы, ее инфраструктура и оперативные процессы для работы с контентом иные. Это одна из причин, по которой Facebook ждет решения этой проблемы от «сообщества». Смогут ли ее пользователи, которых насчитывается более миллиарда, управлять порядком на сайте, если им будут даны правильные инструменты? В поданном в 2015 году патенте «Системы и методы идентификации нежелательного контента» компания Facebook уже изложила свой подход к решению проблемы ненавистнических высказываний, порнографии и запугиваний, который опирался бы на отчеты пользователей, но с использованием множества дополнительных сигналов, позволяющих классифицировать и оценивать не только сами отчеты, но и пользователей, их предоставляющих. Многие из методов, описанных в патенте, также можно применять к фальшивым новостям.
Во второй статье на эту тему в своем блоге Марк Цукерберг подробно описал подход компании, который включает в себя более простые для людей способы информировать о фальшивых материалах, партнерство со сторонними организациями, занимающимися проверкой фактов, и, теоретически, даже показ предупредительного знака на статьях, отмеченных фактчекерами или сообществом как ненадежные. Но Марк также отметил, что самое главное, что может сделать Facebook, – это «улучшить нашу способность классифицировать дезинформацию. Это означает более совершенные технические системы, позволяющие обнаружить то, что люди отметили бы как ложное, до того как они сделают это самостоятельно». Он также отметил, что компания Facebook уже улучшила алгоритмы, применяемые для выбора «похожих статей» по ссылкам в ленте новостей.
Это алгоритмическое «перевоспитание» важно, потому что скорость распространения контента в социальных сетях работает против неторопливых фактчекеров. История одной фальшивой статьи началась в Twitter, когда сторонник Трампа Эрик Такер опубликовал фотографию припаркованных в Остине, штат Техас, автобусов и высказал мнение о том, что кампания Клинтон использует их для перевозки демонстрантов для проведения акции протеста на предстоящей речи Трампа. Несмотря на то что у Такера было всего сорок подписчиков и он удалил твит, как только обнаружил, что на самом деле автобусы предназначались для посетителей конференции, проводимой компанией Tableau, производящей программное обеспечение, фотография стала вирусной, ею поделились 16 000 раз в Twitter и 350 000 раз в Facebook. В его изначальном твите были использованы хэштеги «#фальшивыепротесты #Трамп2016 #Остин», гарантирующие, что его прочитает большое количество людей, следящих за этими темами.
Новость подхватили сначала на reddit, затем различные правые блоги, а затем средства массовой информации. Сам Дональд Трамп написал в Twitter о «профессиональных протестантах», добавив масла в огонь. Хотя Такер не ожидал такого эффекта, люди, которые занимаются продвижением фальшивых новостей, часто обладают мощными стимулами для их распространения, используя программные инструменты, чтобы обнаружить ключевые факторы влияния и увязывая с ними фальшивые новости, чтобы придать им быстрый старт. Учитывая тот трафик, который на сегодняшний день может принести горячая новость, даже профессиональные новостные организации используют автоматические «инструменты для социального прослушивания», чтобы быстро ухватить тенденции и отредактировать популярные истории в своих собственных публикациях без тщательной проверки фактов, которая когда-то служила характеристикой ведущих средств массовой информации.
К моменту, когда заинтересованные пользователи или фактчекеры обозначат контент как ложный, им уже могут поделиться сотни тысяч раз и его уже могут прочитать миллионы людей. Опровержения первоначальной статьи обычно малоэффективны. К полуночи того дня, когда его статья впервые была опубликована в Twitter, Такер удалил оригинальный твит и заменил его таким же со штампом «Ложь» на картинке. Этим твитом поделились в общей сложности 29 раз, по сравнению с 16 000 ретвитами оригинала. Я вспомнил старую поговорку, которую часто слышал от матери: «Ложь обойдет полмира, пока правда успеет надеть ботинки».
Единый подход, который стали практиковать Google, Facebook и другие, отмечая ненадежные статьи, может помочь, потому что отметки будут следовать за статьей и, теоретически, оставаться маркером на ней, но только если они сделаны заранее, пока новость еще не получила широкого распространения. Но даже у этого подхода есть свои минусы, поскольку узкопартийным или проплаченным сайтам ничего не мешает создать новую версию той же фальшивой новости. Как вы это обнаружите? Вы снова обратитесь к алгоритмическим джиннам, чтобы те помогли «поймать крота».
Кроме того, сами пользователи не только с трудом определяют, что истинно, а что ложно, но также с трудом обнаруживают сигналы, которые предоставляют им компании, чтобы помочь определить авторитетность источника того, что они видят. Только 25 % учащихся средних школ в ходе одного из исследований Стэнфордского университета признали важное значение голубого значка, используемого Facebook и Twitter для обозначения проверенных аккаунтов. Будут ли флажки для фальшивых новостей работать лучше?
Наконец, необходимо понять, что поисковые системы и платформы социальных сетей являются полем онлайн-битвы, где противники атакуют, используя те же инструменты, которые изначально были разработаны рекламодателями для отслеживания своих клиентов, а затем мошенниками и спамерами, чтобы обыграть систему с целью получения прибыли. В дополнение к спонсируемым Россией кампаниям по дезинформации в социальных сетях, «Проект Аламо» избирательной кампании Трампа использовал крайне целенаправленную дезинформацию, чтобы отговорить сторонников Клинтон принимать участие в голосовании. Эти статьи называли «темными постами» Брэда Парскаля, который руководил действиями кампании в сфере социальных сетей. Это были очень узконаправленные статьи, аудитория которых была четко определена таким образом, что, как он выразился, «это видят только те люди, которым мы хотим это показать».
Джонатан Олбрайт, профессор по коммуникациям, который проанализировал сеть 300 новостных сайтов, публиковавших фальшивые новости во время выборов 2016 года, высказал ту же самую точку зрения о программном микротаргетинге.
«Это пропагандистская машина, – писал он. – Они захватывают внимание людей, а затем удерживают их на эмоциональном поводке и никогда не отпускают».
В «захватывании внимания людей, а затем их удержании на эмоциональном поводке» нет ничего нового. Этот принцип лежал в основе работы многих средств массовой информации во времена желтой прессы в начале XX века, атаки которой отбивались путем внедрения журналистских стандартов на протяжении большей части столетия и которая затем вновь заявила о себе в последние десятилетия века на ток-шоу, на радио и в передаче Fox News на телевидении. Социальные сети и их рекламная бизнес-модель довели этот процесс до логического завершения.
Целенаправленные кампании в социальных сетях, несомненно, станут характерной чертой всех будущих политических кампаний. Социальные интернет-платформы и общество в целом должны будут вплотную заняться решением проблем новых средств массовой информации. Момент кризиса может настать, когда мы поймем, что инструменты дезинформации и пропаганды – это те самые инструменты, которые обычно используются предприятиями и рекламными агентствами для отслеживания своих клиентов и оказания на них воздействия. Не только политические субъекты заинтересованы в распространении фальшивых новостей. На карту поставлены огромные суммы, и участники используют все инструменты, чтобы обыграть систему. Проблема не в Facebook.
Фальшивые новости – это просто самая неприятная сторона бизнес-модели, которая управляет большей частью интернет-экономики.
В сфере киберпреступности эти инструменты выходят за пределы неприятного, попадая в сферу незаконного. Один российский ботнет, запущенный в декабре 2016 года, создавал целевые видеоролики, которые собирали 3–5 миллионов долларов дохода в день от рекламы с фальшивых просмотров видео программами, маскирующимися под пользователей. Иными словами, эта битва выходит далеко за пределы создания фальшивых новостей. Также возможно создание фальшивых пользователей, которые существуют только как пешки в битве за клики и лайки.
Когда злоумышленники используют программы, чтобы маскироваться под пользователей, контроля со стороны человека, не обладающего специализированными инструментами, недостаточно, из-за скорости и масштаба атак. Это еще одна причина, по которой ответные меры, применяемые к фальшивым новостям и другим видам фальсификации в социальных сетях, должны быть алгоритмическими, более похожими на спам-фильтры, а не просто полагающимися на пользователей или на механизмы традиционной журналистики.
Проект 2015–2016 гг. Управления перспективных исследовательских проектов Министерства обороны США (DARPA) Cyber Grand Challenge («Великая киберзадача») основывался на аналогичном понимании, предлагая разработать системы ИИ для поиска и автоматического исправления уязвимостей программного обеспечения, за которыми попросту не поспевают корпоративные ИТ-команды. Проблема в том, что все больше кибератак становятся автоматическими, и эти цифровые враги находят дыры в безопасности намного быстрее, чем люди могут их залатать.
Джон Лаанчбери, директор Информационного бюро инноваций DARPA, рассказал мне поучительную историю, произошедшую во время проведения проекта «Великая киберзадача». В различные соревнующиеся между собой системы были внедрены уязвимости в безопасности, предполагалось, что они их должны найти и исправить, прежде чем другая система сможет ими воспользоваться. Одна из участвующих в проекте программ с искусственным интеллектом изучила собственный исходный код и обнаружила уязвимость, но не из числа тех, которые были внедрены специально, и использовала ее, чтобы взять под контроль другую систему. Третья система, наблюдавшая за атакой, диагностировала проблему и исправила свой собственный исходный код. Все это заняло двадцать минут.
Полковник ВВС Джон Бойд, «отец «F-16», ввел термин «цикл НОРД», где Н – наблюдение, О – ориентация, Р – решение, Д – действие (англ. OODA, O – observe, O – orient, D – decide, A – act), для описания того, почему в бою маневренность важнее, чем чистая огневая мощь. Оба соперника пытаются понять ситуацию, решить, что делать, а затем действуют. Если вы можете думать быстрее, вы можете «попасть внутрь цикла НОРД вашего врага» и помешать ему принять решение.
«Ключевой момент состоит в том, чтобы скрыть ваши намерения и сделать ваши действия непредсказуемыми для оппонента, пока вы параллельно выясняете его намерения, – написал коллега Бойда Гарри Хиллайкер в своей хвалебной речи Бойду. – То есть работайте в более быстром темпе, чтобы создать быстро меняющиеся условия, которые мешают вашему противнику адаптироваться или реагировать на эти изменения, и искореняйте его осведомленность или не допускайте ее вовсе. Вследствие этого хаос и замешательство сделают его реакцию на условия или действия, которые кажутся неопределенными, двусмысленными или непонятными, чрезмерной или недостаточной».