Аналитическая культура. От сбора данных до бизнес-результатов Андерсон Карл
Самый верхний слой, в котором растворяются все остальные, — корпоративная культура, которая формирует все остальные слои и в равной степени сама формируется под их влиянием. Фактически управление на основе данных требует наличия в компании этих компонентов и наиболее эффективных действий на каждом из этих уровней. Например, наличие в компании HiPPO может препятствовать объективному принятию решений на основе фактов. Политические игры и разобщенность данных негативно сказываются на открытости и сотрудничестве в рамках корпоративной культуры.
Многие компании прикладывают серьезные усилия, чтобы развить управление на основе данных. К сожалению, претворять в жизнь любые изменения, а особенно изменения культуры, крайне сложно. Шансы на развитие в компании успешной корпоративной культуры, основанной на данных, обычно выше, если начать заниматься этим как можно раньше, фактически создавая новую культуру, а не меняя ее. Это был один из мотивирующих факторов при написании этой книги. Я надеялся, что молодым компаниям, которые стремятся к управлению на основе данных и у которых еще впереди этап роста и привлечения новых сотрудников, это поможет стать более успешными. По результатам опроса, в котором приняли участие 368 стартапов[265], 3,26 % респондентов заявили, что у них реализовано управление на основе данных: «С самого основания компании данные — часть нашей культуры». По словам еще 44 % опрошенных, они «добились значительных улучшений и продолжают работать в направлении развития управления на основе данных». Это можно сравнить с изучением иностранного языка: многие успешно справляются с этой задачей во взрослом возрасте, но в детстве и юности учить иностранный язык бывает легче.
Еще один вопрос, который меня заинтересовал, — имеют ли некоторые онлайн-сервисы предрасположенность к управлению на основе данных, просто потому что они созданы вокруг продукта на основе данных. Возьмем, например, сайт знакомств, такой как OKCupid, рекомендательный сервис в области музыки Pandora или рекомендательный сервис в области контента Prismatic. Обязательно ли в подобных компаниях будет реализовано управление на основе данных в силу того, что их деятельность связана с данными и алгоритмами? Это вероятно, но не обязательно. Вполне возможно, что у таких компаний может быть ключевой продукт на основе данных, который развивается по принципам управления на основе данных, но, например, маркетинговые стратегии или привлечение клиентов подчиняются HiPPO.
Вероятно, здесь может иметь место явление, которое в популяционной генетике носит название «эффект основателя»[266], а в социальных науках — «эффект колеи»[267]. Если в команде, которая сформировалась на старте проекта, высокая пропорция технических специалистов и специалистов по работе с данными, которые убеждены в необходимости применения аналитических инструментов и A/B-тестирования, это может повлиять на формирование соответствующей корпоративной культуры и задать тон в том, каких сотрудников компания будет нанимать в дальнейшем. Очевидно одно: в любой компании можно внедрить управление на основе данных. При конкуренции в области аналитики нет ограничений по сфере деятельности.
На протяжении всей книги я намеренно не делал акцента на технологиях. Не потому что это неважно, а потому что, по моему мнению, корпоративная культура в итоге — более весомый фактор. Позвольте объяснить мою точку зрения. Представьте, что в компанию приходит специалист по работе с данными и предлагает новейшие и самые эффективные инструменты (Spark, D3, R, библиотека Scikit-Learn и так далее). Если в корпоративной культуре компании не принято активно работать с данными, например там не проводят А/В-тестирование, а полагаются на мнение и опыт экспертов (HiPPO), работа специалиста по данным вряд ли окажет существенное влияние. Вероятно, он вскоре просто разочаруется и покинет компанию. А теперь представьте обратную ситуацию: в компании развита корпоративная культура на основе данных, но нет необходимых инструментов и технологий. Возможно, в компании ведутся основные реляционные базы данных, но до настоящего момента не возникала потребность в графовой базе данных или в кластере Hadoop. В подобных условиях у специалиста по работе с данными больше шансов получить финансирование и поддержку на разработку или приобретение любых инструментов, которые окажут влияние на эффективность деятельности компании. Иными словами, наличие правильных инструментов способно оказать огромное влияние. Но отсутствие правильной культуры или хотя бы стремления создать правильную культуру сведет на нет все усилия.
ВНИМАНИЕ: ВЗЛЕТ И ПАДЕНИЕ КОМПАНИИ TESCOTesco — британская транснациональная корпорация, крупнейшая розничная сеть в Великобритании и крупнейший работодатель в частном секторе (330 тыс. сотрудников). Ее называли эталоном компании с управлением на основе данных, конкурентное преимущество которой определяла ее аналитика.
В 1995 году компания запустила программу лояльности Clubcard. Это позволило аналитикам собрать данные о покупателях и поощрять их, таргетировав купоны. Благодаря более четкому таргетированию уровень погашения купонов вырос с 3 до 70 %[268]. А за счет более точного сегментирования целевой аудитории компании удалось разработать и вывести на рынок новые продукты в верхнем ценовом сегменте (Tesco Finest), для тех, кто заботится о здоровье (Tesco Healthy Living), а также для тех, кому важно соотношение «цена/качество» (Tesco Value). В 1999 году объем их рассылки в разных сегментах составил 145 тыс. единиц.
Это был настоящий успех. Рыночная доля компании взлетела почти на 30 %, Tesco стала крупнейшей розничной сетью в Великобритании. Сегодня у компании 16 млн активных участников программы лояльности и подробная информация о двух третях всех потребительских корзин. Покупатели получили более 1,5 млрд долл. в виде сэкономленных средств от использования баллов по программе лояльности. Компания выводила на рынок новые продукты специально для привлечения конкретных сегментов аудитории, например молодых родителей, и разрабатывала прогнозные модели, учитывавшие фактор погоды, для оптимизации цепочки поставок, что обеспечило экономию в объеме 150 млн долл. Компания занялась торговлей через интернет, предложив всем клиентам подписаться на программу лояльности Clubcard, и банковским делом. Сегодня Tesco вышла далеко за границы розничной торговли. По словам Майкла Шрейджа, «за исключением Amazon, ни одна глобальная розничная сеть не продемонстрировала более эффективного подхода, ориентированного на данные, касающиеся лояльности потребителей и их поведения»[269].
Аналитическим локомотивом за этим успехом был стартап Dunnhumby, в котором Tesco впоследствии выкупила контрольный пакет акций. Лорд Маклорин, бывший на тот момент председателем совета директоров компании, заявил супружеской чете основателей Dunnhumby: «Меня в этой ситуации пугает то, что спустя три месяца вы узнали о моих покупателях больше, чем я за 30 лет». Dunnhumby назвали «одной из жемчужин в короне Tesco».
Как дела у Tesco сегодня? Ее акции торгуются на самой низкой отметке за последние 11 лет. Компания потеряла 2,7 млрд долл. из-за неудачной попытки выйти на рынок США с сетью Fresh & Easy и объявила об убытке в объеме 9,6 млрд долл. за 2014 налоговый год. Председатель совета директоров с позором покинул свой пост, после того как попытался завысить показатель прибыли на 400 млн долл. Компания сократила почти 9 тыс. рабочих мест и закрыла 43 магазина и их офисы. «С Tesco я допустил огромную ошибку», — признался Уоррен Баффет. Более того, Dunnhumby, чья программа лояльности Clubcard обходится в 750 млн долл. ежегодно (цена, при которой положительная рентабельность крайне маловероятна), выставлена на продажу за 3 млрд долл.
Сложно выделить одну причину этого падения. Высокие показатели прибыли не помогли. Конкуренты разработали собственные программы лояльности, большинство из которых проще, а простота всегда привлекает! Вместо абстрактных «баллов» они предлагают своим клиентам более материальные бонусы, например газету или, что актуально для британцев, чашку чая[270].
К сожалению, управление на основе данных, и даже качественное управление на основе данных, не гарантирует успеха, а тем более устойчивого успеха. Во-первых, большинство успешных стратегий могут быть скопированы конкурентами, которые не преминут воспользоваться удачным опытом. Во-вторых, у руля компании все-таки стоит топ-менеджмент. И если руководство формулирует неверное видение или стратегию для компании, даже решения, принятые на основе данных и поддерживающие эту стратегию, в итоге приведут к кораблекрушению. История Tesco, которую мы рассказали, — один из подобных примеров.
При этом на протяжении всей книги я приводил результаты разных исследований, свидетельствующие, что управление на основе данных окупается. Компаниям удается принимать решения быстрее и эффективнее и быстрее внедрять инновации. Компании, проводящие больше тестов, не только знают, когда что-то сработало, но и, скорее всего, знают, почему это произошло. Компании отличаются более высоким уровнем открытости, и любой сотрудник может внести свой вклад и увидеть, как это отразится на эффективности компании.
Дополнительная литература
Аналитика
Aiken P. and Gorman M. The Case for the Chief Data Officer (New York: Morgan Kaufmann, 2013).
Davenport T. H. and Harris J. G. Analytics at Work (Boston: Harvard Business Press, 2007).
Davenport T. H., Harris J. G. and Morison R. Competing on Analytics (Boston: Harvard Business Press, 2010)[271].
Eckerson W. Secrets of Analytical Leaders: Insights from Information Insiders (Denville, NJ: Technics Publications, 2012).
Анализ данных
O’Neil C. and Schutt R. Doing Data Science (Sebastopol, CA: O’Reilly, 2014).
Shron M. Thinking With Data (Sebastopol, CA: O’Reilly, 2014).
Siegel E. Predictive Analytics (Hoboken: John Wiley & Sons, 2013)[272].
Silver N. The Signal and the Noise (New York: Penguin Press, 2012)[273].
Принятие решений
Kahneman D. 2011. Thinking, Fast and Slow. Farrar, Straus & Giroux, New York. Data Visualization[274].
Визуализация данных
Few S. Now You See It (Oakland: Analytics Press, 2009).
Few S. Show Me the Numbers: Designing Tables and Graphs to Enlighten (Oakland: Analytics Press, 2012).
Tufte E. R. Envisioning Information (Cheshire, CT: Graphics Press, 1990).
Tufte E. R. Visual Explanations (Cheshire, CT: Graphics Press, 1997).
Tufte E. R. The Visual Display of Quantitative Information (Cheshire, CT: Graphics Press, 2001).
Wong D. M. The Wall Street Journal Guide To Information Graphics (New York: W. W. Norton & Company, 2010).
A/B-тестирование
Siroker D. and Koomen P. A/B Testing (Hoboken: John Wiley & Sons, 2013).
Приложение А. О необоснованной эффективности данных: почему больше данных лучше?
* * *
Данное приложение воспроизводится (с небольшими изменениями и исправлениями) на основе публикации в авторском блоге[275]. Заголовок публикации сохранен.
В научной работе The Unreasonable Effectiveness of Data («Необоснованная эффективность данных»)[276] авторы, все сотрудники компании Google, утверждают, что происходит интересная вещь, когда массивы данных попадают в вычислительную инфраструктуру (web scale[277]):
Простые модели на основе большого объема данных значительно выигрывают у более сложных моделей на основе меньшего объема данных.
В этой научной работе и более подробной лекции, прочитанной Норвигом[278], авторы демонстрируют: когда размер обучающей выборки доходит до сотен миллионов или триллионов примеров, очень простые модели способны быть эффективнее более сложных, основанных на тщательно разработанных онтологиях, но на меньшем объеме данных. К сожалению, авторы практически не предоставляют объяснений, почему больше данных лучше. В этом приложении я хочу попытаться найти ответ на этот вопрос.
Мое предположение состоит в том, что существует несколько типов проблем и причин, почему больше данных лучше.
Проблемы типа «ближайший сосед»
Первый тип проблем можно условно назвать «ближайший сосед». Халеви и др. приводят пример:
Джеймс Хейс и Алексей Эфрос занялись задачей дополнения сцены: они решили удалить фрагмент изображения (портящий вид автомобиль или бывшего супруга) и заменить фон путем добавления пикселей, взятых из большого набора других фотографий[279].
Рисунок 1 Хейса и Эфроса
Норвиг изобразил следующую зависимость:
и описал ее как «порог данных», при котором результаты из очень плохих стали очень хорошими.
Я не уверен, что существует какая-то пороговая величина или что-то напоминающее фазовый переход. Скорее, мне кажется, суть проблемы заключается в поиске ближайшего соответствия. Чем больше данных, тем ближе может быть соответствие.
Хейс и Эфрос отмечают:
Результаты наших первых экспериментов с GIST-дескриптором по базе данных из 10 тыс. изображений крайне нас разочаровали. Тем не менее при увеличении размера набора данных до 2 млн единиц произошел качественный скачок… Независимо от нас Торралба и др. [2007] наблюдали похожий эффект с базой данных размером до 70 млн небольших (3232) изображений… Для успеха нашего метода требуется большой объем данных. Мы наблюдали существенное улучшение, когда перешли от 10 тыс. к 2 млн изображений.
Размеры двух этих наборов данных различаются слишком сильно, а «качественный скачок» — это не то же самое, что порог (буквально фазовый переход).
Увеличение объема данных может значительно повлиять на показатели из-за простых эффектов. Например, рассмотрим выборку размера n в стандартном нормальном распределении. Как изменяется в зависимости от значения n минимальное значение этой выборки? Создадим выборки разных размеров и вычислим минимальное значение с помощью следующего кода R:
x<-seq(1,7,0.5)
y<-vector(mode="numeric",length=length(x))
for (i in 1:length(x)){ y[i] <- min(rnorm(10^(x[i]))) }
plot(x,y,xlab="Sample size, n (log10 scale)",
ylab="Minimum value of sample",type="b")
Минимум уменьшается лог-линейно. Это случай экстремума с позиции неограниченного хвоста. Возможно, более подходящей здесь для проблемы минимизации, такой как подбор соответствия, будет нижняя граница — идеальное соответствие для всех целей. Например, возможно, кто-то еще, стоя на том же самом месте, сделал фотографию того же самого вида, но без предмета, портящего фотографию.
Думаю, именно это происходит на графике Норвига. При определенном размере выборки мы нашли очень хорошее соответствие, и увеличение размера выборки уже не может улучшить результат.
Подведем итог: для проблемы минимизации типа «ближайший сосед» с неотрицательной функцией расстояния (что означает, что нижняя граница функции ошибки обучения (cost function) равна нулю) функция расстояния в среднем будет монотонно убывать с размером выборки или данных.
Проблемы относительной частотности
Второй тип — это проблемы относительной частотности. Именно на них сосредоточились Халеви и др. Норвиг приводит несколько примеров. При сегментировании задача заключается в разделении исходного текста, например такого как «cheapdealsandstuff.com», на наиболее вероятные последовательности слов. Эти исходные варианты достаточно короткие, чтобы с ними можно было работать непосредственно с позиции возможного их разделения, но для каждого получившегося отдельного слова нужно оценить вероятность его существования. Самое простое предположение — о независимости среди слов. Таким образом, если Pr (w) — это вероятность слова w, то, имея некоторый набор данных, можно вычислить, например:
Pr(che,apdeals,andstuff) = Pr(che). Pr(apdeals). Pr(andstuff).
…
Pr(cheap,deals,and,stuff) = Pr(cheap). Pr(deals). Pr(and).
Pr(stuff).
Конечно, также можно использовать n-граммы (например, биграммы): Pr("cheap deals") Pr("and stuff").
Второй пример, который привел Норвиг, касался проверки орфографии. В этом случае можно взять слово, содержащее ошибку, и вычислить вероятность возможных вариантов, чтобы предложить наиболее вероятную форму.
В обоих случаях требуется набор данных, содержащий как характерные, так и нехарактерные слова и фразы. Кроме того, необходим показатель встречаемости этих фраз для вычисления относительной частотности. Чем больше и понятнее будет набор данных, тем лучше. Думаю, здесь наблюдаются два статистических явления.
• Чем больше корпус данных, тем выше качество оценки относительной частотности. Это закон больших чисел[280].
• Чем больше корпус данных, тем выше вероятность попадания в него нехарактерных фраз («длинного хвоста»). Это неограниченный эффект. Чем больше индексируется интернет, тем больше новых фраз будет появляться. Проблема осложняется тем, что распределение слов в английском языке — это степенной закон. (См. Zipf, G. The Psycho-Biology of Language. Houghton Mifflin, Boston, MA, 1935.) Это означает наличие особенно длинного хвоста. Следовательно, особенно крупные выборки должны содержать эти редкие фразы.
Проблемы оценки одномерного распределения
К третьему типу относятся проблемы оценки одномерного распределения. Недавно я слушал лекцию[281] Питера Скомороха из компании LinkedIn[282]. Он показал распределение вероятности названия должности сотрудника, занимающегося разработкой программного обеспечения, в зависимости от числа месяцев, прошедших после его выпуска из университета. Согласно данным, распределения «Sr Software engineer» и «senior software engineer» (старший инженер-разработчик программного обеспечения) почти идентичны, что можно было ожидать, учитывая их синонимичность. Аналогичная картина и с распределениями «CTO» и «Chief Technology Officer». Это интересный способ определения синонимов и исключения повторов, вместо того чтобы поддерживать длинный основной список акронимов и аббревиатур. Это возможно только благодаря объему данных: при нем распределение, которое делают авторы, — надежное и предположительно близкое к истинному лежащему в основе распределению населения.
Источник: Питер Скоморох. Воспроизводится с разрешения
Проблемы многофакторности
Четвертый тип проблем — проблемы многофакторности, или корреляционные, при которых мы стремимся оценить взаимоотношения между переменными. Это может быть оценка взаимоотношений y = f(x) или, возможно, оценка совместной плотности распределения многих переменных. Это можно использовать для разрешения лексической многозначности (например, когда в документе встречается слово pike, обозначает ли оно «щуку» или «пику») или для составления «справочника» взаимосвязанных характеристик или концепций для конкретной лексической единицы (например, с понятием «компания» связаны такие понятия, как «генеральный директор», «главный офис», «ИНН» и так далее).
В данном случае нас интересуют корреляции между словами или фразами. Проблема в том, что документы в сети отличаются высокой размерностью, и, принимаясь за решение подобных проблем, мы попадаем под действие «проклятия размерности»[283], когда данные становятся очень рассеянными.
Таким образом, один из эффектов более крупной выборки заключается в повышении плотности данных в статистическом пространстве. Опять-таки, в случае с более крупными выборками есть возможность более точно оценить показтели, такие как показатели положения (среднее значение, медиана и другие показатели центра распределения). Кроме того, можно более точно оценить совместные плотности распределения (PDFs). Следующая диаграмма рассеяния представляет собой простой пример, составленный на основе этого кода:
par(mfrow=c(1,2))
plot(mvrnorm(100, mu = c(0, 0),
Sigma = matrix(c(1, 9, 9, 1), 2)), xlab="X",ylab="Y",
ylim=c(-4,4))
h2("n = 100")
plot(mvrnorm(10000, mu = c(0, 0),
Sigma = matrix(c(1, 9, 9, 1), 2)), xlab="X",ylab="Y",
ylim=c(-4,4))
h2("n = 10000")
Слева использовалась маленькая выборка. Диаграмму легко интерпретировать как линейную. Справа, где размер выборки был больше, более очевидно настоящее двумерное нормальное распределение. Конечно, это банальный пример. Суть в том, что для более высоких размерностей требуется значительно более серьезный размер выборки, чтобы также оценить совместные плотности распределения.
Конечно, это весьма поверхностный ответ на вопрос, почему больше данных лучше. Предпочтительно использовать качественные данные. Однако во многих компаниях, таких как Google, Twitter, LinkedIn и Facebook, где контент создается пользователями, нередко тексты, созданные в свободной форме, касаются самых разных областей (поэтому глубокая очистка данных и использование онтологий просто нерациональны), в итоге мы видим, что «информационный шум» компенсируется очень большим объемом данных. В итоге все выравнивается, и в случае проблем «ближайшего соседа» решение всегда будет лучше.
Приложение В. Заявление о видении
* * *
Это приложение может стать стартовой точкой для формирования заявления о видении — мотивирующего описания того, чего компания стремится достичь в среднесрочной и долгосрочной перспективах, чтобы стать более ориентированной на данные. Суть в том, чтобы выделить цель компании, объединить всех участвующих лиц и стимулировать обсуждение того, как добиться целей компании. Каждая компания индивидуальна, скорректируйте этот документ так, чтобы он отражал видение вашей компании.
В процветающей компании с управлением на основе данных [название компании] присутствует следующее.
Сильное руководство на основе данных
• Руководители активно продвигают данные как стратегический актив, который должен максимально использоваться для оказания влияния на все уровни деятельности компании.
• Руководители понимают потребности бизнеса и поддерживают его развитие. Руководители поддерживают специалистов аналитического подразделения: обеспечивают им четкий карьерный путь, стимулируют работать максимально эффективно и получать удовольствие от работы.
• Менеджеры опираются на аналитические выводы для принятия информированных решений. В целом в компании использование данных и аналитики глубоко укоренилось в наших рабочих процессах и процессе принятия решений.
Открытая культура, построенная на доверии
• Существует централизованный набор связанных источников данных без барьеров.
• У бизнес-подразделений сформирована концепция владения знаниями, сотрудники активно управляют качеством данных из своих источников.
• Обеспечен широкий доступ к данным.
а) У каждого сотрудника, которому требуется доступ к данным для выполнения своих функциональных обязанностей, есть этот доступ.
б) У каждого сотрудника есть доступ только к тем данным, которые необходимы ему для выполнения своих функциональных обязанностей. Работа с персональными данными, например с информацией о клиентах или рекомендациями, ведется особенно внимательно: доступ к таким данным существенно ограничен, данные обезличены и закодированы.
в) Каждый сотрудник компании может легко получить целостное представление обо всей деятельности компании благодаря доступным и понятным дашбордам, отчетам и аналитическим выводам. Системы раннего предупреждения оборудованы необходимыми инструментами и надежны.
• Специалисты по аналитике активно взаимодействуют со всеми подразделениями компании и помогают оценить идеи и проверить их объективность.
Самодостаточная система аналитики
• Процесс работы со стандартной отчетностью полностью автоматизирован. Большую часть рабочего времени специалисты по аналитике тратят на проведение специализированного анализа, поиск источников данных и прогнозное моделирование и оптимизацию.
• С помощью инструментов бизнес-аналитики осуществляется стандартный поиск данных, а интерфейс SQL поддерживает все остальные специализированные запросы.
Широкая функциональная грамотность при работе с данными
• Все сотрудники аналитического подразделения обладают основными аналитическими и статистическими навыками в соответствии с их должностью.
• Все лица, принимающие решения, в том числе топ-менеджмент компании, обладают функциональной грамотностью при работе с данными, могут интерпретировать статистические выводы и оценить качество проведения экспериментов.
• Существуют широкие возможности для обмена знаниями, обучения и совершенствования своих навыков благодаря участию в семинарах и курсах, чтению специальной литературы и принципам наставничества.
Объективная культура, в которой сначала устанавливаются цели
• Существует четко сформулированное, разделяемое всеми сотрудниками, доступное видение, к каким целям стремится компания. Ее стратегия, действия и тактика стимулируются прозрачной и часто упоминаемой системой ключевых показателей эффективности деятельности.
Культура, в которой задают вопросы
• В компании сформирована уважительная среда, в которой приветствуются конструктивные обсуждения, и каждый сотрудник может задать вопрос другим относительно их данных, предположений и аналитической интерпретации.
• «У вас есть данные, подтверждающие это?» — никто не должен бояться задавать этот вопрос, и все должны быть готовы на него ответить.
Культура, в которой проводятся тестирования
• Все рациональные идеи проходят тестирование (как онлайн, так и офлайн): сбор данных, изучение, повторение. Объективные эксперименты — норма.
Ценность
Конечно, вы должны обосновать, почему сотрудники должны принять это видение.
Финансы
При прочих равных условиях эффективность деятельности компании с управлением на основе данных на 5–6 % выше, чем у других, не опирающихся на данные. Кроме того, у такой компании более эффективное использование ресурсов, выше рентабельность собственных средств и рыночная ценность.
Рентабельность аналитики составляет 13,01 долл. на каждый вложенный доллар.
Руководство на основе данных
Централизованный подход к аналитической работе и поддержка со стороны руководства повышают у специалистов по аналитике степень удовлетворенности своей работой и снижают вероятность, что они захотят покинуть компанию.
Самодостаточность
Если сотрудники разных подразделений обладают навыками статистической работы и планирования экспериментов и хотя бы один сотрудник у них умеет работать с SQL, они будут более самодостаточными, независимыми, с более высокой скоростью реакции и масштабом деятельности.
Проведение тестов
Сотрудники принимают решения на основе качественных и количественных данных, полученных от настоящих покупателей. Им не приходится догадываться, как покупатели могут отреагировать на новую функцию.
Имея возможность проводить тестирования и интерпретировать их результаты, компания может быстрее внедрять инновации. За месяц сотрудники могут протестировать десятки или сотни идей по оптимизации сайта.
Реализация
Наконец, вам необходимо согласовать фактический план действий, как вы собираетесь реализовывать это видение. Чего вы ожидаете от коллег?
Руководство на основе данных
Согласуйте матрицу аналитических компетенций.
Поднимите планку качества для новых и действующих специалистов по аналитике. Стимулируйте действующих аналитиков развивать свои навыки.
Открытость и доверие
Займите активную позицию в отношении качества данных. Разработайте систему обзора, оповещений и других способов контроля для отслеживания объема данных, их качества и возможных проблем.
Самодостаточность
Изучите SQL. Команды всех бизнес-подразделений должны стать более самодостаточными и уметь проводить более специализированные исследования.
Умение работать с данными
Все менеджеры должны уметь работать со статистикой.
Объективность и постановка целей
Свяжите все проекты с главными стратегическими целями компании. Каждому сотруднику должно быть ясно, почему в компании осуществляется или не осуществляется тот или иной проект и как расставлены приоритеты.
По возможности оперируйте конкретными цифрами, например ROI.
Для любого компонента корпоративной культуры, который вы захотите внедрить в своей компании, вам потребуется ответить на вопросы что, почему и как.
Благодарности
Эта книга стала результатом совместного вклада в виде идей и помощи от коллег и экспертов. Я хочу выразить благодарность за чрезвычайно полезные советы, рекомендации и поддержку очень многим людям. Вот они: Эндрю Абел, Питер Айкен, Трейси Эллисон Олтман, Самарет Баскар, Лон Биндер, Нейл Блументаль, Йозеф Боренштайн, Льюис Брум, Трей Кози, Брайн д’Алессандро, Грег Элин, Саманта Эверитт, Марио Фариа, Стивен Фью, Том Фишбурн, Эндрю Фрэнсис Фриман, Дейв Джилбо, Кристина Ким, Ник Ким, Анджали Кумар, Грег Линден, Джейсон Гоуэнс, Себастьян Гутьеррес, Дуг Лейни, Шон Лисен, Дуг Мак, Патрик Махони, Крис Малиуот, Микайла Маркрич, Линн Массимо, Санья Матур, Мириа Мейер, Джули-Дженнифер Нгуен, Скотт Поли, Джефф Поттер, Мэтт Риццо, Макс Шрон, Анна Смит, Неллвин Томас, Дэниел Танкеланг, Джеймс Валландингхэм, Сатиш Ведантам, Дэниел Уайт и Дэн Вудс.
Кроме того, я благодарю всех своих коллег из Warby Parker, оказавших мне серьезную поддержку.
Мои искренние извинения всем, кого я ненамеренно не упомянул.
Особая моя благодарность Дэниелу Минтцу, Джули Стил, Дэну Вудсу, Лону Биндеру и Джун Эндрюс, выступившим в качестве технических редакторов и предложивших обоснованные и ценные комментарии, которые помогли мне значительно улучшить книгу.
Спасибо организаторам Data Driven Business, особенно Антанине Капчонава, и участникам форума Chief Data Officer Executive Forum, состоявшегося 12 ноября 2014 года в Нью-Йорке. Джеймс Валландингхэм внес изменения в рис. 4.1 специально для этой книги. Спасибо, Джим!
Хочу поблагодарить Себастьяна Гутьерреса за содержательную беседу и разрешение использовать некоторые примеры из его отличного курса по визуализации данных.
Я не могу обойти вниманием поддержку своих друзей и семьи, особенно моей жены Алексии, которая в шутку называла себя «книжной вдовой», а также моей мамы, которая поддерживает меня на протяжении всей жизни.
Наконец, невозможно не выразить благодарность всей великолепной команде издательства O’Reilly, особенно редактору книги Тиму Макговерну. Я признателен за проделанную работу Майку Лукидесу, Бену Лорика, Мари Богуро и производственной команде: Коллину Лобнеру, Люси Хаскинс, Дэвиду Футато, Киму Коферу, Элли Волькхаузен, Аманде Керси и Ребеке Демарест.
Об авторе
Карл Андерсон — директор направления по работе с данными компании Warby Parker в Нью-Йорке. Он отвечает за технические аспекты этого направления, поддерживает более широкую аналитическую структуру и развивает в компании корпоративную культуру на основе данных. До этого работал преимущественно в области применения вычислительных машин для решения научных задач в разных компаниях из таких сфер деятельности, как моделирование в здравоохранении, сжатие данных, робототехника, моделирование с применением исполнительных устройств. Имеет степень Ph.D. в области математической биологии, полученную в Университете Шеффилда, Великобритания.
Колофон
Птица, изображенная на обложке книги, это трехцветный спрео, или великолепный скворец (Lamprotornis superbus). Эта певчая птица семейства скворцовых обитает в восточной части Африканского континента от Эфиопии до Танзании.
Взрослые особи отличаются оперением очень красивого цвета: вверху блестящее черное, на затылке и плечах блестящее сине-зеленое. Шея, горло и грудь металлически-синего блестящего цвета. Полоса на груди и гузка белые, брюхо окрашено в красно-бурый цвет. Длина взрослых птиц составляет примерно 18 см, а размах крыльев до 40 см.
Птицы очень «социализированы» и общаются при помощи длинных призывных трелей. Живут обычно в больших стаях и часто совместно заботятся о потомстве. Их пища состоит в основном из насекомых, плодов и семян, но если предоставляется такая возможность, то могут назойливо выпрашивать корм в деревнях или городах.
Многие из представителей животного мира, которых издательство O’Reilly помещает на обложки, находятся на грани вымирания. Все они важны для нашей планеты. Узнать подробнее о том, как вы можете помочь, можно на сайте animals.oreilly.com.
Максимально полезные книги
Если у вас есть замечания и комментарии к содержанию, переводу, редактуре и корректуре, то просим написать на [email protected], вы поможете нам исправить недочеты и стать лучше.
Над книгой работали
Главный редактор Артем Степанов
Ответственный редактор Светлана Мотылькова
Литературный редактор Юлия Слуцкина
Арт-директор Алексей Богомолов
Верстка обложки Наталия Майкова
Верстка Екатерина Матусовская
Корректоры Мария Кантурова, Надежда Болотина
ООО «Манн, Иванов и Фербер»
Электронная версия книги подготовлена компанией Webkniga.ru, 2017