Аналитическая культура. От сбора данных до бизнес-результатов Андерсон Карл

Предельная норма прибыли = стоимость (переход) стоимость данных.

Предположим, у модели на основе собственных данных всего 1 % вероятности, что по рекламному объявлению будет переход, а у модели на основе дополнительных данных третьей стороны эта вероятность составляет 5 %. Ценность данных выше на 4 %, а прирост ценности этих данных составляет 1 долл. (5 % — 1 %) = 0,04 долл.

Располагая конкретным значением вроде этого, можно объективно определить целесообразность приобретения этих данных. Если стоимость дополнительных данных 0,04 долл., тогда это нерентабельно. А если их стоимость составит, например, 0,01 долл., решение очевидно.

Вы можете не ограничиваться только оценкой прироста ценности данных третьей стороны в дополнение к собственным данным. Когда речь идет о данных, в большинстве случаев самая важная роль отводится контексту. Д’Алессандро и др. провели интересный эксперимент, в ходе которого сравнили прирост ценности данных третьей стороны по сравнению со случайным таргетированием пользователей, то есть полным отсутствием данных по сравнению с данными только третьей стороны. Они получили положительный прирост ценности по целому ряду сегментов: стоимость по сегменту / 1 тыс. пользователей составила 1,8 долл. Затем они повторили эксперимент и использовали собственные данные плюс данные третьей стороны. Как вы думаете, какой результат они получили? Прирост ценности упал! Стоимость по сегменту на 1 тыс. пользователей теперь была около 0,02 долл. В контексте данных, которыми они уже располагали, дополнительные данные обеспечили положительную, но незначительно малую ценность (рис. 3.2), вероятнее всего, из-за избыточности данных.

Рис. 3.2. Дополнительные данные должны способствовать повышению ценности, но наблюдается убывающая доходность

Источник: https://conferences.oreilly.com/strata/stratany2014/public/schedule/detail/37642

Этот общий подход достаточно эффективен, так как есть возможность приобрести выборку данных, которую можно протестировать. Если полученный результат хороший, можно приобрести полный набор данных. То есть они не связаны обязательством по приобретению полного набора данных, пока не проведут эксперименты, подтверждающие их ценность. К сожалению, не все поставщики данных и не всегда идут на такие условия. Тем не менее, возможно, вы вносите ежемесячную оплату за пользование данными. В таком случае вы можете проанализировать ценность данных с помощью описанных выше экспериментов и увидеть, насколько рентабельно их использование. Если для вас это нерентабельно, откажитесь от услуг этого поставщика.

Авторы делают заключение:

По мере того как большие данные превращаются в панацею при принятии многих решений по оптимизации бизнеса, для руководителей все большее значение приобретает способность рационально оценить свои решения и инвестиции в приобретение и использование данных. Без инструментов для проведения подобной оценки большие данные становятся скорее интуитивным подходом, чем научной практикой.

Аминь!

Хранение данных

Эта глава была посвящена нахождению и интеграции дополнительных данных. В результате этого процесса увеличивается объем данных, с которыми работают аналитики. При этом данные могут устаревать. Ранее мы уже говорили о стоимости данных — издержках на их приобретение, хранение и управление ими. Кроме того, есть издержки и риски, которые не так легко оценить: какой урон может нанести вашему бизнесу, например, утечка данных? Один из аспектов, о которых следует задуматься, — когда удалять данные (сокращая риск утечки и издержки на хранение) и когда перемещать данные на подходящий носитель для хранения.

У данных есть одна особенность: они множатся. Вы можете загрузить набор данных в реляционную базу, но на этом все не закончится. Ваши данные могут сохраниться в одну или несколько подчиненных баз при неполадках с сервером, на котором хранится основная база данных. И вот у вас уже две копии. Кроме того, вы можете проводить резервное копирование на сервер. Обычно таких резервных копий, на случай, если что-то пойдет не так, у вас может быть за несколько дней, даже за неделю. Так что вы теперь обладатель девяти копий, и хранение каждой из них стоит денег. Как поступить в такой ситуации? Один из вариантов — сопоставлять наборы данных с адекватным периодом ожидания, в течение которого их можно использовать или сохранить.

Рассмотрим такой пример: Amazon S3 — дешевый и простой способ хранения данных[46]. Хранение данных с помощью такого сервиса определенно обойдется дешевле, чем покупка и обслуживание дополнительного сервера для хранения резервных копий. Получить данные вы можете в любой момент, когда они вам потребуются. При этом Amazon также предлагает похожий сервис под названием glacier[47]. По сути, он очень похож на S3, но создавался как сервис для архивного хранения данных, и на получение данных может уйти четыре-пять часов. При текущем уровне цен стоимость glacier в три раза ниже, чем S3. В случае экстренной ситуации потребуются ли вам данные немедленно или вы сможете обойтись без них полдня или день?

Компании с управлением на основе данных следует тщательно оценить их стоимость. Изначально сосредоточиться нужно на основных данных, где любой простой может иметь серьезные последствия. Компании следует наладить процесс удаления устаревших данных (это бывает легче сказать, чем сделать) или, в крайнем случае, хотя бы перемещать эти данные на самые дешевые из возможных источников хранения.

Более эффективные компании с управлением на основе данных, например достигшие уровня прогнозного моделирования, могут разрабатывать модели, которые используют только самые необходимые данные и отбрасывают все остальные. Например, по словам Майкла Ховарда, CEO компании С9, «отдел продаж не хранит детали заказа более 90 дней»[48]. Если это так, то необходимо тщательно отбирать данные. Как мы показали, компании с управлением на основе данных следует стратегически подходить к выбору источников данных и к ресурсам компании на работу с данными. Аналитики выполняют важные функции по анализу потенциальных источников информации и поставщиков данных, по приобретению выборок и, по возможности, по оценке качества данных и применению выборки для определения ценности данных.

В следующей главе мы поговорим о самих специалистах по аналитике, об их функциях и о том, как можно организовать аналитическую работу в компании.

Глава 4. Специалисты по аналитике

По-настоящему хороший аналитик должен будоражить людей… Я знаю, что я первый получаю данные, а значит, я первый узнаю историю. Открывать что-то новое увлекательно.

Дэн Мюррей

* * *

Человеческий фактор — важный компонент компании с управлением на основе данных. Кто такие специалисты по аналитике и как должна быть организована их работа?

Эта глава посвящена специалистам по аналитике: разным их типам и навыкам, которыми они должны обладать. Мы рассмотрим самые разные позиции и познакомимся с людьми, которые их занимают. Кроме того, мы обсудим плюсы и минусы разных организационных структур для выполнения аналитической работы.

Типы специалистов по аналитике

В компании с управлением на основе данных, вероятнее всего, есть разные специалисты по аналитике, собранные в многочисленные команды. Есть разные описания этих аналитических позиций, и многие из перечисляемых навыков пересекаются. Я предлагаю собственную версию общего описания аналитиков, специалистов по работе с данными, бизнес-аналитиков, специалистов по обработке данных, по статистике, по количественному и экономическому анализу, финансовых аналитиков и специалистов по визуализации данных. Для каждого из этих типов специалистов я опишу навыки, которыми они должны обладать, инструменты, которыми они пользуются, а также приведу конкретные примеры. В вашей компании могут быть другие названия для этих специалистов, но без описанных навыков обычно невозможно эффективно работать с данными.

АНАЛИТИК

Это самый широкий и общепринятый термин, по крайней мере по сравнению с более узкими профессиональными ролями, о которых пойдет речь далее. В большинстве случаев их опыт можно условно представить в виде буквы «Т»: они обладают скромным опытом по целому спектру навыков, но очень глубокими знаниями и навыками в своей основной профессиональной области. В зависимости от своего профессионального опыта специалисты по аналитике могут быть как новичками, которые занимаются в основном сбором и подготовкой данных, так и высококвалифицированными аналитиками со специализацией по определенной теме. Такие аналитики часто бывают главными экспертами в разных областях, таких как работа с мнением клиентов, программы лояльности, электронный маркетинг, геоспециализированная военная разведка или отдельные сегменты фондового рынка. Конкретная роль в компании зависит от ее размера, зрелости, области специализации и рынка. В любом случае результат работы аналитика, скорее всего, будет представлять собой сочетание анализа и отчетов. Аналитики могут отличаться по степени владения техническими навыками и знания профессиональной области.

С одной стороны, есть аналитики, работающие исключительно в Excel и с помощью дашбордов. А с другой стороны, есть такие, как Самарт, который сам пишет программные коды на языке Scala для обработки большого объема сырых данных в компании Etsy. Изначально Самарт занимался политологией, а навыки аналитической работы получил в предвыборном штабе Барака Обамы во время работы в кампании 2012 года. Затем с помощью стандартной триады инструментов, наиболее популярных у аналитиков (R, SQL и Python), он начал проводить исследования в сети и с электронными рассылками. Сегодня он работает аналитиком в компании Etsy в Нью-Йорке, где продолжает проводить свои исследования, а также осуществляет анализ истории посещений пользователей и трендов, составляет отчеты и аналитические доклады. В компании он взаимодействует с продакт-менеджерами, техническими специалистами и дизайнерами и помогает им разрабатывать эксперименты, анализировать их с помощью Scala/Scalding, R и SQL и интерпретировать полученные результаты. Кроме того, он готовит общие аналитические отчеты для компании, а также более узконаправленные справки для руководителей, чтобы помочь им разобраться в трендах, поведении пользователей или других специфических вопросах.

Саманта — аналитик совсем другого рода. У нее степень бакалавра по бухгалтерскому учету, и она работает специалистом по данным в страховой компании Progressive Insurance в Кливленде, штат Огайо, в команде финансовых специалистов отдела по работе с исковыми заявлениями. Она занимается вопросами выморочного имущества (это категория наследуемого имущества, которая отходит государству в случае отказа от его получения), проводит аудит, анализ и проверяет соответствие законам штата в данной области. В ее работу входит подготовка отчетов и отслеживание собственности, от которой отказались, поиск интересных проектов, суммирование финансовых рисков, связанных с этими вопросами. В своей работе она использует такие инструменты, как SAS, Excel и Oracle, а также специализированные инструменты, такие как ClaimStation. От результатов ее работы зависит целый ряд аспектов, которыми занимаются другие специалисты в компании, в том числе это налог на прибыль корпораций, финансовые операции, ИТ, исковые заявления крупного бизнеса, а также исковые заявления отдельных людей. По словам Саманты, ее мотивирует, когда она «видит, что ее анализ приносит финансовую выгоду как компании, так и застрахованным у нас клиентам». В ее работе особенно важно внимание к деталям, поскольку она работает в жестко регулируемой отрасли, а в сферу ее обязанностей входит проверка деятельности компании на соответствие законам штата.

ИНЖЕНЕРЫ В ОБЛАСТИ ОБРАБОТКИ ДАННЫХ И АНАЛИЗА

Эти специалисты в первую очередь несут ответственность за сбор и обработку данных и перевод их в формат, удобный для проведения анализа. Они отвечают за аспекты операционной деятельности, такие как скорость обработки информации, масштабирование, пиковые нагрузки и ведение журнала операций. Кроме того, они могут отвечать за разработку инструментов, которые используют аналитики.

Знакомьтесь, это Анна. Во время подготовки диссертации по физике она поняла, что на самом деле ей интересно заниматься данными. Она окончила обучение с дипломом магистра и начала работать в компании Bitly в качестве специалиста по обработке данных. Анна занимается визуализацией больших объемов данных, обрабатывает данные с помощью набора инструментов Hadoop, внедряет алгоритмы машинного обучения. Затем она присоединилась к проекту Rent The Runway и сейчас работает там инженером по обработке данных. При помощи таких инструментов, как SQL, Python, Vertica, она поддерживает инфраструктуру данных, на которой держится аналитический процесс, разрабатывает новые инструменты для повышения надежности данных, их своевременности и масштабируемости, а также взаимодействует с другими техническими специалистами компании, чтобы понимать любые изменения, которые они совершают и которые могут повлиять на данные.

БИЗНЕС-АНАЛИТИКИ

Эти специалисты обычно выступают связующим звеном между руководством (например, руководителями отделов) и технологическим отделом (например, разработчиками программного обеспечения). Их функции заключаются в улучшении бизнес-процессов или помощи в разработке новых или совершенствовании существующих бэкэнд- и фронтэнд-систем, например, в их функции входит улучшение воронки продаж на сайте.

Линн — старший бизнес-аналитик крупного интернет-магазина Macys.com. У нее степень бакалавра в области изобразительных искусств, опыт разработчика приложений, сертификат Профессионала в управлении проектами, кроме того, почти десятилетний опыт работы в области управления проектами и бизнес-аналитике, преимущественно в сфере книжной электронной коммерции. В функции Линн входит проведение анализа требований проекта, понимание потребностей клиентов, совершенствование бизнес-процессов, а также управление проектами, часто на основе гибкого подхода (Agile). Линн делится своими впечатлениями: «Ни один мой рабочий день не похож на другой. Сегодня я могу беседовать с пользователями на тему их ожиданий (то есть с предпринимателями, которые пользуются информационной системой управления товарами Macy), завтра я делаю обзор ответов пользователей вместе с разработчиками или отвечаю на вопросы разработчиков относительно ответов пользователей».

DATA SCIENTISTS (СПЕЦИАЛИСТЫ ПОРАБОТЕ С БОЛЬШИМИ ДАННЫМИ)

Этот широкий термин применяется для обозначения специалистов в области работы с большими данными, обладающих математическими или статистическими знаниями, обычно с более высоким уровнем образования в точных науках, а также развитыми навыками программирования. Мне нравится лаконичное определение Джоша Уиллса: «Это человек, который разбирается в статистике лучше любого программиста и способен написать программный код лучше любого статистика»[49]. Тем не менее это не полное описание его функций, которые могут включать разработку «продуктов на основе данных», таких как рекомендательный сервис с применением машинного обучения, или прогнозное моделирование, или обработка естественного языка[50].

Трей — старший специалист по теории и методам анализа данных интернет-компании Zulily, расположенной в Сиэтле. Особенность этого интернет-магазина — ежедневные распродажи. У Трея степень магистра по социологии. Свое рабочее время Трей делит между самыми разными проектами — от разработки статистических моделей и рекомендательных алгоритмов для улучшения опыта пользователей до помощи менеджерам продуктов в интерпретации результатов A/B-тестирования. В основном он пользуется языком программирования Python (с такими библиотеками, как Pandas, Scikit-learn и Statsmodels), а также анализирует данные, используя SQL и системы управления базами данных Hive. Он обладает нужными техническими навыками для построения статистических моделей и считает способность доступно объяснить эти модели неспециалистам одним из важнейших качеств профессионала, занимающегося работой с данными. Любовь к обучению нашла отражение в его хобби: он ведет блог, в котором объясняет концепции работы с данными на примере данных по американскому футболу, а также рассказывает о том, как лучше понимать спортивную статистику[51].

СПЕЦИАЛИСТЫ ПО СТАТИСТИКЕ

Это квалифицированные сотрудники, которые занимаются в компании статистическим моделированием. Обычно у них не ниже степени магистра в области статистики, чаще всего они востребованы в таких сферах, как страхование, здравоохранение, исследования и разработки, государственное управление. Четверть всех специалистов по статистике в США работают на федеральное правительство, правительства штатов или органы местного самоуправления[52]. Часто они занимаются не только анализом данных, но и разработкой опросов, исследований, а также сбором протоколов для получения сырых данных.

Шон — специалист по статистике, поддерживающий проведение количественных маркетинговых исследований в офисе Google в Боулдере. У него степень бакалавра в области математики и научных вычислений и Ph.D.[53] в области статистики. Сегодня Шон также обеспечивает поддержку сотрудникам в других командах, часто при возникновении необходимости переходя из проекта в проект. С одной стороны, он может заниматься сбором, очисткой, визуализацией и оценкой качества данных из нового источника. А с другой стороны, он опирается на свои технические навыки для разработки алгоритмов кластеризации, чтобы улучшить онлайновые геоэксперименты по поиску, разработать байесовские модели временных рядов или оценить уровень индивидуального просмотра на основе данных домохозяйств с помощью алгоритма Random Forests. В основном он пользуется средой R, особенно для анализа и визуализации данных (в частности, такими пакетами, как ggplot2, plyr/dplyr и data.table). Помимо этого он применяет в своей работе языки программирования типа SQL и пользуется Python и Go.

КВАНТЫ

Специалисты по количественному анализу, как правило, обладают хорошей математической подготовкой и обычно работают в финансовом секторе, моделируя управление риском и движение фондового рынка со стороны как покупателей, так и продавцов. Например, пенсионный фонд может нанять кванта, чтобы тот сформировал оптимальный портфель облигаций, способный покрыть будущие обязательства фонда. Квантами могут стать бывшие математики, физики или технические специалисты. Некоторые из них — особенно аналитики алгоритмической торговли (самые высокооплачиваемые специалисты из всех аналитиков) — обладают уверенными навыками программирования на таких языках, как C++, они способны обрабатывать данные и предпринимать действия с крайне небольшим временем ожидания.

Сатиш — квант в компании Bloomberg в Нью-Йорке. У него глубокие знания в области прикладной математики и проектирования электрических систем, о чем свидетельствует его степень Ph.D. Он пользуется средой R (ggplot2, dplyr, reshape2), языком программирования Python (scikit-learn, pandas) и Excel (для сводных таблиц) для построения самых разных статистических моделей, а затем при помощи C/C++ запускает некоторые из них. Эти модели часто определяют относительную ценность различных категорий активов с фиксированной доходностью. Помимо этого, он выступает в роли внутреннего консультанта, и ему приходится решать самые разные задачи — от кредитных моделей для ценных бумаг с ипотечным покрытием до прогнозирования объема ветровой энергетики в Великобритании. По его словам, «огромный объем финансовых и аналитических данных, доступный для специалистов Bloomberg, беспрецедентен для отрасли. Поэтому нас воодушевляет осознание того, что большинство предлагаемых нами моделей имеют ценность для всех наших клиентов». Одна из сложностей работы с финансовыми данными заключается в том, что у них очень «длинный хвост», и таким образом в моделях необходимо тщательно учитывать эти редкие, нестандартные события.

СПЕЦИАЛИСТЫ ПО ЭКОНОМИЧЕСКОМУ АНАЛИЗУ И ФИНАНСОВЫЕ АНАЛИТИКИ

Специалисты, которые занимаются внутренней финансовой отчетностью, аудиторскими проверками, прогнозированием, анализом эффективности производственной деятельности и так далее. У Патрика степень бакалавра по философии, политологии и экономике, а также опыт работы в качестве специалиста по анализу рынков заемного капитала в компании RBS Securities. Сейчас он занимает позицию менеджера по розничному финансированию и стратегии в компании Warby Parker в Нью-Йорке, где отвечает за планирование и анализ финансов в розничной сети, а также разработку стратегии по открытию новых магазинов. Он проводит много времени, работая с Excel, управляя прибылями и убытками склада и ключевыми показателями результативности (KPIs), разрабатывая модели будущей деятельности, изучая отклонения в моделях и проводя анализ развития рынка. Сегодня Патрик тратит около 60 % рабочего времени на подготовку отчетов, а оставшееся время — на проведение анализа, тем не менее это соотношение увеличивается в пользу времени на аналитическую работу по мере того, как улучшается его знакомство с инструментами бизнес-аналитики в компании и повышаются навыки работы с этими инструментами.

СПЕЦИАЛИСТЫ ПО ВИЗУАЛИЗАЦИИ ДАННЫХ

Это люди с развитым чувством прекрасного, которые создают инфографику, дашборды и другие графические элементы. Кроме того, они могут заниматься написанием программного кода при помощи JavaScript, CoffeeScript, CSS и HTML и работают с библиотеками визуализации данных, такими как D3 (эффективная и красивая библиотека визуализации, описанная в книге Скотта Мюррея Interactive Data Visualization for the Web) и HTML5.

Джим (Джим В., см. рис. 4.1) получил степень магистра в области теории и практики вычислительных систем со специализацией в сфере биоинформатики и машинного обучения. Он работал в компании Garmin, где создавал графические пользовательские интерфейсы для навигационных устройств. После этого в биологическом научно-исследовательском институте он проводил анализ масштабной последовательности данных. Именно тогда он познакомился с библиотекой визуализации данных D3 и начал вести блог, посвященный этой теме, где публикует доступные и понятные руководства для пользователей. Сегодня Джим занимает пост специалиста по визуализации данных и специалиста по теории и методам анализа данных в лаборатории данных корпорации Nordstrom в Сиэтле. В своей работе он использует такие инструменты, как Ruby, Python и среду R (в частности пакеты ggplot2 и dplyr). Он обеспечивает поддержку систем персонализации и рекомендаций, а также осуществляет визуализацию данных. Основными его «клиентами» становятся сотрудники из других подразделений компании. В крупных компаниях иногда могут быть дополнительные специалисты, которые занимаются исключительно подготовкой отчетов или применением определенного инструмента бизнес-аналитики. Другие специалисты могут работать только с инструментами обработки и анализа больших данных, например Hadoop или Spark.

Рис. 4.1. Профиль команды лаборатории данных компании Nordstrom (по состоянию на 2013 год). МО = машинное обучение. DevOps — относительно новый термин, обозначающий интеграцию разработки и эксплуатации программного обеспечения

Как вы сами видите, названия специалистов, работающих с данными, как и их функции, во многом пересекаются. В основном они обрабатывают данные с помощью разных языков программирования типа SQL.

В одних случаях требуются более серьезные навыки программирования, а в других можно обойтись и без них. Нередко требуется построение статистических моделей с применением SAS или R. В большинстве случаев работа аналитика объединяет подготовку отчетов и собственно проведение анализа.

Аналитика — это командный спорт

Аналитика требует слаженной командной работы. В компании с управлением на основе данных, в которой четко налажены рабочие процессы, присутствуют как аналитики разных типов, так и сотрудники с дополняющими их навыками. При найме новых сотрудников принимается во внимание «портфолио» совокупных навыков всей команды, чтобы найти таких потенциальных кандидатов, которые «закроют» и усилят проблемные области.

Например, на рис. 4.1 приведен профиль команды лаборатории по работе с данными компании Nordstrom в 2013 году. Легко можно определить сильнейших математиков и статистиков в команде (Элисса, Марк и Эрин), сильнейших разработчиков (Дэвид и Джейсон В.), а также специалиста по визуализации данных (Джим В., о котором шла речь ранее). Я поинтересовался у директора лаборатории Джейсона Гоуэнса, что он думает насчет расширения команды, на что он ответил: «Во-первых, мы придерживаемся «правила двух пицц» Джеффа Безоса[54], а потому количество членов нашей команды вряд ли сильно изменится. Мы уверены, что такой подход помогает нам сконцентрироваться на том, что нам кажется серьезными возможностями. Во-вторых, каждый член команды привносит в нее что-то уникальное, что помогает расти всем остальным».

Еще в момент формирования команды они поступили весьма мудро, наняв сильного специалиста по визуализации данных, хотя многие другие команды делают этот шаг гораздо позже. Наличие красиво оформленных и подтвержденных концепций, основанных на данных, помогло команде лаборатории утвердить свой авторитет в рамках всей компании. «Джим очень помог нам вызвать интерес к нашей работе у остальных сотрудников, с помощью своих навыков визуализации данных он буквально вдохнул жизнь в то, что мы делаем», — говорит Джейсон.

Как уже отмечалось, профессиональные знания и навыки специалистов по теории и методам анализа данных, которые часто приходят в коммерческий сектор из академической среды, условно можно изобразить в виде буквы «Т». А если у эксперта две основные области специализации — то в виде числа пи (). Найм новых сотрудников и формирование команд можно назвать «аналитическим тетрисом».

В 2012 году Харрис и др.[55] провели опрос среди нескольких сотен специалистов по работе с данными и разделили их на пять групп по ключевому навыку, как они сами себя охарактеризовали:

• бизнес;

• математика / анализ операций;

• машинное обучение / большие данные;

• программирование;

• статистика.

Они выделили четыре кластера ролей.

Предприниматели

Специалисты по работе с данными, у которых лучше всего развиты навыки, связанные с ведением бизнеса (форма буквы «Т»), и в меньшей степени развиты остальные навыки.

Исследователи

Специалисты, у которых лучше всего развиты навыки по работе со статистикой и в меньшей степени — навыки в области машинного обучения / больших данных, бизнеса и программирования.

Разработчики

Эксперты с двумя областями специализации (форма числа Пи) — с сильными навыками в сфере программирования и машинного обучения / больших данных и умеренными навыками по трем оставшимся категориям.

Творческие специалисты

Специалисты, «которые в среднем не считаются ни самыми сильными, ни самыми слабыми ни в одной из групп по ключевому навыку».

Профили этих четырех ролей представлены на рис. 4.2. Легко отметить широкое разнообразие среди этих четырех типов.

Рис. 4.2. Профиль навыков четырех кластеров респондентов

Источник: Харрис и др., 2013, рис. 3.3

Эти четыре роли примерно соответствуют названиям позиций специалистов по работе с данными (табл. 4.1). В более крупных и сложно организованных компаниях можно выделить больше ролей, в компаниях малого бизнеса, вероятно, меньшее количество специалистов будет выполнять более широкие функции. Кроме того, стоит отметить, что, хотя Харрис и др. назвали творческих специалистов «ни самыми сильными, ни самыми слабыми ни в одной из групп по ключевому навыку», они не выделили при этом визуализацию и коммуникацию в отдельную категорию по ключевому навыку, хотя это чрезвычайно важные навыки для команды. Проблема с данными также заключается в слабости опросов: они ограничены теми категориями, которые изначально предлагают авторы исследования. В данном случае было важно понять, что творческие специалисты — часть успешных команд, но нет ясности относительно их вклада в общий успех.

Таблица 4.1. Соответствие аналитических ролей, перечисленных ранее в этой главе, и ролей, выделенных Харрисом и др. (2013)

В идеале при найме новых сотрудников руководителю следует принять во внимание три уровня.

Индивидуальный

Насколько подходит кандидат? Обладает ли он нужными навыками, потенциалом и стремлением, которые ищет компания?

Командный

Насколько кандидат впишется в команду и сможет ли закрыть слабые места?

Рабочий

Насколько профиль команды соответствует поставленным перед ней задачам? То есть каким должен быть профиль команды, чтобы она оптимально выполняла поставленные перед ней задачи? Например, если задача главным образом состоит в разработке финансовых прогнозных моделей, то состав команды будет отличаться от того, который требуется, если задача заключается в оптимизации процесса обслуживания клиентов.

Навыки и качества

Какие качества определяют хорошего аналитика?[56]

Аналитический склад ума

Он не обязательно должен иметь научную степень по математике или статистике, но его не должна пугать, по крайней мере, описательная статистика (медиана, мода, квартиль и так далее, см. главу 5), и он должен быть готов обучаться.

Внимание к деталям и методичность

Если эти цифры, отчеты и результаты анализа попадают на стол к руководителю и влияют на принятие бизнес-решений, лучше, если они будут правильными. И лучше, если аналитик всегда будет придерживаться правила «семь раз отмерь, один отрежь».

Рациональный скептицизм

Хороший аналитик интуитивно понимает, когда что-то не так с сырыми или агрегированными даннми или результатами анализа. Во-первых, он прогнозирует, какие значения были бы более вероятны. Во-вторых, ставит под сомнение качество данных, еще раз проверяет их источник и расчеты, когда показатели отклоняются от ожидаемых.

Уверенность в себе

Аналитик презентует результаты своей работы коллегам (руководителям). Если эти результаты неожиданные или отражают неэффективность в каких-то аспектах деятельности, коллеги могут поставить их под вопрос, а потому аналитик должен обладать уверенностью в себе, чтобы отстаивать свою точку зрения.

Любопытство

Частично задача аналитика состоит в том, чтобы извлекать из информации полезные для бизнеса уроки и выводы, так что он постоянно должен проявлять любопытство, выдвигая разные гипотезы и тестируя интересные аспекты данных.

Навыки общения и повествования

Работа аналитика теряет всякий смысл, если ее результаты не передаются людям, принимающим решения, которые способны ими воспользоваться. Аналитику необходимо уметь рассказать увлекательную и связную историю на основе данных и результатов анализа. Для этого он должен обладать навыками визуализации данных и уметь убедительно формулировать свои мысли в устной и письменной форме (подробнее об этом в главе 7).

Терпение

Многие факторы находятся вне зоны контроля аналитика, в том числе точность или доступность источника данных, утерянные данные, меняющиеся требования, скрытая необъективность в данных, которая становится очевидной только после выполнения анализа и приводит к необходимости переделывать все заново. Без терпения здесь не обойтись.

Любовь к данным

Точно так же, как многим программистам просто нравится процесс написания кода, некоторым людям информация нравится как ресурс, благодаря которому им удается понять окружающий их мир и оказать на него влияние. Им просто нравится пытаться во всем разобраться досконально. Нанимайте таких людей.

Стремление учиться

Это качество присуще не только аналитикам. Успеха добиваются те, кто стремится узнавать новое, следит за новостями в своей профессиональной области, учится, чтобы совершенствовать свои знания и навыки.

Прагматизм и деловой подход

Аналитик должен уметь концентрироваться на правильных вопросах. Иногда бывает трудно удержаться, чтобы не свалиться в «кроличью нору» и не потратить кучу времени на изучение отдельного пограничного случая, который не окажет никакого влияния на бизнес. Подобно хорошему редактору, аналитик всегда должен держать в голове общую картину и точно знать, в какой момент нужно остановиться и переключиться на что-то другое, чтобы более эффективно потратить свое время.

Я спросил у Дэниела Танкеланга, отвечающего за качество поиска в социальной сети LinkedIn, чем он руководствуется при найме на работу аналитиков. Он ответил:

По моему мнению, аналитику необходимы три качества. Во-первых, он должен быть умным, способным неординарно решать задачи и не только обладать аналитическими навыками, но и знать, как и когда их применять. Во-вторых, он должен быть не просто теоретиком, а демонстрировать, что у него есть и способность, и горячее желание реализовывать свои решения на практике посредством подходящих инструментов. В-третьих, у него должно быть понимание того продукта, с которым он работает, основанное на опыте или интуиции, он должен уверенно ориентироваться в этой области и ее проблемах, и он должен задавать правильные вопросы.

Кен Рудин, глава аналитики социальной сети Facebook, уверен[57]:

С помощью науки, технологий и статистики можно найти ответы, но по-прежнему большим искусством остается умение задавать правильные вопросы… Сегодня недостаточно нанимать людей с научной степенью в области статистики. Нужно быть уверенным, что у этих людей есть деловая хватка. Мне кажется, деловой подход становится самым важным активом и критическим навыком, которым должен обладать каждый аналитик.

Как понять, есть ли у кандидата на позицию аналитика это качество? В ходе собеседования не концентрируйтесь только на том, как рассчитать тот или иной показатель. Предложите потенциальному сотруднику практический случай из вашего бизнеса и спросите, на какие показатели он бы обратил внимание в этом конкретном случае. Вам все будет ясно из его ответа.

Еще один инструмент

С точки зрения практических навыков, без всяких сомнений, большинство аналитиков во всем мире использует в своей работе Microsoft Word, Excel и PowerPoint в качестве основных инструментов. Они доказали свою эффективность. Тем не менее поразительно, как может сказаться на продуктивности применение нескольких дополнительных инструментов.

Далее мы рекомендуем вам бросить вызов. Если вы аналитик, бросьте вывоз самому себе: в течение следующего месяца или квартала освойте еще один инструмент или программу. Если вы руководите аналитиками, поставьте перед ними такую задачу. Попробуйте и увидите, какой будет результат. Вы будете удивлены.

Стоит обратить внимание на следующие аспекты.

РАЗВЕДОЧНЫЙ АНАЛИЗ ДАННЫХ И СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

R представляет собой популярную среду для осуществления статистических вычислений и располагает исключительными библиотеками визуализации данных (такими как ggplot2)[58]. Например, можно прочитать данные в формате CSV и визуализировать отношения между всеми возможными парами переменных с помощью всего двух команд:

данные<-read.csv(имя_файла. csv);

pairs(данные)

На рис. 4.3 показан результат действия этих двух команд. Во второй панели верхней строки отражена взаимосвязь между шириной чашелистика (ось х) и длиной чашелистика (ось y) цветков ириса.

Рис. 4.3. Результат применения команд (относительно задачи по ирисам) в среде R. Речь идет о наборе данных относительно 150 экземпляров ириса, по 50 экземпляров из трех видов, который собрал ботаник Эдгар Андерсон и сделал знаменитым Рональд Фишер[59]. Корреляция между переменными и разница между тремя видами становится очевидной, если рассмотреть все взаимоотношения в совокупности, как на рисунке

Таким образом, этот инструмент может стать чрезвычайно полезным для быстрого проведения разведочного анализа данных. (Не менее популярны и эффективны неоткрытые SAS и SPSS.) Всего около 6700 пакетов для любых типов данных, моделей, областей и визуализации. Это открытые источники, доступные бесплатно[60]. Если вы уже знакомы со средой R, то можете освоить новый пакет R и расширить свои навыки.

ЗАПРОСЫ К БАЗАМ ДАННЫХ

В то время как Excel может быть очень эффективным инструментом, при работе с ним иногда возникают проблемы, связанные с обработкой большого объема данных: при определенном объеме данных и применении функции ВПР (VLOOKUP) программа может сильно затормозить работу компьютера. Именно поэтому язык программирования SQL — ценный инструмент в наборе любого аналитика. Этот язык можно назвать относительно стандартизированным, несмотря на незначительные отличия в языке в разных базах данных (таких как MySQL, PostgreSQL и Access). Так что если вы знакомы с ним, это обеспечит вам свободу переключения между разными реляционными базами данных. Вы сможете делать запросы к базам данных независимо от объема данных (обрабатывать миллионы строк), делиться запросами с коллегами (делиться небольшими текстовыми запросами, а не огромными массивами сырых данных). Кроме того, вы сможете обеспечить воспроизводимость процесса (можно легко повторить процесс анализа еще раз).

Есть множество книг, а также офлайновых и онлайновых курсов, которые могут помочь овладеть SQL. Я рекомендую один из бесплатных онлайновых курсов W3Schools’ SQL Tutorial[61], так как там пользователь имеет возможность составлять запросы прямо в браузере. Другой подход к обучению заключается в установке базы данных на компьютер пользователя. Установка и конфигурация основных баз данных, таких как MySQL и PostgreSQL, может оказаться делом непростым. Так что я настоятельно рекомендую начать с SQLite[62]: многие приложения в вашем смартфоне используют SQLite для хранения данных. Эта база данных бесплатная, простая в установке, сохраняет данные в единый переносимый файл, с ней вы быстро научитесь составлять SQL-запросы.

Если вы переживаете, что это старая технология, которую скоро затмят новинки, в исследовании O’Reilly 2014 Data Science Salary Survey Кинг и Маголас отмечают: «SQL был самым распространенным инструментом… Даже с бурным развитием технологий по работе с данными нет никаких признаков того, что SQL начинает сдавать позиции».

ПРОВЕРКА ФАЙЛА И ОПЕРАЦИИ С НИМ

В случаях, когда команде аналитиков приходится работать с большим количеством файлов с сырыми данными или с файлами большого объема, кто-то — необязательно все, поскольку аналитика все-таки командный спорт, — должен обладать элементарными знаниями Unix для проверки файлов и проведения операций с ними. В качестве альтернативы можно выбрать какой-нибудь из языков программирования, например Python, способный обеспечить эти функции и многие другие. Подробнее об этом в главе 5.

ПРИМЕР ЕЩЕ ОДНОГО ИНСТРУМЕНТА: ПОДСЧЕТ СТРОК ПРИ ПОМОЩИ *NIX-УТИЛИТЫ WC

Если вы знакомы со стандартными командами ОС *nix (то есть Unix и Linux), то можете пропустить эту часть. Всем остальным эта информация может оказаться полезной.

Предположим, вы получили данные в формате CSV-файла объемом 10 МВ и вам нужно знать общее количество записей. Как их подсчитать? Открыть файл в Excel, пролистать до конца или воспользоваться комбинацией клавиш CTRL+ и посмотреть номер последней строки? Да, можно и так. А что, если файл будет объемом 100 МВ? Конечно, Excel справится и с ним, но на выполнение этой задачи может уйти до десяти минут. Ладно, а как насчет файла объемом 1 GB? Здесь такой подход уже не сработает.

Ок, немного изменим условия задачи: теперь вы имеете дело с тремя CSV-файлами объемом 10 МВ. Открыть каждый из них по отдельности в Excel? Допустим. А если у вас 300 таких файлов? Да, здесь явно нужен другой подход.

А что, если я скажу, что на решение этой задачи потребуется всего несколько секунд? Пакет стандартных команд ОС *nix представляет собой набор небольших специализированных утилит, обеспечивающих выполнение одной конкретной функции. wc представляет собой Unix-утилиту, выводящую количество слов (word count), а также строк и символов.

В: Но у меня нет доступа к *nix! У меня ОС Windows.

О: Ничего страшного, просто установите бесплатно cygwin[63]. Это позволит вам пользоваться командами Unix в ОС Windows.

В: Но у меня нет доступа к *nix! У меня OS X.

О: Mac OS X принадлежит семейству операционных систем Unix. Так что ваша цепочка действий следующая: идете в приложения Applications, открываете утилиты Utilities и кликаете на Terminal. Та-дам! Можете пользоваться командами Unix.

Формат команды элементарный: wc — l filename

wc — утилита для вывода количества слов, — l (символ) обозначает, что требуется вывести количество строк, а не слов, filename — название файла. Например:

$ wc — l weblog_20150302.log

1704190 weblog_20150302.log

($ — это подсказка или напоминание; у вас она может быть другой).

Этот пример показывает, что в файле weblog 1,7 млн строк. Для подсчета строк в каждом файле директории укажите название папки вместо имени файла:

wc — l mydatafiles/

123 file1.csv

456 file2.csv

579 total

Все очень просто. Утилита даже вывела итоговую строку. Я постоянно пользуюсь этой командой при проверке качества данных, чтобы оценить, сколько времени может занять загрузка набора данных в базу данных, а также для проверки, что все данные загрузились полностью.

Надеюсь, вы уловили главное: простые утилиты, научиться пользоваться которыми можно за несколько минут, способны значительно усилить набор аналитических навыков и повысить продуктивность работы.

Каким инструментом или утилитой научиться пользоваться, зависит от того, каким набором навыков вы уже владеете и какие у вас слабые места.

Будьте уверены, слабые места есть у всех. Последуйте моей рекомендации.

Если вам нужен дополнительный стимул, задумайтесь о следующем. В опросе на тему размера оплаты труда специалистов по работе с данными O’Reilly’s 2013 Data Science Salary Survey приняли участие посетители двух крупных конференций Strata в 2012 и 2013 годах, при этом выяснилось следующее: размер оплаты труда положительно коррелировал с количеством инструментов, которыми пользовались респонденты.

В среднем респонденты использовали в работе 10 инструментов и их медианный доход составлял 100 тыс. долл. У тех, кто использовал 15 и более инструментов, показатель медианного дохода был 130 тыс. долл.

Еще более очевидно это отражено в опросе 2014 года[64] (рис. 4.4).

Рис. 4.4. Корреляция между применением разного числа инструментов и оплатой труда специалистов по работе с данными

Источник: опрос 2014 O’Reilly Data Science Salary Survey, рис. 1.13

В 2013 году авторы опроса сделали заключение:

Есть веские основания утверждать, что владение такими инструментами, как R, Python, инструментарием Hadoop, D3, а также масштабируемыми инструментами машинного обучения, свидетельствует о более высокой квалификации аналитика, позволяя ему претендовать на более высокооплачиваемую позицию, чем когда аналитик владеет такими инструментами, как SQL, Excel и платформы RDB [реляционных баз данных]. Мы также пришли к выводу, что чем большим числом инструментов способен пользоваться аналитик, тем лучше: если вы задумываетесь о том, чтобы научиться применять инструмент из набора Hadoop, лучше изучите сразу несколько.

Наконец, опрос 2014 года показал разницу в оплате труда почти в 15 тыс. долл. между аналитиками, умеющими работать с программным кодом, и не умеющими. Так что если это ваше слабое место, окажите себе услугу, научитесь программировать!

Организация работы аналитиков в компании

Теперь, когда мы рассмотрели типы специалистов по аналитике и их навыки, можно перейти к вопросу организации их работы в контексте компании. Сначала давайте остановимся на двух крайних ситуациях.

ЦЕНТРАЛИЗОВАННАЯ МОДЕЛЬ

Есть центральная команда аналитиков, и все аналитики подотчетны ей. В этом варианте есть много преимуществ. Во-первых, команда может стандартизировать навыки, процесс обучения и применяемый инструментарий, кроме того, аналитики совместно используют ресурсы, что ведет к снижению расходов на приобретение лицензий на ПО. Во-вторых, команде аналитиков бывает легче продвигать результаты аналитической работы в компании. В-третьих, аналитики имеют возможность профессионального и личного общения, они могут чему-то научиться у коллег и поделиться с ними своим опытом. К тому же они ощущают себя частью команды единомышленников. В-четвертых, у них есть или может возникнуть ощущение большей объективности, поскольку успех их работы, как правило, не соотносится с успехом проектов, анализом которых они занимаются. Наконец, они способны продвигать основные источники данных в качестве единственных источников верных данных. Из недостатков этого способа организации работы аналитиков можно выделить то, что они казываются в некоторой степени удалены от руководителей бизнеса и их целей, в результате чего стиль их работы может стать более бюрократическим[65]. Как отмечает Пиянка Джейн, «все должно подчиняться единому процессу, должны быть расставлены приоритеты и распределены ресурсы»[66].

ДЕЦЕНТРАЛИЗОВАННАЯ МОДЕЛЬ

При децентрализованной организации работы специалисты по анализу данных работают в отдельных подразделениях. Эти аналитики готовят отчеты для своих команд и разделяют их цели и задачи. Иными словами, их цели, отчеты и показатели — это цели, отчеты и показатели подразделения, в котором работает аналитик. Минус этого подхода в том, что аналитик оказывается оторванным от других аналитиков компании. Это приводит к риску избыточных усилий, несовпадения инструментария, навыков, определений показателей и реализации. У аналитиков из разных команд меньше возможность общения и обмена профессиональным опытом. Децентрализованная модель наиболее распространена, ее придерживаются 42 % респондентов нашего опроса. По Дэвенпорту и др. (с. 108), это фактор, отражающий «незрелость аналитики». Авторы не поясняют свою позицию, но моя интерпретация заключается в том, что довольно сложно демонстрировать качественные результаты на более высоком уровне аналитической работы, например как в отделе исследования операций, где занимаются оптимизацией или проблемами прогнозирования, без централизованной координации усилий, практического опыта и контроля.

У каждой из этих моделей есть свои плюсы и минусы (они перечислены в табл. 4.2). В первом случае аналитик в большей мере ощущает поддержку, имеет возможность профессионального общения и обмена опытом, у него более четкий карьерный путь. Во втором случае распределение ресурсов зависит от политики руководителя, но предположительно уменьшается срок выполнения работы.

Таблица 4.2. Преимущества централизованной модели организации работы аналитиков над децентрализованной моделью. (Недостатки выступают оборотной стороной преимуществ в любом из столбцов.) Повышение уровня профессионализма может происходить в обоих случаях (см. объяснение в тексте)

Организации, находящиеся на преобразованном уровне, на 63 % чаще, чем организации на желательном уровне (см. главу 1), «используют централизованное подразделение как основной источник аналитики». Однако здесь в действие вступают искажающие факторы (в частности, величина компании и общее количество специалистов по анализу), так как в компаниях на преобразованном уровне аналитики также работают в бизнес-подразделениях[67].

Логично предположить, что при децентрализованной модели у аналитиков сильнее повышается уровень профессиональных знаний, например, у них формируется более глубокое понимание данных по клиентам, аналитических процессов и показателей. К сожалению, при таком уровне экспертных знаний повышается риск для компании в целом, если эти несколько высококлассных специалистов ее покинут. (При централизованной модели более высока вероятность избыточности знаний, так как аналитики переключаются между разными направлениями бизнеса.) Это может означать, что уровень профессиональных знаний в среднем фактически ниже при децентрализованной модели, если аналитики часто увольняются, а на их место приходят новички, на обучение которых требуются годы.

Джеб Стоун[68] считает, что при централизованной модели с несколькими стандартными технологиями:

…чтобы повысить ценность для организации, аналитик должен овладеть этими дополнительными технологиями, обучиться этим смежным специализированным направлениям бизнеса и приблизиться к тому уровню и качеству работы, которые задают старшие аналитики. Без четко обозначенного карьерного пути у аналитиков может оказаться велик соблазн обучиться новым навыкам за счет компании, вне зависимости от того, насколько это ей нужно, а затем перейти к тому работодателю, который будет ему больше платить за эти навыки. И есть еще один аспект: ведущие аналитики, скорее всего, будут избегать компаний с децентрализованной моделью организации аналитической работы, поскольку они знают, что у них уйдет гораздо больше времени на продвижение по карьерной лестнице. К тому же в подобной компании вряд ли будет стимулирующая программа, адекватная их профессиональным достижениям.

В попытках создать структуру, максимально сохраняющую преимущества и минимизирующую недостатки, возникла так называемая смешанная модель — подобная используется в компании Facebook. В ее рамках присутствует центральная команда аналитиков, и таким образом стандартизированы инструментарий, процесс обучения и другие профессиональные аспекты. При этом физически специалисты по работе с данными находятся в разных бизнес-подразделениях и разделяют их цели. Таким образом компании удается извлекать преимущества из тесного взаимодействия разных сотрудников и наличия аналитических стандартов. К недостаткам этой модели можно отнести то, что возникает ситуация, когда аналитикам может быть необходимо отчитываться перед несколькими руководителями: по линии аналитической работы и конкретного бизнес-направления. Это может вести к риску возникновения конфликтов или получения противоречивых посылов.

При децентрализованной модели организации аналитической работы могут потребоваться способы объединения аналитиков, чтобы они могли обмениваться опытом и профессиональными навыками, посещать обучающие мероприятия, обсуждать источники данных, показатели, результаты проведенного анализа. Один из подходов — и именно его мы применяем в компании Warby Parker — заключается в создании гильдии аналитиков, «организованной группы людей, объединенных общим профессиональным или иным интересом». Это позволяет аналитикам из разных подразделений, а в нашем случае из разных зданий, общаться и обсуждать разные вопросы. Кроме того, моя команда специалистов по работе с данными получает возможность проводить обучение инструментам бизнес-аналитики и статистики.

Подобная гильдия напоминает матричную структуру, и для ее создания и функционирования требуется серьезная поддержка со стороны руководителей или начальников подразделений, которым подчиняются эти аналитики, а также со стороны руководителей более высокого уровня. Аналитики должны заручиться согласием своих руководителей на то, что им будут выделять время на участие в гильдии.

Другие виды организационных структур[69], более характерные для крупных компаний, перечислены ниже.

Консалтинговая структура

В некоторых компаниях централизованная модель модифицирована таким образом, что аналитиков нанимают в подразделения в формате консалтинговой структуры. При слабой исполнительной власти есть риск, что аналитик соблазнится на деньги или поддержит более убедительного руководителя, но при этом для компании его работа не будет иметь большой ценности.

Функциональная структура

Форма централизованной модели, при которой команда аналитиков включена в функциональное бизнес-подразделение и в основном «работает» на него. При этом при необходимости она может решать задачи других подразделений компании. В некоторых случаях вся команда аналитиков может даже перейти в другое подразделение.

Центр передового опыта

Несколько напоминает смешанную структуру, но в большем масштабе, кроме того, ряд аналитических специалистов, таких как специалисты по статистике, остается в «центральном узле». Таким образом, аналитическая работа проводится как в отдельных подразделениях, так и центральной командой специалистов.

В табл. 4.3 перечислены разные организационные структуры и приведены примеры компаний каждого типа. Тем не менее стоит подчеркнуть, что это идеализированные структуры: на практике границы между ними часто размыты, и образуются разные смешанные типы. Например, в компании Warby Parker применяется децентрализованная модель, в которой аналитики отчитываются только перед руководителем по конкретному бизнес-направлению, при этом присутствуют элементы модели центра передового опыта, так как в компании есть центральная команда специалистов по аналитической работе, которые обеспечивают поддержку с точки зрения углубленной аналитики (а также наличие инструментов бизнес-аналитики, обучение специалистов и стандарты деятельности). Однако ожидается, что эта структура будет меняться по мере «взросления» аналитики в организации.

Таблица 4.3. Примеры разных структур организации аналитической работы

Нет единого ответа на вопрос, какая структура лучше всех. Все зависит от размера компании и области, в которой она действует. Например, не имеет смысла внедрять модель центра передового опыта, если в компании всего пять аналитиков. Она будет эффективна в организациях с числом сотрудников больше 25 тыс. человек. Определенная структура может адекватно отвечать задачам компании на данном этапе ее развития, но по мере роста компании может потребоваться реорганизация этой структуры.

Тем не менее, опираясь на результаты ежегодного технологического исследования Accenture и анализ более 700 специалистов[70], Дэвенпорт и др. (с. 106) утверждают:

Мы полагаем, что централизованная модель и модель центра передового опыта (или смешанные модели, включающие элементы обеих этих моделей) способны предложить самые существенные потенциальные преимущества тем компаниям, которые готовы предпринять корпоративный подход к аналитике. У аналитиков, работающих в рамках этих моделей, значительно выше уровень вовлеченности, удовлетворенности работой, воспринимаемой поддержки со стороны компании, ресурсов и лояльности по отношению к компании[71].

В главе 11 мы обсудим, какое место занимают эти команды в разрезе всей структуры компании в целом и кому из топ-менеджеров компании подчиняются. Однако до этого давайте подробнее изучим то, чем занимаются аналитики, — процесс анализа.

Глава 5. Анализ данных

Если достаточно долго мучить данные, они признаются [в чем угодно].

Рональд Коуз[72]

* * *

Следующие три главы посвящены сути аналитической работы: непосредственно анализу данных, целям анализа с позиции компании и тому, как проводить результативный анализ данных.

Мы рассмотрим такие аспекты, как виды анализа данных, разработка показателей, извлечение практических выводов, презентация этих выводов, идей и рекомендаций руководителям. В главе 6 мы обсудим разработку показателей и ключевых показателей эффективности деятельности (KPI), а глава 7 посвящена визуализации данных и сторителлингу[73]. В этой главе, первой из трех, речь пойдет непосредственно об анализе данных.

Важно отметить, что мы не будем говорить о том, как проводить анализ или статистическое исследование, — на эту тему есть много других более полных источников (см. список дополнительной литературы). Мы сосредоточимся на цели анализа данных: что это означает? К какому результату стремятся аналитики? Какие инструменты входят в их профессиональный набор? Мы вернемся к идее разных уровней аналитики, о которой уже упоминалось в главе 1, и изучим другие точки зрения на виды аналитики.

Наша цель — выделить ряд инструментов статистики и визуализации, которые аналитики могут использовать в своей работе. Дополнительная цель заключается в том, чтобы стимулировать их применять подходящие инструменты, а при необходимости изучить более сложные инструменты, способные обеспечить более глубокий уровень понимания конкретной проблемы.

Для изготовления деревянного стола опытному столяру требуется качественный исходный материал: древесина красного дерева, набор столярных инструментов, например стамеска и угольник, и профессиональные знания, когда и как пользоваться этими инструментами. Отсутствие хотя бы одного из трех компонентов заметно скажется на качестве конечного продукта. То же самое касается и аналитической работы. Для производства аналитического продукта, имеющего реальную ценность, не обойтись без исходного материала в виде качественных данных, инструментария в формате различных аналитических методов и техник, а также профессиональных знаний, когда и как пользоваться всеми этими инструментами для решения задачи.

Что такое анализ данных?

Уделим немного времени самому термину «анализ». Он происходит от древнегреческого [ana] + [lu], что означает «освобождать», «распутывать». В этом есть смысл, но слишком высокопарный, чтобы помочь нам уловить, что это действительно означает. Для целей бизнеса можно воспользоваться определением Марио Фариа из главы 1:

Анализ — преобразование данных в выводы, на основе которых будут приниматься решения и строиться действия с помощью людей, процессов и технологий.

Давайте остановимся на этом подробнее. Надеюсь, из главы 2 и главы 3 у вас уже сложилось понимание, что такое массив данных, а вот что такое аналитические выводы?

Согласно «Википедии», аналитические выводы — понимание конкретных причин и следствий в конкретном контексте[74]. В английском языке у этого термина (insight) есть несколько сопутствующих значений:

• информация;

• «озарение» — понимание внутренней сути вещей и процессов;

• самоанализ;

• проницательность, способность делать глубокие наблюдения и выводы;

• понимание причин и следствий на основе установления взаимосвязи и поведения в рамках модели, контекста или сценария.

Итак, понимание взаимосвязи причин и следствий, понимание внутренней природы вещей и процессов и так далее. Это будет нам полезно.

Термин «информация»[75], то есть «результат обработки данных для придания им контекста и смысла», часто используется как синоним термина «данные», хотя технически это не одно и то же (см. ниже врезку, а также статью The Differences Between Data, Information and Knowledge («Разница между понятиями “информация”, “данные” и “знания”»)[76].

ДАННЫЕ, ИНФОРМАЦИЯ И ЗНАНИЯ

Данные представляют собой сырые, необработанные факты об окружающем мире. Информация — собранные, обработанные данные, в то время как знания — это набор ментальных моделей и убеждений об окружающем мире, который сформировался на основе информации, полученной на протяжении какого-то периода времени.

Температура на данный момент составляет 6 °C. Это количественный факт. Он существует и соответствует действительности вне зависимости от того, зафиксировал ли его кто-то. К сожалению, этот факт бесполезен (для всех, кроме меня), так как из-за отсутствия контекста (когда? где?) он не позволяет сделать никаких выводов.

В Нью-Йорке 2 ноября 2014 года в 10 утра температура составила 6 °C. У этих данных есть контекст. Однако это по-прежнему лишь констатация факта без интерпретации.

Температура 6 °C гораздо ниже климатической нормы. Это информация. Мы обработали данные и объединили их с другими данными, чтобы определить понятие климатической нормы и оценить, как соотносятся значения.

При температуре 6 °C на улице прохладно, я надену пальто. Вы объединили информацию за какой-то период времени и построили мыслительную модель, что это означает. Это знания. Конечно, все эти модели относительны. Например, житель Аляски может посчитать температуру 6 °C в оябре не по сезону теплой.

Исходя из глубины информации, мы вновь можем вернуться к подробному определению анализа (рис. 5.1). Хотя в нем по-прежнему остаются такие термины, как «понимание» и «контекст», надеюсь, теперь у вас более четкое представление о том, что такое анализ, по крайней мере концептуально. На этом новом уровне понимания давайте изучим набор инструментов, находящийся в распоряжении аналитиков. Сейчас речь идет не о программных инструментах, таких как Excel или R, а о статистических инструментах и о видах анализа данных, которые можно проводить.

Рис. 5.1. Результат двухуровневого раскладывания определения термина «анализ»

Виды анализа данных

Страницы: «« 12345678 »»

Читать бесплатно другие книги:

Северная Америка, XIX век. Вождь племени сиу пал в поединке. По обычаю, чтобы дух его успокоился, ну...
Книга намеренно задумана как инструмент: Юлия Андреева и Ксения Туркова подобрали типичные ошибки в ...
Уникальная методика цигун-терапии для профилактики и лечения заболеваний глаз!Многотысячелетний опыт...
Не так давно казалось, что национальное государство пребывает на смертном одре, сделавшись ненужным ...
Главный герой повести – бывший московский актер Эсхил Христофоридис. Он обращается в православие, ух...
Цели бывают разные. Некоторые легко даются даже начинающим стрелкам, другие устоят перед самыми опыт...