О чем говорят цифры. Как понимать и использовать данные Дэвенпорт Томас
• При наличии причины наступает следствие.
• При отсутствии причины следствие не наступает.
Кластеризация, или кластерный анализ. Распределение результатов наблюдений (записей в базе данных) по группам (кластерам) таким образом, что результаты в одной группе имеют сходные черты, в то время как результаты разных групп отличны друг от друга. Кластеризация является основной задачей интеллектуального поиска данных и стандартным приемом анализа статистических данных в самых разных областях.
Корреляция. Степень зависимости двух или более переменных друг от друга. Степень зависимости выражается коэффициентом корреляции, принимающим значения в интервале от 1,0 до –1,0.
Если коэффициент корреляции равен +1 (полная положительная корреляция), то это означает, что обе переменные пропорционально изменяются в одинаковом направлении.
Коэффициент корреляции равен 0 – между переменными нет связи.
Если коэффициент корреляции равен –1 (полная отрицательная корреляция), то это означает, что при возрастании одной переменной вторая уменьшается.
Наличие корреляции не обязательно означает, что имеется причинно-следственная связь. Иначе говоря, корреляция является необходимым, но не достаточным условием причинности.
Факторный анализ. Статистический метод, раскрывающий взаимосвязь между многими переменными или объектами. Это позволяет объединить взаимосвязанные переменные в группы, называемые факторами. Такой прием часто используется для структурирования и/или сокращения количества видов данных. Например, если исследователю предстоит проанализировать более сотни переменных, факторный анализ позволит объединить их в десяток комбинированных показателей, каждый из которых отражает динамику десятка исходных переменных.
Зависимая переменная. Переменная, значение которой неизвестно и подлежит прогнозированию или объяснению. Например, если вы хотите предсказать качество вина урожая определенного года на основе среднегодовой температуры периода созревания, количества осадков в период сбора урожая и в предшествующую зиму, то качество вина будет зависимой переменной. Иногда используются еще термины «объясняемая переменная» и «результирующий фактор».
Независимая переменная. Переменная, значение которой известно и применяется для прогнозирования или объяснения динамики зависимой переменной. Например, если вы хотите предсказать качество вина на основе исследования различных переменных (средняя температура в период созревания, количество осадков в период сбора и предыдущей зимой, возраст вина), то эти переменные и будут независимыми. Иногда их называют еще объясняющими переменными, переменными регрессии, фактор-аргументами.
Регрессия. Статистический метод, позволяющий построить уравнение для оценки неизвестного значения зависимой переменной через известные значения одной или более независимых переменных. Простая регрессия означает, что для оценки зависимой переменной используется одна независимая переменная. Множественная регрессия означает, что для прогнозирования зависимой переменной используются несколько независимых переменных. Логическая регрессия использует несколько независимых переменных для прогнозирования бинарной категориальной зависимой переменной (то есть переменной вида да/нет, за/против, покупать/не покупать).
R-квадрат (R2). Наиболее популярный показатель для оценки степени совпадения рассчитанной регрессии с данными выборки, по которой произведен расчет. R-квадрат отражает также степень изменчивости зависимой переменной по сравнению с рассчитанной линией регрессии. Его значение колеблется в интервале от 0 до 1, и если оно равно, например, 0,52, то это означает, что 52 процента вариации зависимой переменной объясняется независимыми переменными, включенными в уравнение регрессии. В общем случае чем выше значение R2, тем более адекватной считается модель.
Проверка гипотез. Системный подход к проверке исходного предположения об окружающей реальности. Он включает сопоставление исходной гипотезы или утверждения с доказательствами истинности и на этом основании принятие решения о том, следует ли признать ее истинной или ложной. Гипотезы можно разделить на два вида: нулевая гипотеза и альтернативная гипотеза. Суть нулевой гипотезы (H0) состоит в том, что между результатами приведенных наблюдений не существует статистически значимой связи[41].
Альтернативная гипотеза (Ha или H1) исходит из предположения о наличии такой связи. Проверка гипотез включает в себя сравнение эмпирически выявленных закономерностей в выборке с теоретически предполагаемыми (то есть предполагаемыми для случая, если нуль-гипотеза верна). Например, если вы хотите предсказать качество вина на основе его возраста, то нулевая гипотеза будет звучать следующим образом: «Возраст вина не влияет на его качество», в то время как альтернативная гипотеза такова: «Возраст вина существенно влияет на его качество». Данные собираются и анализируются с целью установления соответствия Н0. Редкие или нестандартные результаты наблюдений (часто определяемые по р-значению ниже определенного уровня) являются показателем того, что Н0 ложная; это означает, что существует статистически значимая вероятность того, что альтернативная гипотеза истинна.
Р-значение. В процессе проверки гипотез р-значение показывает вероятность подтверждения данными истинности нулевой гипотезы. Невысокое р-значение указывает на небольшое количество или нестандартный характер данных, подпадающих под нулевую гипотезу, что, в свою очередь, говорит о ее ложности (отсюда можно сделать вывод, что истинна альтернативная гипотеза). При тестировании гипотез мы «отбрасываем нулевую гипотезу», если р-значение меньше, чем уровень значимости (альфа греческого алфавита), который обычно равен 0,05 или 0,01. Если нулевая гипотеза отбрасывается, то результат считается статистически значимым.
Уровень значимости альфа (). Уровнем значимости называется такое максимальное отношение количества нетипичных выборочных значений (выбросов) ко всему объему выборки, что нулевая гипотеза отклоняется[42].
Иными словами, уровень значимости показывает количество нетипичных наблюдений (выборочных значений), необходимых для признания ложности нулевой гипотезы. Обычно уровень значимости задается как 5 процентов (0,05), но в ситуациях, когда предъявляются особенно строгие требования к доказательству истинности альтернативной гипотезы, этот показатель может быть задан и на более низком уровне, например 1 процент (0,01). Значение , равное 5 процентам, означает, что для отбрасывания нулевой гипотезы как ложной достаточно наличия менее 5 процентов нетипичных данных от их общего количества (при условии истинности нулевой гипотезы). На практике это требование часто проверяется путем расчета р-значения. Если р-значение меньше, чем , то нулевая гипотеза признается ложной, а альтернативная гипотеза – истинной.
Ошибка первого рода, или ошибка . Эта ошибка возникает, когда нулевая гипотеза истинна, но тем не менее отбрасывается. В традиционной проверке гипотез нулевая гипотеза отбрасывается в том случае, если р-значение меньше, чем . Таким образом, вероятность ошибочного отбрасывания нулевой гипотезы как ложной равняется , почему эта ошибка и называется ошибкой .
Тест (статистический критерий) -квадрат. Статистический тест, отражающий соответствие данных выборки определенному типу распределения. Измерение этого критерия обычно показывает расхождение между фактическим распределением событий и ожидамым исходя из некоего заданного распределения. Наиболее часто используется для проверки соответствия фактического распределения заданному.
t-тест, или t-критерий Стьюдента. Метод статистической проверки гипотез путем проверки равенства средних значений двух выборок или проверки равенства среднего значения одной выборки некоторому заданному значению.
Во вставке «Основные статистические концепции и аналитические приемы» мы описали наиболее часто встречающиеся индуктивные статистические модели (мы уже говорили, что описательные и ориентированные на отчеты модели полезны, но не слишком интересны с точки зрения количественного анализа). Конечно, написано множество книг на эту тему, поэтому мы сделаем только краткий обзор.
Изменение модели
Нетрудно понять, что ни одну модель нельзя использовать неограниченно долго. Если мир в своих основных проявлениях изменился, то очень вероятно, что и модель больше не является его адекватным отражением. Мы уже говорили о том, насколько важны исходные допущения в моделях, а также о том, что проверять их нужно так, чтобы все заинтересованные лица знали, можно ли еще их применить (более подробно об этом поговорим в следующих главах). Достаточно сказать, что любая организация или частное лицо, использующие количественные модели, должны их регулярно пересматривать, чтобы убедиться, что они по-прежнему имеют экономический смысл и соответствуют данным. Если же это не так, то их следует модифицировать. Под словом «регулярно» мы имеем в виду ежегодно, если только нет причин делать это чаще.
В некоторых случаях модели следует пересматривать с еще меньшей периодичностью. Например, если на основании модели вы определяете стратегию торговли ценными бумагами, то придется пересматривать их очень часто. Владелец компании Renaissance Technologies Джеймс Симонс управляет одним из крупнейших в мире хеджевых фондов и занимается пересмотром моделей постоянно. Он приглашает на работу профессоров, хакеров, интересующихся статистикой инженеров и ученых. С момента основания в марте 1988 года материнская компания Симонса Medallion Fund, располагающая капиталом в 3,3 миллиарда долларов и продававшая все, начиная с фьючерсов на соевые бобы и до французских государственных облигаций, обеспечила ежегодную доходность в размере 35,6 процента. За полных одиннадцать лет, до декабря 1999 года, кумулятивная доходность Medallion Fund достигла ошеломляющей величины в 2478,6 процента. В 2008 году Симонс получил рекордную прибыль в сумме 2,5 миллиарда долларов, а чистая стоимость его компании достигла 8,7 миллиарда. Журнал Forbes поставил Симонса на восьмидесятое место в списке богатейших людей планеты и на двадцать девятое место в списке богатейших людей США. В 2006 году Financial Times назвала его самым умным миллиардером планеты»[43].
Симонс понимал, что выгодные возможности по своей природе невелики и непостоянны. На одном из семинаров он так высказался по этому поводу: «Эффективная теория рынка права в том, что в глобальном смысле рынок действительно эффективен. Тем не менее мы видим незначительные и краткосрочные аномалии. Мы делаем прогноз. Вскоре после этого мы еще раз оцениваем ситуацию и пересматриваем прогноз, а также инвестиционный портфель. Мы тратим на это целый день. Мы всегда считаем и пересчитываем, считаем и пересчитываем. Именно благодаря нашей активности мы и зарабатываем деньги». Чтобы сохранять позиции, Симонс еженедельно меняет свои модели.
Мир вокруг меняется, и именно способность приспосабливаться к этим изменениям сделала Симонса столь успешным бизнесменом. Он говорит: «Временной горизонт статистических прогнозов охватывает несколько лет – может быть, пять или десять. Вам приходится постоянно внедрять что-то новое, потому что рынок играет против нас. Если вы не совершенствуетесь, значит, вы становитесь хуже».
Пример аналитического мышления: модель ценообразования опционов Блэка и Шоулза
Фишер Блэк и Майрон Шоулз решили проблему ценообразования ценных бумаг[44], долгое время доставлявшую неудобства инвесторам. Блэк получил степень PhD по прикладной математике в Гарвардском университете, затем работал в консалтинговой фирме Arthur D. Little, Inc. Получив степень по экономике в Чикагском университете, Шоулз недавно приступил к работе на кафедре финансов в MIT.
Терминология по ценообразованию опционов в значительной степени специализированная. Опцион – это ценная бумага, дающая право, но не обязывающая купить или продать определенный вид активов на установленных условиях в течение указанного времени. Цена, уплачиваемая за актив в момент исполнения опциона, называется ценой исполнения, или страйк-ценой. Последний день, когда возможно исполнение опциона, называется сроком погашения. Простейший вид опциона, часто называемый колл-опционом, представляет собой право на покупку обычных акций компании. Премия за риск – это сумма, уплачиваемая инвестором за акции или другие виды активов сверх цены аналогичных безрисковых активов.
В целом чем выше цена акций, тем больше будет цена опциона. Если цена акций намного превышает цену исполнения опциона, то опцион наверняка будет исполнен. С другой стороны, если цена акций намного ниже цены исполнения опциона, владелец вряд ли будет его исполнять, и тогда его цена стремится к нулю. Если срок погашения опциона очень отдален во времени, то цена опциона приблизительно равна цене акций на текущий момент. Обычно цена опциона падает по мере приближения срока его погашения даже при том условии, что цена самих акций может и не изменяться. Но размер премии за риск предугадать трудно.
Определение и формулирование проблемы. Необходимое условие эффективного управления рисками, связанными с опционами и другими деривативами, это корректное установление цены на них. Предыдущие попытки разработать эффективную модель ценообразования на деривативы по целому ряду причин оказались неудачными. Возник вопрос о поиске нового метода – научно обоснованного и подкрепленного фактическими данными.
Изучение предыдущих поисков решения. Ценообразование на деривативы имеет долгую историю, начиная с 1900 года. В большинстве случаев речь шла об установлении цены на так называемые варранты (колл-опционы, выпускаемые компаниями и предоставляющие владельцу право выкупить у компании акции по определенной цене), причем методики расчета цены базировались на аналогичных формулах. Эти формулы, как правило, включали в себя один или более произвольно выбранный параметр, вследствие чего отличались неполнотой и страдали одним и тем же глубоким недостатком: отсутствием объективной методики расчета премии за риск. К сожалению, модели ценообразования на ценные бумаги в условиях равновесия рынка, которая была бы основана на адекватной методике расчета премии за риск, просто не существовало. Блэк и Шоулз впервые в истории попытались вывести формулу цены опциона исходя из условия равновесия рынка.
Моделирование (выбор переменных). Было установлено, что на цену опциона влияют пять переменных, в том числе:
• срок погашения
• спот-цена соответствующего актива (цена, по которой в данное время и в данном месте продаются реальный товар или ценные бумаги на условиях немедленной поставки)
• цена исполнения опциона
• ставка процента по безрисковым ценным бумагам
• волатильность доходности соответствующего актива (показатель, характеризующий изменчивость цены).
Отметим, что среди переменных отсутствовало отношение инвесторов к риску. Блэк и Шоулз внесли существенный вклад в развитие темы, по сути дела, показав, что нет необходимости учитывать премию за риск при установлении цены на опцион. Это не значит, что премия за риск вообще отсутствует, но ее величина уже учтена в текущей цене акций.
Сбор данных (измерения). Модель Блэка и Шоулза основана на некоторых технических допущениях и признании взаимосвязей между переменными. На этапе разработки модели никаких измерений не проводилось. Однако Блэк и Шоулз провели эмпирические тесты своей теоретической модели на большом массиве данных о колл-опционах и опубликовали результаты в статье The Pricing of Options and Corporate Liabilities[45].
Анализ данных. Блэк и Шоулз вывели дифференциальное уравнение с частными производными на основе некоторых технических допущений и теоретических предположений (с использованием методов дифференциального исчисления, а не статистики). Решением этого уравнения и стала формула Блэка и Шоулза, показывающая, каким образом можно рассчитать цену колл-опциона как функцию ставки процента по безрисковым ценным бумагам, вариации цен на базовый актив и параметров опциона (страйк-цены, срока погашения и рыночной цены базового актива). Формула основана на том предположении, что чем выше текущая цена акций и ее волатильность, а также ставка процента по безрисковым ценным бумагам и чем дольше период до погашения опциона, тем выше будет его цена. Аналогично этому рассчитывается цена и других деривативов.
Результаты и необходимые меры. Блэк и Шоулз пытались опубликовать результаты своих исследований, отправив их сначала в Journal of Political Economy, но редакция отклонила статью. Будучи уверенными в ценности своих изысканий, они послали работу в журнал Review of Economics and Statistics, где ее постигла та же участь. Большинству экспертов мысль о том, что можно математически рассчитать цену опциона, не учитывая при этом отношение инвесторов к риску, казалась неприемлемой и слишком неординарной. Изучив развернутые высказывания нескольких знаменитых экономистов по этому поводу, Блэк и Шоулз опять отправили статью в Journal of Political Economy, и на этот раз там ее приняли. Через некоторое время профессор MIT Роберт Мертон опубликовал статью, развивавшую некоторые математические аспекты модели Блэка и Шоулза.
Несмотря на проблемы с публикацией, основные выводы статьи получили широкое распространение во всем мире среди тысяч трейдеров и инвесторов, применявших их для рутинных расчетов цены опционов. Модель проста в расчетах и подробно раскрывает взаимосвязи между всеми входящими в нее переменными. Она обеспечивает полезную аппроксимацию, особенно при анализе направленности движения цен на опционы в критических точках. Даже если результаты нельзя считать абсолютно точными, их можно использовать в качестве первого приближения, а затем уточнить.
Модель Блэка и Шоулза стала незаменимой не только при прогнозировании цен на опционы, но и при решении многих других проблем экономики. Ее можно назвать самой успешной экономической концепцией во всей экономической теории. Мертон и Шоулз в 1997 году получили Нобелевскую премию по экономике за развитие новых методов определения цены деривативов. Хотя умерший в 1995 году Блэк не смог стать нобелевским лауреатом, но его заслуги были специально отмечены Академией наук Швеции.
Пример аналитического мышления: подозрительный муж
В 1973 году в разделе «Советы читателям» газеты Dear Abby появилась такая заметка[46]:
Dear Abby, в вашей колонке написано, что женщина вынашивает ребенка 266 дней. Кто вам это сказал? Я вынашивала своего ребенка десять месяцев и пять дней; в этом не может быть сомнений, поскольку я точно знаю, когда он был зачат. Мой муж – флотский офицер, и ребенок не мог быть зачат в другой день, поскольку я видела своего мужа всего лишь в течение часа и в следующий раз мы встретились уже после рождения ребенка. Я не пью и не гуляю с мужчинами, поэтому отцом ребенка может быть только мой муж. Пожалуйста, напечатайте опровержение этой заметки насчет 266 дней, иначе у меня будут большие неприятности.
Читательница из Сан-Диего
В ответной заметке газета постаралась ободрить читательницу, но о сроках беременности было написано немного.
Дорогая читательница! Средний период беременности действительно составляет 266 дней. В некоторых случаях дети рождаются недоношенными, а в некоторых – переношенными. В вашем случае ребенок родился переношенным.
Если бы газета уделила больше внимания количественной стороне вопроса, то в ответной заметке содержалось бы больше чисел. Последние всегда более убедительны, а в данном случае речь идет об относительно простой проблеме, связанной с теорией вероятности. Рассмотрим ее в рамках стандартного шестишагового подхода к проблеме количественного анализа.
Формулирование проблемы. В данном случае вопрос не в том, что ребенок родился переношенным, это и так понятно. Десять месяцев и пять дней – это примерно 310 дней, что существенно больше среднего срока беременности в 266 дней, о котором упоминала газета. Вопрос в том, насколько нетипичен этот случай (или какова его вероятность). Достаточно ли он нетипичен, чтобы заподозрить женщину во лжи?
Изучение предыдущих поисков решения. Мы можем с уверенностью предположить, что распределение продолжительности беременности является нормальным (то есть график распределения напоминает колокол). Вероятность того, что беременность будет продолжаться 310 дней, легко рассчитать с помощью Z-критерия (количество стандартных отклонений от среднего значения) для нормального распределения, что является азбукой статистических расчетов.
Моделирование (выбор переменных). Вероятность того, что беременность может длиться по крайней мере 310 дней.
Сбор данных (измерения). Имеющиеся данные позволяют сделать вывод о том, что среднее значение продолжительности беременности составляет 266 дней со стандартным отклонением 16 дней.
Анализ данных. Если средняя продолжительность беременности составляет 266 дней со стандартным отклонением 16 дней, то вероятность ее продолжительности в 10 месяцев и пять дней (300 и более дней) составляет 0,003 (если принять, что распределение нормальное).
Результаты и необходимые меры. Это значит, что три ребенка из тысячи рождаются более чем через 300 дней после зачатия. Казалось бы, вероятность очень невелика, но только не в случае больших чисел. В Америке ежегодно рождается около четырех миллионов детей. Соответственно, около двенадцати тысяч из них рождаются с таким большим опозданием. Видимо, Dear Abby стоило написать нечто вроде следующего: «Каждый год в США со столь большим запозданием рождаются примерно двенадцать тысяч детей, и одним из них стал ваш ребенок». Это успокоило бы не только читательницу, но и ее мужа.
В статистическом тестировании гипотез рассчитанное выше значение вероятности 0,003 называется р-значением, что равно вероятности получения данного значения критерия (в данном случае Z-значения, равного 2,75) в предположении, что нулевая гипотеза истинна. В данном случае нулевая гипотеза (Н0) звучит следующим образом: «Отцом ребенка является муж». В стандартной методике проверки гипотез нулевая гипотеза отбрасывается как ложная, если р-значение меньше уровня значимости. В данном случае р-значение равно 0,003, а это значит, что нулевая гипотеза будет отброшена, даже если уровень значимости составит 1 процент. Вообще говоря, мы должны были бы отбросить гипотезу об отцовстве мужа читательницы. Как можно объяснить этот ошибочный результат проверки гипотезы? Это типичный пример ошибки первого вида (или ошибки альфа), когда отклоняется нулевая гипотеза (Н0) при ее истинности. Этот пример показывает, что жизнь может не укладываться в рамки теории вероятности.
Глава 4
Результаты и необходимые меры
Оформление результатов анализа и представление их всем, кто в них заинтересован, это последний этап в нашей модели количественного анализа из трех этапов и шести шагов. Он крайне важен. Если вы блестяще выполнили предыдущие этапы, но провалили этот, то ничего хорошего в итоге не выйдет. Аналитики, не желающие трудиться впустую, оставаться в стороне от принимаемых решений и предпринимаемых действий, очень серьезно относятся к этому этапу, не жалея сил и времени для его успешного завершения. Аналитики, которых не заботят такие вещи (на наш взгляд, это плохие аналитики!), думают, будто результаты говорят сами за себя, и не уделяют большого внимания этому этапу.
Сложность еще и в том, что вопросы оформления и обнародования результатов не рассматриваются в курсе обучения будущих аналитиков. В результате даже те из них, кто искренне увлечен исследованиями и учебой в своей области, традиционно сосредоточены на аналитических методах и не слишком заботятся о том, как лучше преподнести результат. К счастью, такое положение дел постепенно меняется. Вот как видит задачу воспитания специалистов, которые могут эффективно представить результаты статистических исследований, заведующий кафедрой статистики Гарвардского университета Сяо Лименг (недавно назначенный деканом Гарвардской школы науки и искусств):
В последние годы возобладал более широкий взгляд на подготовку статистиков в Гарвардском университете. Упор нужно перенести с подготовки нескольких блестящих студентов к получению степени PhD по количественному анализу на обучение всех первокурсников основам статистических исследований как неотъемлемой составляющей критического образа мышления в гуманитарных науках. Как ни странно, мысль о том, что можно стать экспертом по вину, не имея представления о том, как это вино производится, позволила нам подготовить множество будущих виноделов вместо того чтобы пытаться самостоятельно вырастить урожай винограда[47].
Исходя из этой мысли, Менг и его коллеги разработали для студентов младших курсов учебный цикл под названием «Статистика в реальной жизни: ваш шанс на счастье (или несчастье)». В нем через призму статистики рассматриваются темы «Романы», «Вино и шоколад», «Финансы», «Медицина» (включая статистические аспекты клинических испытаний виагры), «Фондовый рынок» и т. п. Менг старается сделать статистику «не просто вкусным блюдом, а деликатесом»[48].
Материал этой главы пригодится и аналитикам, и адресатам их труда (или, в соответствии с аналогией Менга, и виноделам, и ценителям вина). Аналитики смогут сделать результаты своих исследований более интересными и привлекающими внимание, что позволит работать эффективнее. Те же, кто пользуется результатами их исследований, например менеджеры, давшие добро на аналитический проект, часто настаивают на том, чтобы эти результаты были представлены в интересной и современной форме. Если аналитики заставляют слушателей скучать или путаться в специальной терминологии, то, наверно, это их вина. Заказчики должны вместе с аналитиками работать над тем, чтобы сделать результаты анализа понятными и легкими в использовании. И конечно, именно они обычно принимают решения и принимают меры, основываясь на результатах анализа.
Суть этого этапа состоит в том, чтобы описать проблему и пути ее решения, разработанную модель, необходимые данные и взаимосвязи между переменными. Если эти связи выявлены, то их нужно интерпретировать применительно к поставленной проблеме. Чем яснее представлены результаты, тем больше вероятность того, что они приведут к обоснованным решениям и действиям – в конечном счете именно это первоочередная цель аналитического проекта.
Сообщая результаты, обязательно опишите процесс исследования, выводы, дайте рекомендации по поводу решения исходной проблемы, хотя, возможно, и не в таком порядке. Как правило, лучше начинать с описания результатов и рекомендаций. Существует два отличных способа демонстрации результатов: можно организовать совещание, пригласив всех заинтересованных и проведя для них сессию вопросов и ответов, а можно подготовить формальный отчет о результатах проекта. Если исходная проблема и результаты анализа имеют некоторую академическую ценность, можно написать статью и опубликовать ее в журнале соответствующего профиля.
Как мы уже говорили в главе 2, оформление данных в виде черно-белых таблиц – это прекрасный способ заставить людей проигнорировать их, даже если это результаты совсем простого описательного анализа. Результаты легко представить в простой графической форме (гистограммы, диаграммы, графики), а можно выбрать более затейливый вариант: например, интерактивный дисплей. Кое-кто предпочитает простую табличную форму более наглядным графическим способам представления информации, но таких людей не так уж много. Если можно использовать цвет и анимацию, чтобы оживить презентацию и сделать ее более доходчивой, – что ж, тем лучше!
О чем говорят данные
Наиболее успешными аналитиками становятся те, кто способен понять, о чем рассказывают данные. В главе 2 мы рассматривали разные виды аналитических проектов. Но независимо от их вида и процедур, с помощью которых они выполняются, основные составляющие всегда одинаковы. Это логичный сюжет, в основе которого лежит бизнес-проблема или цель компании. Например, рассказ о результатах аналитического проекта, посвященного исследованию лояльности потребителей, должен начинаться так: «Как вам известно, в течение долгого времени мы собирались выяснить, кто же наши самые лояльные потребители и как сделать их еще более лояльными. Сейчас мы можем ответить на эти вопросы».
Хорошие истории надо рассказывать понятным для слушателей языком. Если ваша аудитория состоит из аналитиков или высококвалифицированных технических специалистов, тогда вполне допустимо употреблять статистические и математические термины и даже некоторые формулы. Но значительно чаще слушатели не имеют математической подготовки, поэтому надо выбирать понятную им терминологию, связанную со знакомыми концепциями и задачами. Применительно к бизнесу это понятия «прибыль», «сбережения» и «доходность инвестиций».
Хорошие истории завершаются выводами о том, какие действия следует предпринять, а также описанием их возможных последствий. Конечно, прежде чем обсуждать различные сценарии действий, нужно проконсультироваться с ключевыми пользователями. Никому не хочется слышать от количественного аналитика что-то вроде «Вы должны сделать это и еще вот это».
Руководитель аналитической группы Дэвид Шмитт из глобальной сети отелей IHG (Intercontinental Hotels Group) считает очень важным умение слушать, что говорят данные. О некоторых особенностях действительно эффективного рассказа о результатах аналитических проектов он написал в своем блоге[49]:
Итак, что же отличает по-настоящему увлекательную историю? При каждом удобном случае я обращаюсь к экспертам. В наше время лучшие рассказчики работают на студии мультипликационных фильмов Pixar. Именно они поведали нам такие замечательные истории, как «В поисках Немо», «Суперсемейка» и, конечно, «История игрушек». Художник-мультипликатор Эмма Коутс опубликовала в Твиттере список из двадцати двух правил успешного показа истории. Не все из них можно применить к аналитике, но мы выбрали три наиболее близкие к нашей теме.
«Надо знать, чем закончится история, даже если не дошел еще и до середины. Это правда. Закончить историю труднее всего, и развязка требует больше всего сил и времени». Результаты анализа – это единственная причина, по которой вы беретесь рассказывать историю. Как вы считаете, что должны знать зрители, выслушав ваш рассказ? Еще более важно: что они должны предпринять? Пусть эти вопросы станут своеобразным тестом для каждой части вашей истории, и помните о том, чем вы собираетесь ее завершить.
«Изложение истории на бумаге помогает сохранить ее». Если история хранится лишь в вашей голове, она может быть прекрасной идеей, но никто больше о ней не узнает. Креативная история зарождается в вашей голове, но будучи изложена на бумаге, способна повести вас в такие места, о которых вы даже не догадывались. Я могу почти двинуться умом, так и сяк крутя историю в голове, но стоит заставить себя записать ее (не имеет значения: на бумаге, в Word или в PowerPoint), и творческие идеи появляются одна за другой.
«В чем суть вашей истории? Сделайте короткую выжимку из нее. Если вы это знаете, остальное приложится». Вы должны уметь уложить вашу историю в три-пять предложений. Если сделать это удачно, то разработка деталей становится гораздо более простой задачей.
Очень полезно определить структуру презентации с теми, для кого предназначены результаты анализа. Это поможет четко представить, чего они ожидают от аналитика и чего он ожидает от людей, принимающих решение. Например, Джордж Румелиотис возглавляет группу обработки данных в компании Intuit. Он и его сотрудники анализируют и проектируют потребительские свойства продуктов, основываясь на большом объеме интернет-информации, собираемой компанией. Аналитические проекты, выполняемые его группой, предназначены для внутренних пользователей, и каждый раз он разрабатывает методологию исследования и демонстрации результатов. Большинство ее этапов ориентировано на бизнес-проблемы компании.
1. Мое понимание бизнес-проблемы.
2. Как я собираюсь оценивать ее влияние на бизнес.
3. Какие данные можно собрать.
4. Первоначальная гипотеза относительно решения.
5. Решение.
6. Влияние решения на бизнес.
Используя эту методологию, специалисты по базам данных могут создавать вики-сайты[50], где отражаются результаты всех шагов и этапов. Те, кому необходимы их результаты, имеют возможность просматривать вики-сайт и комментировать действия специалистов. Румелиотис говорит, что даже притом что это сайт для ознакомления сотрудников с результатами исследований, все равно он побуждает аналитиков и пользователей обмениваться информацией напрямую.
О чем лучше умолчать
Аналитики хорошо знакомы со статистической терминологией (описание статистических методов, определение коэффициентов регрессии, расчет значения R2 и т. п.) и зачастую полагают, что их слушатели разбираются во всем этом не хуже. Однако это большая ошибка. Большинство не поймет, о чем идет речь в насыщенном специальной терминологией докладе или презентации. Как сказал один из аналитиков компании IHG, «никому не интересны ваши R-квадраты».
Часто аналитики стараются изложить результаты в виде последовательности процедур и операций, которые они проделали для их получения: «Сначала мы исключили выбросы из массива данных, затем сделали логарифмическое преобразование. Выявился высокий уровень автокорреляции, поэтому мы ввели переменную с лагом в один год», – вы уже представили себе, как это выглядит? Повторим еще раз: аудиторию, как правило, не интересует, как вы получили те или иные результаты, поскольку им важны только сами результаты. Полезно привести подобную информацию в приложении к докладу или презентации, но не стоит включать ее в ваш рассказ. Лучше начните непосредственно с того, что хотят знать ваши слушатели.
Примеры оформления результатов
То, как именно вы оформите и преподнесете результаты количественного анализа, может и убедить слушателей, и полностью подорвать доверие к вашим словам. Это давно известный факт. Рассмотрим несколько примеров, иллюстрирующих обе ситуации.
Флоренс Найтингейл: удачная форма результатов
Флоренс Найтингейл широко известна как родоначальница профессии медсестры и реформатор в области санитарии и методов ухода за ранеными в госпиталях. Однако помимо этого она еще известна тем, что одна из первых применила количественные методы. Когда в октябре 1854 года, в период Крымской войны, ее и еще 38 медсестер направили в Британский военный госпиталь в Турции, она ужаснулась сложившейся там ситуацией с лечением раненых. Большинство случаев летального исхода в госпиталях было вызвано эпидемиями, эндемическими заболеваниями и инфекционными болезнями, а вовсе не ранами, полученными в бою. В феврале 1855 года смертность в госпитале составила 43 процента. Найтингейл считала, что ситуацию нужно срочно исправлять и что для этой цели может пригодиться статистика. Она организовала сбор и обработку данных, ведение подробных ежедневных записей о назначениях врачей, характере ранений, заболеваемости, лечении и причинах смертей.
Однако самым крупным нововведением Найтингейл стали методы оформления результатов. С раннего возраста она интересовалась цифрами и любила таблицы. Она прекрасно понимала важность подкрепленных цифрами аргументов, но при этом отдавала себе отчет в том, что далеко не все разделяют ее увлечение таблицами (особенно если учесть, что в то время они не были столь популярны, как теперь!). Обычный человек, скорее всего, просто не будет читать отчет, перегруженный таблицами, а значит, ее аргументы окажутся бесполезными. Поскольку она хотела во что бы то ни стало донести до читателей свои статистические выкладки, то разработала линейку диаграмм, наглядно показывающих, как антисанитарные условия становятся причиной неоправданных смертей в госпитале. Они лучше всяких таблиц свидетельствовали о необходимости реформ (рис. 4.1).
Рис. 4.1. Диаграммы «Причины смертности раненых в Восточной армии» Флоренс Найтингейл
Светло-серые, темно-серые и черные секторы имеют общую вершину, находящуюся в центре диаграммы.
Светло-серые секторы, площадь которых рассчитывается от вершины в центре диаграммы, представляют собой уровень смертности от болезней, поддающихся профилактике, или инфекционных болезней, течение которых можно облегчить;
темно-серые секторы характеризуют уровень смертности от ранений, а черные – от прочих причин.
Черная линия, пересекающая темно-серый сектор в ноябре 1854 г., обозначает границу смертности от прочих причин в течение месяца.
В октябре 1854 г. и апреле 1855 г. черный сектор совпадает с темно-серым, в январе и феврале 1856 г. светло-серый сектор совпадает с черным.
Площадь секторов можно сравнить, наложив их друг на друга по ограничивающим серым линиям.
Сейчас это считается само собой разумеющимся, но во времена Флоренс это был относительно новый способ демонстрации данных. Ее диаграммы были разновидностью круговых диаграмм, состоявших из нескольких радиальных секторов. Найтингейл сделала их цветными, чтобы наглядно показать динамику смертности от тех или иных причин по месяцам. Эти показатели, равно как и диаграммы, оказались весьма убедительными.
Найтингейл периодически докладывала в Лондон о результатах своих изысканий и неуклонно настаивала на проведении реформ. Она широко использовала свои новаторские диаграммы, чтобы проиллюстрировать членам парламента реальное состояние службы медицинской помощи в Крыму; последние вряд ли прочли и поняли бы длинные доклады, изобилующие цифровой информацией. Людей шокировали сведения о том, что в госпиталях раненых не столько лечили, сколько доводили до смерти. В итоге уровень смертности начал постепенно снижаться, о чем говорят систематически собиравшиеся Найтингейл данные. После завершения Крымской войны она вернулась в Англию в июне 1856 года и оказалась в центре внимания – публика считала ее героиней.
Найтингейл первой из женщин стала членом Королевского статистического общества в 1859 году и почетным членом Американской ассоциации статистиков в 1874-м. Знаменитый статистик и основатель первой в мире кафедры статистики Карл Пирсон назвал Найтингейл «предвестницей» будущего развития прикладной статистики[51].
Грегор Мендель: неудачный пример преподнесения результатов
Гораздо менее удачный пример преподнесения итогов анализа (при этом напоминающий о важности этого этапа) можно найти в биографии Грегора Менделя[52]. Родоначальник учения о наследственности Мендель за несколько месяцев до смерти в 1884 году сказал: «Научные исследования приносили мне огромную радость и удовлетворение, и я совершенно уверен в том, что в скором времени весь мир признает результаты моего труда». Мир действительно признал работы Менделя, но на это потребовалось несколько десятилетий. Возможно, если бы великий генетик лучше умел рассказывать о результатах своих исследований, он добился бы признания намного раньше: возможно, даже и при жизни.
Монах Мендель стал одним из первопроходцев в генетике. На тот момент в биологии господствовала теория о том, что наследственные признаки становятся все менее выраженными у каждого последующего поколения. Исследование Менделя, посвященное наследованию тех или иных отличительных признаков, показало, что этот процесс подчиняется определенным законам (позже получившим его имя). Работы Менделя получили заслуженное признание лишь на рубеже XX века, когда те же результаты были получены независимыми исследователями и сформировалась генетика как наука.
Мендель вывел математические принципы наследования отличительных признаков путем прекрасно разработанного тщательного эксперимента, который он проводил на полях монастыря. Для исследований он выбрал обычный горох, поскольку он занимал мало места, был дешев и давал два урожая в год. Мендель выборочно проводил перекрестное опыление растений, обладавших определенными признаками, и наблюдал их проявление у последующих поколений.
В период 1856–1863 годов исследователь терпеливо проводил опыты по перекрестному опылению, закрывая опыленные растения колпачками, чтобы предотвратить случайное опыление насекомыми. После восьми лет упорного труда Мендель вырастил 12 980 кустов гороха от исходных 225 кустов. Он собрал обширную базу данных об их наследственных признаках, чтобы выявить закономерность их наследования. Он обнаружил доминантные и рецессивные наследственные признаки, которые позже были названы генами.
К сожалению, обнародование результатов исследований оказалось далеко не столь эффективным, как сами исследования. Мендель опубликовал результаты своих экспериментов в малоизвестном моравском научном журнале. Экземпляры журналов были разосланы 130 европейским и американским научным обществам и авторитетным исследователям. Тем не менее большого влияния на научную среду того времени это не оказало, и работа Менделя цитировалась всего лишь три раза в последующие 35 лет. Результаты сложного и скрупулезного труда Менделя не были поняты даже современными ему признанными авторитетами в этой области науки. Если бы Мендель был не монахом, а ученым, то, возможно, добился бы больших успехов в продвижении своего проекта и опубликовал бы работу за рубежом. Он пытался установить контакты с зарубежными учеными, отправил свою статью Дарвину и некоторым другим научным светилам. История сохранила имена примерно дюжины из них. Говорят, что Дарвин даже не разрезал страницы в присланном журнале, чтобы прочесть статью Менделя.
Незадолго до смерти Мендель говорил: «Мое время еще придет», – но трудно сказать с уверенностью, верил ли он сам в эти слова. Он умер, так и не узнав, что его открытия изменят последующую историю человечества.
Хотя работа Менделя была столь же блестящей, сколь и беспрецедентной, ученым-биологам потребовалось более тридцати лет, чтобы оценить ее значимость. Лишь в начале XX века его идеи получили распространение, и биологи признали его приоритет в изучении наследственности. Какой отсюда следует вывод? Если вы не хотите, чтобы ваши выдающиеся исследования постигло столь долгое забвение, вы должны уделить достаточно внимания их презентации.
Современные способы представить результаты
В наше время существует множество способов оформления и обнародования результатов анализа, неизвестных во времена Найтингейл и Менделя. Если вы ограничиваетесь распечаткой или выведением на монитор таблиц и графиков, то вы явно не используете весь арсенал средств, имеющихся в вашем распоряжении. Конечно, выбор подходящего инструментария зависит от обстоятельств, особенностей аудитории, и вряд ли вы станете использовать изображения сексапильных девушек в презентации только потому, что они сексапильны.
Тем не менее визуальная аналитика (известная также как визуализация данных) в последние годы развивается очень быстрыми темпами. Если вы используете только секторальные диаграммы или пиктограммы, вы, видимо, лишь поверхностно знакомы с возможностями визуализации данных. Во вставке «Цели и виды визуализации», возможно, описаны не все возможные варианты ее использования, но по крайней мере это наиболее полный список способов визуализации из тех, что мы знаем[53]. Выбор наиболее подходящего вида графиков или диаграмм для решения конкретной задачи может оказаться делом трудным, но прикладное программное обеспечение для визуальной аналитики может отчасти взять решение этой задачи на себя с учетом выбора переменных для анализа. Например, программа SAS Visual Analytics уже это делает: в нее вмонтирована функция под названием Autochart. Если данные содержат, например, «Одну категорию даты/времени и любое количество других категорий и показателей», программа автоматически генерирует гистограмму[54].
Цели и виды визуализацииЕСЛИ ВЫ ХОТИТЕ
Увидеть взаимосвязи между координатами опорных точек:
• точечная диаграмма показывает взаимосвязь между двумя переменными в двумерной системе координат;
• матричная диаграмма показывает взаимосвязи иерархических переменных;
• карта показывает значения переменных на двумерной карте разными цветами;
• сетевая диаграмма показывает наличие и прочность взаимосвязей между объектами.
Сравнить набор значений или частот (как правило, для одной переменной):
• столбиковая диаграмма, где высота столбцов отражает значение показателя;
• гистограмма – разновидность столбиковой диаграммы, в которой высота столбцов отражает частоту попадания переменной в определенный интервал;
• пузырьковая диаграмма показывает набор количественных переменных в виде кругов, площади которых соответствуют значениям переменных.
Показать динамику одного показателя относительно другого (обычно времени):
• линейчатый график показывает график одной переменной или нескольких переменных со стандартизированными значениями на плоскости;
• график с наложением – линейчатый график с прямоугольниками различной длины, указывающими на изменения в значениях переменных; может также указывать на изменения различных категорий данных с помощью различного цвета.
Видеть структуру целого, оценить соотношения различных его частей:
• круговая диаграмма показывает распределение значений одной переменной в виде секторов круга;
• карта дерева – технология визуализации, при которой значения данных показаны в иерархической подчиненности, например: Весь мир – Континенты – Страны – Население каждой страны.
Наложить данные на географическую карту:
• накладывание обобщенных данных на географические карты при помощи цветов, пузырьков или выносов, отражающих значения соответствующих переменных.
Анализировать частоту использования слов в тексте:
• облако тегов – визуальное представление частоты употребления тех или иных слов в тексте, когда более часто встречающиеся слова выделяются более крупным шрифтом;
• сеть фраз показывает частоту комбинаций слов, используемых вместе, когда более употребительные словосочетания показаны более крупным шрифтом.
Способы визуализации, перечисленные в этом списке, статичные. Но в последнее время все чаще применяются их динамичные и интерактивные разновидности. Шведский профессор Ханс Рослинг популяризирует их в своем выпуске видеоконференции TED Talk, где методы визуализации применяются для отражения изменения показателей здоровья развитых и развивающихся стран с течением времени[55]. Рослинг создал сайт Gapminder (www.gapminder.org), где приведено множество аналогичных примеров. Скорее всего, популярность использования интерактивной аналитики для отражения динамики показателей в течение определенного периода будет только расти; тем не менее она подходит далеко не для всех типов данных и далеко не всегда нужна.
Иногда можно найти более эффектные способы визуализации данных, чем графика. Например, маркетолог и специалист по стратегиям Винс Барабба, работающий с несколькими крупными компаниями (в том числе с General Motors, Xerox и Kodak – проблемы у них возникли не из-за него!), весьма креативно подошел к вопросу о том, как лучше всего презентовать результаты маркетинговых исследований. В частности, он знал, что топ-менеджеры General Motors используют трехмерные модели автомобилей для презентаций. В какой-то момент, получив особо важные результаты маркетинговых исследований, он решил разработать их трехмерную графическую модель, по которой топ-менеджеры могли совершить виртуальное путешествие. Возможность своими глазами увидеть пики рыночного спроса и виртуально «потрогать» их сделала данные очень выразительными.
В компании IHG работают несколько групп аналитиков. Дэвид Шмитт возглавляет одну из них – в отделе стратегии и планирования. Ее задачи – оперативно информировать топ-менеджеров о том, каковы текущие дела компании. Иначе говоря, группа ориентирована на оформление всевозможных отчетов. Ее сотрудникам важно привлекать как можно больше внимания к полученным результатам и стимулировать к принятию решений на их основе. Для этого в их распоряжении целый ряд инструментов, в зависимости от особенностей аудитории. Один из них – создание «музыкальных клипов»: пятиминутных видеороликов, обосновывающих полученные результаты с помощью картинок, аудиоклипов и видео. За показом такого клипа, как правило, идет устный рассказ с необходимой дополнительной информацией.
Например, не так давно группа Шмитта создала видеоклип с описанием того, какие предпосылки определяют прогнозы покупательского спроса летом. Видео получило название «Путешествие по дорогам лета». В нем автомобиль ехал по дороге мимо дорожных знаков «Внимание! Впереди пик спроса!» и билбордов со статистическими данными[56]. Целью создания видеоклипа было привлечь внимание к основным факторам операционной деятельности в приближающемся летнем сезоне и их особенностям в разных регионах страны. Как отмечает Шмитт, «данные не самоцель и цифры не самоцель, главное – это идея, которая за ними стоит». Если основную идею удалось довести до сознания слушателей, то Шмитт может переключиться на более традиционные формы презентации. Но он надеется, что благодаря видеоклипу аудитория уже сформировала мнение о теме доклада.
Еще один способ донести до аудитории результаты анализа и объяснить суть аналитических моделей – это ролевые и имитационные игры. Их часто применяют для иллюстрации взаимодействия переменных в сложных моделях. Например, «Пивная игра» – симуляция, основанная на модели сбыта продукции пивоваренной компании, – была разработана в MIT в 1960-х годах. Тысячи компаний и студентов на ее примере учились организовывать сбытовую сеть и постигали такие принципы, как «эффект хлыста»: колебание объема заказов по причине неполной информации об участниках сбытовой цепочки. Другие компании приступают к разработке собственных обучающих игр для решения конкретных задач. Занимающаяся грузовыми перевозками компания Schneider National разработала имитационную игру, чтобы убедить персонал в важности аналитического мышления в управлении грузовиками и трейлерами. Цель игры – минимизировать простаивание машин и переменные издержки при заданном объеме выручки. Решения о том, принимать ли груз или допустить холостой пробег грузовика, участники принимают, имея в распоряжении вспомогательную аналитику. Шнейдер использует игру, чтобы сообщить сотрудникам, каковы текущие результаты деятельности, и поменять психологию «исполнителей заказов» на позицию «получателей прибыли». Некоторые клиенты компании Шнейдера тоже участвовали в этой игре.
Компании используют современные технологии, чтобы дать возможность тем, кто принимает решения, непосредственно работать с данными. Например, Deloitte Consulting создала для iPad виртуальную симуляцию для сотрудников аэропорта: выполняемых ими рабочих операций и отчетов. В ней используется программа Google-карты, в которой можно отметить те аэропорты, где может совершить посадку определенный самолет. Разным цветом самолетов показывается неэффективность (красный) или эффективность (зеленый) работы аэропорта. Щелкнув по символу того или иного аэропорта на карте, можно получить финансовые и операционные данные о результатах его работы. Интерфейс содержит пиктограммы, означающие численность персонала, уровень обслуживания пассажиров, финансовые результаты, операционные проблемы и пр. Это приложение – лишь один пример того, чего могут добиться современные интерактивные и удобные технологии.
Чего не найдешь в отчете
Презентации и доклады, конечно, не единственно возможные способы рассказать о результатах аналитических проектов. Чем глубже аналитики вовлечены в принятие мер по результатам анализа, тем более успешным будет проект. Например, все чаще компании «встраивают» аналитику в среду автоматизированного принятия решений[57]. В страховании, в финансовой сфере, а также в отраслях, где цены на услуги зависят от клиентов (например, в отельном бизнесе и авиаперевозках), автоматизированные процедуры принятия решений на основе аналитики получили широкое распространение. И действительно, каждый знает, как сложно заставить сотрудника страховой компании или банка заняться наконец вашей заявкой на страховку или кредит. В таких условиях аналитика будет распространяться все больше и больше, поскольку у клиента практически нет выбора (или он очень невелик; немногочисленные исключения можно оставить сотрудникам). Если вы количественный аналитик или ответственный за принятие важного решения менеджер и ваша задача – разработать и внедрить такого рода системы, то это будет намного эффективнее, чем просто подготовить отчет.
В отрасли онлайнового поиска информации существуют колоссальные базы данных, измеряемые многими петабайтами. Новая информация поступает в таких объемах и с такой скоростью, что человеческий мозг не способен справиться с ней. В таких условиях специалисты по базам данных (обычно количественные аналитики с навыками в области IT выше средних) часто являются сотрудниками отделов исследований и разработок. Их задача состоит в разработке новых потребительских свойств продуктов и опытных образцов, а отнюдь не в создании бумажных отчетов или презентаций.
Например, группа по работе с базой данных в социальной сети для профессионалов LinkedIn входит в состав отдела по разработке новых продуктов, создавшего целый ряд новых свойств и функций, которые основаны на взаимосвязях между социальными сетями и работой. Это в числе прочего «Люди, которых вы можете знать», «Рабочие места, которые могут вас заинтересовать», «Мы ищем таланты», интерактивная визуальная презентация профессионального сообщества InMaps «Группы, которые могут вас заинтересовать». Некоторые из этих функций (в частности, «Люди, которых вы можете знать») в огромной степени повлияли на рост и стабильность клиентской базы LinkedIn.
Если вы или количественные аналитики в вашей организации занимаетесь преимущественно внутренними процессами и проблемами, то и в этом случае результатом анализа вовсе не обязательно будет лишь отчет или презентация. Ведь конечная цель в том, чтобы повысить эффективность внутреннего бизнес-процесса или управленческого решения. А это значит, что вы или ваш количественный аналитик должны принимать самое активное участие не только в обосновании, но и практической реализации результатов анализа.
Том провел небольшое исследование того, каким образом несколько лет назад компании усовершенствовали 57 управленческих решений, и выяснил, что именно аналитика чаще всего упоминалась в качестве фактора, позволившего добиться успеха[58]. На втором месте по частоте упоминаний оказались «изменения в корпоративной культуре и лидерстве», на третьем – «более качественные данные» и на четвертом «реорганизация бизнес-процессов». В среднем представители опрошенных компаний называли пять и более различных факторов, благодаря которым удалось добиться обоснованных решений. Это означает, что аналитикам приходится быть больше чем аналитиками. Они становятся консультантами по преобразованиям в бизнесе.
Когда результаты не влекут за собой действий
Мы ожидаем, что по результатам количественного анализа будут приняты какие-то меры, но иногда даже отличные результаты анализа не влекут за собой соответствующих действий (хотя знать их все равно полезно). Например, Джин Хо как-то принимал участие в исследовании преимуществ первого шага в игре го. Это одна из старейших игр-стратегий в мире. В игре простые элементы (черные линии, черные и белые чечевицеобразные фишки, или «камни») и столь же простые правила. Но, несмотря на очевидную простоту, в игре масса тонкостей, которые тысячелетиями захватывают игроков[59].
В Азии, особенно в Корее, Японии и Китае, десятки миллионов людей увлекаются игрой го. Почти тысяча профессиональных игроков зарабатывают себе на жизнь, участвуя во всевозможных турнирах с призовыми фондами в миллионы долларов.
В начале игры доска пуста. Один игрок выбирает черные камни, а второй – белые. Черные и белые камни ставятся на доску попеременно, но у черных есть право первого хода. Это дает определенное преимущество, но никому прежде не приходило в голову попытаться оценить, насколько оно велико. С 1974 года в профессиональных состязаниях белым в начале игры дается фора в 5,5 очка в качестве компенсации за право первого хода черных. Эта фора называется коми.
Чтобы понять, насколько компенсация адекватна, Джин Хо проанализировал данные о 577 профессиональных матчах, проводившихся в Корее. Результаты анализа позволяют предположить, что в действительности этой компенсации мало. Однако в процессе анализа возникла одна проблема. Данные позволяли утверждать, что право первого хода становится преимуществом только для опытного игрока, способного им воспользоваться. Теоретически на этом основании было бы вполне оправданно диверсифицировать размер коми, то есть для тех игроков, у которых фора, как правило, не становилась решающим фактором выигрыша, оставить ее размер 5,5, а для всех остальных увеличить. Но в профессиональных турнирах на это вряд ли пойдут. Таким образом, оригинальный анализ (позволивший Джин Хо и его коллеге опубликовать прекрасную статью в академическом журнале) не привел ни к каким конкретным действиям[60].
Подведем итоги
Итак, мы описали каждый из шести шагов и трех этапов модели количественного анализа. Если вам удастся на практике осуществить все действия, описанные в главах 2, 3 и 4, то это означает, что вам по плечу практически любая аналитическая проблема. Даже если вы не слишком хорошо разбираетесь в количественных методах, вы вполне сможете провести большинство рекомендуемых процедур. По сути, продвинутый математический или статистический анализ ведется лишь на одном-двух шагах анализа. К тому же большую часть тяжелой работы за вас сделают компьютеры.
Ключ к успеху аналитического проекта лежит в продуманности его первого и последнего шага. Если проблема определена и сформулирована правильно, то промежуточные шаги, как правило, реализуются без особых проблем. Если вам не удастся эффективно довести до общего сведения результаты, то и действий по итогам анализа никаких не последует. Вот почему последний этап имеет такое большое значение.
Пример аналитического мышления: практический способ предсказать развод
Молодожены пришли к блестящему математику, славившемуся умением предсказывать, узнать, ждет ли молодоженов долгая и счастливая семейная жизнь или они в скором времени разведутся. Их попросили сесть друг напротив друга в пустой комнате и поговорить на какую-нибудь острую тему пятнадцать минут. Проанализировав запись этой беседы, математик предсказал: «Вы, ребята, с тем же успехом могли бы развестись прямо сейчас». Было прекрасно известно, что его прогнозы на удивление точны. Математиком, разработавшим модель прогнозирования будущего новобрачных, был профессор Оксфордского университета Джеймс Мюррей. Он проводил это исследование совместно с профессором и психологом Вашингтонского университета Джоном Готтманом. Тот разрабатывал гипотезу и собирал данные: записанные на видео и закодированные наблюдения за поведением многих семейных пар. Кроме того, он постоянно интересовался вопросом: что же делает брак удачным? Мюррей занимался разработкой нелинейных моделей. После завершения исследования Готтману неплохо удавалось объяснять результаты новобрачным из разных уголков мира.
Рассмотрим подход Готтмана и Мюррея к решению этой проблемы в соответствии с нашей общей трехэтапной схемой количественного анализа.
Определение и формулирование проблемы. Рост количества разводов в развитых странах, включая США, явление широко известное и плохо изученное. Но, не имея теоретического обоснования процессов, приводящих либо к устойчивому браку, либо к его скорому распаду, трудно проанализировать и оценить перспективы новых семейных пар. Если получится разработать математическую модель прочного брака, ее можно будет положить в основу научной теории семейных отношений. Мюррей и Готтман сделали попытку разработать формулу семейного счастья.
Обзор предшествующих исследований. Попытки рассчитать вероятность счастливого брака предпринимались неоднократно, но прогнозирование разводов не отличалось ни точностью, ни научностью. Мюррей и Готтман пошли дальше остальных исследователей. Они объединили усилия, чтобы создать математическую модель, способную с поразительной точностью предсказать, разведутся молодожены или нет. Готтман исследовал семейные отношения и случаи разводов в течение многих лет, поэтому предмет был ему хорошо знаком.
Моделирование (выбор переменных). Мюррей и Готтман заметили, что разговор на острую тему отражал скрытые проблемы в отношениях семейной пары; приводимые аргументы, смех, подшучивание и проявления любви во время беседы характеризовали эмоциональную связь между собеседниками. В частности, исследователи обращали особое внимание на проявления таких эмоций, как юмор, согласие, радость, любовь, интерес, гнев, доминирование, печаль, жалобы, агрессия, отвращение, пренебрежение и презрение.
Сбор данных (измерения). Исследователи пригласили семейные пары поучаствовать в лабораторном эксперименте. Семьсот недавно поженившихся пар согласились. Их просили сесть друг напротив друга и обсудить заведомо острую тему, например секс, деньги или отношения с родственниками, а затем оставляли наедине. Заранее зная, что по этому вопросу у супругов нет согласия, им предлагали беседовать не менее пятнадцати минут, причем их беседа записывалась на видео. Наблюдатели просматривали запись и выставляли супругам положительные или отрицательные баллы за каждое высказывание. Пары, проявлявшие любовь, чувство юмора, счастье, получали максимум баллов, за презрение и агрессию начислялись самые низкие баллы. Презрение расценивалось как более разрушительное чувство по сравнению даже с отвращением, гневом или печалью.
Проявляемые эмоции расценивались следующим образом:
Анализ данных. Задача Мюррея и Готтмана состояла в том, чтобы выявить модели поведения, приводящие к разводу или, напротив, к счастливой семейной жизни. Сначала полученные каждым супругом баллы наносились на график так, чтобы через них можно было провести линию. Точка, в которой обе линии пересекались, указывала на успех или провал брака. Если муж или жена постоянно получали отрицательные баллы, то становились кандидатами на развод. Как выяснилось, ключевое значение имело соотношение количества положительных и отрицательных эмоций, проявленных во время беседы. Нижнее значение этого отношения равно 5:1. Если оно падает ниже, то пара, скорее всего, разведется. Результаты ввели в математическую модель, используя разностные уравнения, отражавшие личностные особенности супругов и на этой основе предсказывавшие успешность брака.
Используя итоговые показатели, исследователи выделили пять типов супружеских пар.
Поддерживающая семья. Спокойные, глубокие отношения; супруги всячески поддерживают друг друга, сохраняют дружеские чувства. Такие пары предпочитают обмениваться опытом, а не полагаться каждый на себя.
Дипломатичная семья. Делают все возможное, чтобы избежать конфронтации и конфликта. Положительно реагируют друг на друга.
Нестабильная семья. Супруги обычно страстно и романтично относятся друг к другу, но очень быстро втягиваются в ссору. Такая семья представляет собой смесь стабильности и нестабильности, но в целом чаще оказываются несчастливы в браке, чем наоборот.
Враждебная семья. Один из партнеров не желает обсуждать противоречия, второй партнер с этим согласен. Общение в семье отсутствует.
Враждебно-отстраненная семья. Один из супругов – страстный спорщик, а второй просто не заинтересован в обсуждении вопроса.
Математическая модель объяснила различия, с одной стороны, между двумя положительными типами семейных пар (поддерживающей и дипломатичной), чей брак, скорее всего, будет долгим и счастливым, а с другой – между двумя негативными типами (враждебной и враждебно-отстраненной). Нестабильные семьи, невзирая на все свои противоречия, разводятся реже, чем сохраняют брак.
После окончания эксперимента и на протяжении двенадцати лет исследователи выходили на связь с каждой из семисот пар раз в год или два. Предсказание Мюррея и Готтмана оказалось верным в 94 процентах случаев. Шестипроцентная погрешность вызвана тем, что некоторые нестабильные пары, которым прогнозировали долгую, хотя и несчастливую жизнь в браке, все же развелись.
Результаты и необходимые меры. Модель семейного счастья была опубликована в книге Готтмана, Мюррея и их коллег под названием «Математика супружества: динамические нелинейные модели» (The Mathematics of Marriage: Dynamic Nonlinear Models). Книга предназначалась в основном для научных работников. Однако в отличие от многих ученых (и в отличие от Мюррея) Готтман был очень заинтересован в практическом применении своей теории. Он опубликовал несколько книг[61] и статей, а потом совместно с женой Джулией основал Институт семейных отношений Готтмана (www.gottman.com), в котором устраивали тренинги, создавали учебные фильмы о проблемах совершенствования семейных отношений, организовывали другие подобные мероприятия.
Эта работа весьма полезна для практикующих психотерапевтов, поскольку предоставляет в их распоряжение новые методы преодоления разрушительной модели поведения, доводящей семью до развода. Институт Готтмана разработал комплекс методических рекомендаций и проводил семинары специально для врачей. Помимо всего прочего, модель позволяет исследователям прогнозировать реакцию семейной пары в той или иной ситуации. Таким образом, модель позволяет проводить эксперименты типа «что… если?», а они, в свою очередь, помогают разрабатывать новые научно обоснованные стратегии восстановления отношений в неблагополучных семьях.
Готтман помог провести крупнейшее клиническое исследование методом случайной выборки («проект сумасшедшего ученого») с участием более десяти тысяч пар. Он дал ответ на вопрос, каким образом это исследование способно помочь реальным людям: «В последние восемь лет мы вместе с моей талантливейшей женой полностью погрузились в работу, стараясь свести воедино все наши идеи ради помощи семьям и детям. Теперь мы знаем, что наше вмешательство в жизнь несчастливых семей действительно способно ее изменить. Мы можем помочь наладить отношения примерно 75 процентам пар, проведя для них двухдневный семинар и девять сеансов семейной терапии»[62].
Это мы называем эффективным сообщением о результатах и успешными действиями!
Пример аналитического мышления: рейтинг компании FICO
Рейтинг FICO – это трехзначный рейтинг, колеблющийся в интервале от 300 до 850 и характеризующий индивидуальное финансовое положение заемщика на данный момент[63]. Когда вы подаете заявку на кредит (неважно, на кредитную карту, автомобильный или ипотечный), кредиторы, конечно, хотят знать, насколько рискованно давать вам деньги. Кредитный рейтинг FICO используется большинством банков для оценки кредитного риска заемщика. Ваш индивидуальный рейтинг влияет на множество решений банка: максимальную сумму, на которую вы можете рассчитывать, условия ее предоставления (процентная ставка и т. п.). Этот рейтинг представляет собой поразительный пример того, как аналитика немедленно конвертируется в действие. Неудивительно, что почти все кредиторы в США и растущее их количество за пределами страны его используют. Посмотрим, как же был разработан этот рейтинг с точки зрения нашей стандартной процедуры из трех этапов и шести шагов.
Определение и формулирование проблемы. Кредитные рейтинги позволяют кредиторам быстро и объективно оценить кредитный риск конкретного заемщика. До появления рейтинга FICO процесс одобрения кредитной заявки был долгим, медленным, непоследовательным и зачастую необъективным. Инженер Билл Фэйр и математик Эрл Исаак выдвинули идею о том, что управленческие решения могли бы быть куда более эффективными, если бы можно было статистически оценить риск провала с учетом разнообразных обстоятельств личной жизни и финансового положения заемщика. В 1956 году они основали компанию, занялись разработкой модели, а через два года уже продавали свои системы оценки кредитного риска всем желающим. Первый рейтинг FICO общего назначения появился на рынке в 1989 году.
Изучение предыдущих попыток решения. Кредитная история появилась более ста лет назад, когда мелкие розничные торговцы объединялись для обмена информацией о своих покупателях. Ассоциации торговцев постепенно преобразовались в небольшие кредитные агентства, которые впоследствии консолидировались в более крупные компании, использовавшие все преимущества компьютеризации. Но до появления кредитного рейтинга общего назначения было еще очень далеко.
Моделирование (выбор переменных). Из многочисленных показателей кредитоспособности клиента Фэйр и Исаак отобрали показанные в табл. 4.1 переменные, объединив их в пять групп (пол, возраст, национальность, раса и семейный статус были исключены).
Таблица 4.1
Переменные для анализа кредитоспособности в модели Фэйра и Исаака
Сбор данных (измерения). Финансовые привычки американцев тщательно изучают несколько национальных кредитных агентств (CRA): Equifax, Experian и Trans Union. Ежемесячно финансовые институты и кредиторы отсылают в кредитные агентства файлы заемщиков, содержащие данные о количестве кредитов у потребителей, виды кредитов (ипотечный кредит, займы на кредитных картах, кредиты на покупку автомобиля), балансы, мероприятия по сбору задолженности и истории погашения задолженности. Данные об одном и том же заемщике могут довольно сильно различаться от агентства к агентству. С тех пор как при расчете FICO стали использоваться данные кредитных агентств, для каждого из нас существует три варианта этого рейтинга – по одному для каждого крупнейшего агентства.
Анализ данных. В целом кредитный рейтинг учитывает множество разнообразной информации из кредитного досье клиента, но не вся она одинаково необходима. Некоторые аспекты вашей кредитной истории более важны, чем другие, и, соответственно, более сильно влияют на итоговый рейтинг. Хотя составляющие формулы и методика расчетов хранятся в тайне, а каждое кредитное агентство применяет свою собственную методику, известно, что значимость переменных в формуле характеризуется такими показателями:
Результаты и необходимые меры. FICO не хранит результатов оценки кредитного риска заемщика в прошлом. Вместо этого при запросе рейтинга заемщика кредитное агентство генерирует его заново. FICO предоставляет кредитным агентствам программное обеспечение, содержащее алгоритм расчетов, а также математическую формулу, выведенную на основе анализа случайным образом выбранных кредитных историй. На основе этого алгоритма производится расчет рейтинга конкретного заемщика. Однако с тех пор как кредитные агентства начали до некоторой степени модифицировать этот алгоритм, результаты их расчетов по конкретному заемщику могут различаться.
Рейтинг FICO колеблется в интервале от 300 до 850. Лучшие кредитные условия получают заемщики с рейтингом свыше 770, но и рейтинг около 700 тоже считается хорошим. В среднем он составляет 725. Если его значение падает ниже 550, то заемщик может рассчитывать только на различные варианты субстандартного кредитования, где ставки процента значительно превышают обычные.
Наиболее распространенный в мире рейтинг FICO резко повысил эффективность кредитного рынка в США, дав банкам надежный инструмент для оценки риска. Теперь кредитор может уверенно ожидать возврата кредита на основе анализа кредитной истории заемщика. Все большее число компаний, не имеющих никакого отношения к кредитованию (например, страховые компании, мобильные операторы, компании, сдающие в аренду земельные участки или оказывающие разнообразные финансовые услуги), заинтересовано в анализе кредитной истории заемщика, чтобы решить, стоит ли иметь с ним дело и какие условия можно ему предложить. Некоторые работодатели даже интересуются кредитными рейтингами нанимаемых на работу сотрудников, чтобы выявить среди них наиболее надежных. Многие страховые компании используют этот рейтинг для общей оценки финансовой ответственности потенциального получателя автокредита, поскольку считают, что она прямо связана с ответственным поведением за рулем. Короче говоря, рейтинг FICO можно считать одним из крупнейших успехов аналитического мышления за всю его историю.
Пример аналитического мышления: концепция «магазин ценности»
В мае 1999 года компания Homeplus вошла в сегмент супермаркетов на рынке Кореи, создав совместное предприятие с компанией Tesco. К этому времени сегмент супермаркетов на местном рынке представлял собой поле битвы не на жизнь, а на смерть, и это поле обильно поливали кровью одиннадцать основных конкурентов. Не только местные розничные компании (E-mart, Lotte Magnet, Kim’s Club, Hanaro Mart, LG Mart, Mega Mart, Aram Mart и Top Mart), но и западноевропейские гиганты, располагавшие колоссальным капиталом, участвовали в этой борьбе. Homeplus стала двенадцатым конкурентом, но именно ей удалось добиться потрясающего успеха «10 10»: добиться объема продаж в десять триллионов долларов в течение десяти лет. За эти десять лет Homeplus обеспечила среднегодовой рост объемов продаж на 47 процентов, а прибыли – на 175 процентов, далеко опередив прежних игроков рынка. Секрет успеха таился в лидерских качествах генерального директора компании Ли и его стратегии «нет другого пути, кроме победы». Она стала результатом тщательного маркетингового анализа, а в ее основе лежала концепция супермаркетов, полностью перевернувшая представления об этом типе магазинов. Хотя исследование не было чисто статистическим, но все равно можно о нем говорить в рамках шестишагового подхода к количественному анализу.
Определение и формулирование проблемы. Homeplus прекрасно понимала, что невозможно добиться успеха, просто создавая такие же магазины, как у конкурентов. Требовалось разработать совершенно новую концепцию супермаркетов, которая могла бы отличить магазины Homeplus от всех прочих. Но в чем ее суть? В море всевозможных идей и маркетинговых теорий Homeplus решила выбрать девиз «Покупатель прежде всего». Супермаркеты конкурентов принадлежали к типу магазинов-складов, копируя американские и европейские образцы. Этажи магазинов были забиты скучными вешалками и полками с горами упакованных коробок. Тщательное исследование и анализ потребностей покупателей – вот единственный способ выяснить, чего же покупатели действительно хотят от супермаркетов.
Обзор предшествующих исследований Результаты проведенных на тот момент маркетинговых исследований покупательского спроса были недоступны: их организовывали конкуренты, и результаты были конфиденциальной информацией. Ли любил повторять: стать лучшей розничной компанией мира можно только «взяв лучшее и сделав его еще лучше». Для этого требовалось понять, кто же на текущий момент самый лучший в розничном бизнесе, а затем превзойти лидера.
Чтобы изучить последние течения на глобальном розничном рынке, Homeplus провела сравнительный анализ различных каналов розничной торговли: супермаркетов, гипермаркетов, недорогих специализированных магазинов, универсальных магазинов и многоцелевых торговых центров в двадцати пяти странах мира: в Америке, Японии, странах Европы и Юго-Восточной Азии. Цель анализа состояла в изучении прогрессивного опыта и совершенствовании своей компании.
Моделирование (выбор переменных). В маркетинговых исследованиях используются следующие переменные:
• места для шопинга и причины их выбора;
• цель шопинга, уровень удовлетворенности, типичные жалобы.
Сбор данных (измерение). Данные для исследований получены преимущественно двумя основными способами:
• посещение и анализ деятельности различных розничных компаний в разных уголках мира;
• структурированное и углубленное маркетинговое исследование, а также опросы покупателей в Южной Корее независимыми маркетинговыми агентствами.
Анализ данных. Результат анализа собранных данных оказался шокирующим. Покупателям требовались не только низкие цены. Конечно, этот фактор тоже важен, но покупатели стремились в первую очередь получить высокую ценность, то есть удовлетворительную цену при минимальных затратах времени с учетом назначения продукта. Они хотят чувствовать заинтересованность в них, поэтому дизайн и атмосфера супермаркета, а также качество обслуживания должны быть на уровне. Еще более важен тот факт, что покупатели хотят не только купить разнообразные продукты по низким ценам, но и получить удовольствие от приобретения всего необходимого в одном месте и в приятной обстановке. Таким образом, новая концепция супермаркета от Homeplus базировалась на понятии «магазин ценности»: здесь не просто продавался широкий ассортимент товаров по низким ценам, но предоставлялись «жизненные ценности», к которым покупатели действительно стремились: любезное обслуживание, приятная обстановка для шопинга, разнообразные удобства, образовательные мероприятия (безусловная культурная ценность в Южной Корее), а также интересные развлечения и культурные программы.