Графики, которые убеждают всех Богачев Александр

В правом нижнем углу рабочей области есть зеленая кнопка «Анализ данных». Выделим столбец с зарплатами, нажмем на кнопку:

Сверху мы получим результаты статического анализа – ключевые значения, описывающие столбец с числами:

Теперь выделим всю таблицу. Мы получим гораздо больше результатов автоматизированногоанализа:

Как видите, весьма неплохо! Мы получили и ключевые значения, описывающие датасет, и сводные таблицы, и поисковые визуализации. Скорее всего, именно такие графики мы бы построили сами, пытаясь понять данные.

Конечно, они далеки от оптимальных и по выбору, и по оформлению. В гистограмме, скажем, хочется поменять диапазоны интервалов на кратные круглым значениям (раньше они были кратны 800000):

Работа функции «Анализ данных» хорошо показывает процесс анализа данных и основные его компоненты. В том числе создание сводных таблиц, необходимых для получения агрегированных, обобщенных данных. Что это такое и зачем нужно, мы обсудим немного позже.

В анализ обычно включаются основные показатели:

• количество значений

• максимальное, минимальное, среднее значение

• топ-5, топ-10

• распределение значений внутри категории

• динамика

• какой процент к целому составляют значения

• разница в абсолютных цифрах и в процентах (например, со средним/прошлым)

Итак, как найти важное и интересное в вашем датасете?

Для начала – понять, какие значения в вашем наборе данных встречаются чаще, какие – реже. Выявить тенденции и тренды, понять, что из них выбивается. Затем нужно начать задавать вопросы, проверять гипотезы. Общайтесь со своим набором данных, как вы общались бы с человеком.

Вопросы могут быть такими:

• Кто лидеры рынка? Отстающие?

• В каком регионе максимальные продажи?

• Какой средний чек?

• Кто лидер по KPI?

• Как изменился уровень продаж за последние полгода?

Или гипотезы:

• Действительно ли есть зависимость между рекламной кампанией и ростом конверсии?

• Правда ли, что на конверсию больше всего влияет канал продаж?

Вы можете задавать датасету все вопросы, которые кажутся вам важными. Возможно, в процессе визуального анализа вы зацепитесь за что-то. У вас могут возникнуть новые мысли, которые вы захотите проверить. Продолжайте этот процесс, пока не поймете, что узнали все, что вам было нужно.

Именно из ответов на ваши вопросы и результатов проверки гипотез появятся основные мысли – сообщения, которые мы будем представлять в виде графиков.

Создание новых данных внутри датасета

Чаще всего, чтобы найти что-то действительно важное и значимое в датасете, вам придется создавать сводные таблицы или новые данные внутри набора.

Уровень агрегированности (обобщенности, детализации) данных может быть разным. Скажем, в таблице с зарплатами тренеров данные представлены в неагрегированной форме. Для каждого тренера выделена отдельная строка с уровнем годовой зарплаты в абсолютных числах. Как вы помните, инструмент Гугл Таблиц для анализа самостоятельно догадался провести агрегацию по результату команд. Сервис посчитал среднюю зарплату тренеров команд, не вышедших из группы и прошедших дальше.

Иногда же таблицы к вам поступают (например, от аналитиков) уже агрегированными (сводными). Это удобно, так как вам не нужно проводить эту работу. Однако, если данные сильно различаются в широком диапазоне, их усреднение может сильно исказить общую картину.

Вот таблица со статистикой посещаемости первого сезона ютуб-программы «вДудь»:

Сначала проведем статистический анализ, а затем приступим к визуальному, в ходе которого будем создавать поисковые визуализации данных. Оформление не имеет для них существенного значения. Это важно для финальных графиков, которые готовятся к размещению в презентации или для публикации. А для поисковых визуализаций мы просто оставим стандартные настройки программы (в данном случае для визуального анализа мы использовали Tableau).

Прежде всего получим ключевые числа, описывающие датасет. Общее количество просмотров всех роликов – чуть более 124 млн, всего роликов за период – 34, среднее количество просмотров каждого ролика – 3,64 млн, минимальное (режиссер Хлебников) – 1,6 млн, максимальное (Слава КПСС) – 6,6 млн.

Первый ролик вышел 7 февраля, последний – 18 октября 2017 года.

Посмотрим динамику просмотров по датам:

Очень удачная визуализация, которая дает представление о взлетах и падениях популярности выпусков, позволяет увидеть наиболее и наименее популярные ролики.

Чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим линейный график на столбиковую диаграмму:

Становится интересно, в какие дни чаще всего выходили интервью, смотрим:

Выпусков в среду было меньше, чем во вторник, но медиана просмотров у них больше. Медиана – это число в середине набора чисел. Половина чисел расположена ниже этого значения, половина – выше.

Чтобы понять почему так вышло, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.

Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие:

Самое время более наглядно изучить, какие ролики самые популярные, а какие – наоборот:

По-хорошему нам надо сделать поправки на то, как долго ролик находится на ютубе и на количество подписчиков в момент выхода программы. Например, видео с Познером добавлено ровно в день составления датасета и наберет еще немало просмотров. Сейчас мы опустим эти моменты для понимания главного.

Что еще может нас заинтересовать? Вот распределение роликов по месяцам и по количеству просмотров:

Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако даже в процессе беглого анализа мы уже агрегировали и создавали новые данные в наборе! Мы объединяли данные, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.

Новые данные в набор (скажем, даты рождения участников) мы можем добавить и из других датасетов или определить самостоятельно. Давайте добавим новый столбец, в котором укажем основную область деятельности участников интервью:

Теперь мы можем не только увидеть, кто из гостей Дудя более популярен, но и узнать, персонажи из каких сфер людям более интересны.

Или объединить их:

Или даже посмотреть, когда именно и как часто гости из разных сфер приходили к Дудю:

А теперь размером кружочка закодируем число просмотров, то есть добавим еще одно измерение:

Эти визуализации дают нам много интересной информации. Например, что в марте-мае Дудь пообщался с тремя видеоблогерами и больше их не звал, что кинодеятели приходят примерно через равные промежутки времени. Чтобы получать детальную информацию, можно использовать интерактивные возможности вашего софта для визуального анализа:

Чтобы находить в датасетах интересное, вам наверняка придется агрегировать данные и создавать новые – качественные и количественные.

Формулируем сообщение

Вспомним, что визуализация данных – инструмент нашей коммуникации. Чтобы она состоялась, нужно сообщение. И чем это сообщение яснее и четче, тем эффективнее коммуникация.

Чтобы сформулировать сообщение, нам и нужен анализ данных. Сообщение стоит формулировать после анализа или в процессе, но никак не до него, пытаясь подогнать данные и графики под заранее готовые мысли или шаблоны.

Автор Хоакин Вийера, графический дизайнер английского издания Гардиан

Сообщение обычно формулируется в терминах трендов, паттернов, изменения динамики, характера распределения, связи одних данных с другими. Например, повышение/снижение, сезонность, характер роста, сравнение относительно других, занимаемое место.

По результатам анализа датасета мы можем сформулировать несколько сообщений – важных и интересных особенностей, которые мы обнаружили. Часть сообщений можно попробовать донести с помощью графиков.

Чтобы окончательно сформулировать сообщение, вам потребуется как-то интерпретировать то, что вы нашли внутри датасета. Для этого нужно найти эксперта, который хорошо понимает, как эти данные связаны с реальностью. Или самому стать таким человеком. Иногда наиболее интересные выводы появляются там, где данные и ваши аналитические находки расходятся с мнением экспертов. За этим может лежать настоящая история и настоящее расследование.

Иногда информация в реальном мире может стать отправной точкой для ваших вопросов к данным и их анализу. Допустим, руководитель отдела кадров говорит вам, что по его ощущениям многие сотрудники со стажем работы 1–2 года покидают компанию. Вы можете запросить и подготовить данные, которые это подтверждают или опровергают.

При общении с экспертом будьте осторожны, не совершите другой ошибки: когда еще до начала анализа вы уже имеете представление о том, что должно быть в данных. Тогда анализа данных не произойдет вовсе или находки будут игнорироваться.

Еще хуже – когда у вас уже заготовлены слайды с определенным посылом. И вы просто хотите вставить в работу графики, подтверждающие ваши заготовки. В реальности может оказаться, что данные, а за ними и графики, вовсе не подтверждают ваши мысли. Это одна из причин, по которой мы часто видим слайды, графики на которых противоречат заголовкам.

Про объективность, честность, непредвзятость

Вы можете очень хотеть убедить кого-то в чем-то. Однако, если данные не подтверждают вашу правоту, не стоит пытаться произвести нужное вам впечатление с помощью различных ухищрений. Возможно, в краткосрочной перспективе вы будете убедительны, но рано или поздно правда раскроется.

Не секрет, что статистика и визуализация данных могут лгать. На самом деле они вообще никогда не говорят правду – это всегда взгляд с той или иной степенью точности по отношению к реальности. Но вы можете стремиться к объективности, насколько это возможно.

Классический пример – рост ВВП в годы индустриализации в СССР. Возьмем уровень ВВП СССР и ведущих капиталистических стран в 1928 году за ноль. Теперь попробуем пересчитать, как он изменился за десять лет в процентах к исходному. Нашему взору откроется такая картина:

«График патриота»

Примерно по тому же принципу в СССР строились пропагандистские графики. Мелким шрифтом написано «На сравнимой территории в процентах к 1937 году»:

И все же: разве тут что-то неверно? СССР, переживший гражданскую войну и революцию, показывает феноменальные темпы роста ВВП, обгоняя ведущие капиталистические страны. Экономика СССР развивается быстрее всех в мире! Обманывает ли этот график? С одной стороны, числа, на основе которых он построен, – верные. С другой стороны, если мы возьмем абсолютные значения, то получим совершенно другое впечатление:

«График либерала»

Оказывается, в абсолютных числах рост не такой впечатляющий. Несмотря на успехи, отставание от ведущих стран остается кратным. Кроме того, СССР в этом графике стартовал с очень низкой базы. 1927–1928 годы – это период, когда экономика только восстановилась до уровня 1913 года.

Так какой из графиков верный и какой именно показывать читателям? Это зависит от задачи и от ситуации. Каждый из графиков дает разный взгляд на одну и ту же ситуацию. Если вы хотите быть максимально непредвзятыми, имеет смысл показать оба.

Главное в третьей главе

• Убеждает не график, а данные, которые он доносит до читателя.

• Чтобы график был убедительным, нужно хорошо разбираться в теме.

• Анализ бывает статистический и визуальный.

• Основа аналитики – вопросы и проверка гипотез.

• Старайтесь верно интерпретировать находки, сделанные в результате анализа.

• Не подгоняйте презентацию и графики под заранее придуманные выводы.

• Старайтесь быть честными с вашей аудиторией.

Глава 4

Когда визуализация данных не нужна

Зачем мы вообще пытаемся визуализировать данные? В большинстве случаев – чтобы ускорить считывание информации. График дает мгновенное понимание того, в чем пришлось бы долго разбираться, изучая ряды цифр в таблице.

Просто число

Но иногда визуализация данных не нужна.

Например, на этом слайде презентации Управления делами президента визуализация не дает нам больше понимания. График скорее уводит от сути. Насколько нам важно точное число письменных обращений на прямую линию президента? Отдельно усложняет понимание то, что линия времени идет справа налево. В любом случае, акцент здесь сдвигается на сравнение количества обращений, поступивших на разные прямые линии. При этом в тени остается факт, что на каждую прямую линию приходит 20 тысяч (!) письменных обращений.

Для презентации можно было попробовать сделать так:

В динамике был бы смысл, если бы число обращений явно росло или падало. Или были представлены данные за более значительный промежуток времени с каким-то явным трендом.

Это относится к большинству случаев визуализации данных. Обычно результаты в презентации нужно визуализировать, если графики показывают что-то значимое, важное или интересное.

Слово о таблицах

В большинстве случаев таблицы в презентациях лучше не использовать. Чтобы оценить взаимоотношения между числами в таблице, требуется гораздо больше внимания и усилий. В рамках презентации это помешает зрителю внимательно слушать спикера. И, конечно, ваша аудитория не получит той наглядности, которую дал бы ей график.

Но иногда таблицы уместны. Например, в научных работах или когда вы хотите сосредоточить внимание читателя на конкретных числах. Допустим, представлены совершенно разнородные данные в разных единицах измерения. Или данные, которые не требуют прямого сравнения – например, характеристики тарифных планов или технические параметры устройств:

Линейка новых IPhone – 2019

Таблицы можно вставлять в приложение к презентации, отчету или научной работе, когда нужно предоставить первоисточник данных или показать данные разного уровня детализации (например, исходные, неагрегированные данные).

Также таблицы были и остаются отличным способом организации и структурирования числовой информации.

Если в вашей таблице есть числовые значения, как ее лучше оформить?

Основные правила:

• Числа всегда выравниваются вправо, текст – влево. Это помогает очень быстро понимать содержимое столбцов и удобно их читать.

• Числа округляются до одинаковых разрядов и выставляются разряд под разрядом. Только в этом случае их удобно сравнивать (см. пример ниже).

• Заголовки выравниваются так же, как содержимое столбца.

Дополнительные соображения:

• Желательно, чтобы линии между строками были видны как можно меньше (или вообще не видны). От них рябит в глазах. А еще разделительные линии отвлекают от самих значений, мало помогая считывать их по рядам. Значения отлично считываются и без них, если таблица правильно отформатирована.

• Линии между столбцами не требуются, если все остальное сделано правильно.

• Аналогично с цветом. В закрашенной таблице или той, где используется чересполосица – чередование оттенков одного цвета – зрительной доминантой становится сам цвет. Хотя по факту он не несет никакой функциональной нагрузки и только отвлекает от информации.

• Лучше использовать для чисел моноширинный шрифт: с символами одной ширины, например, Courier или PT Mono. Так числа удобнее сравнивать в одном столбце.

• Единицы измерения указывают сверху, в шапке.

• Количество текста в заголовках должно быть сведено к минимуму, повторяющиеся слова вынесены за пределы ячеек.

• Бывает, что в названиях столбцов слишком много текста. Иногда имеет смысл развернуть таблицу на 90 градусов, чтобы таблица стала более читабельной.

Давайте посмотрим пошаговый процесс улучшения таблицы:

Для начала уберем рамки и цвет:

Выровняем текст по левому краю, числа и даты – по правому:

Уменьшим количество знаков у длинных чисел:

Подберем оптимальную ширину столбцов и высоту строк. Таблица стала гораздо компактнее:

Добавим линию, отделяющую заголовочную строку (хотя это необязательно) и немного отобьем строки про «Фантастических тварей»:

Поменяем шрифт. Числа и даты наберем моноширинным начертанием, чтобы каждое число стояло друг под другом по разрядам:

Сделаем финальные штрихи. Поменяем местами столбцы, чтобы они выглядели логичнее: сначала бюджет, потом сборы, потом место по сборам в мире. Немного уменьшим расстояние между строками:

Таблица стала компактнее. Значения в ней удобнее сравнивать, хотя мы убрали разделительные горизонтальные линии.

Мы улучшили оформление этой таблицы, но для презентации лучше превратить ее в визуализацию данных. В качестве своеобразной переходной или гибридной формы между таблицами и диаграммами могут использоваться таблицы со встроенными в них графиками:

Таблицы как тепловые карты

Таблица может стать более наглядной и информативной, если ее ячейки раскрасить цветами и их оттенками пропорционально значениям. В этом случае она становится одним из способов графического представления данных – тепловой картой (heatmap, хитмэп). Тепловая карта может быть очень удобна при первичном изучении данных в табличном редакторе как одна из разновидностей поисковой визуализации данных:

Исходная таблица

Тепловая карта

В отличие от нераскрашенной таблицы тепловая карта отлично показывает, что по сравнению с 2000 годом идет общий тренд на снижение безработицы во всех субъектах Центрального региона. В Москве самый низкий уровень безработицы, даже ниже, чем в Московской области. А в 2009 году все ощутили последствия финансового кризиса, но Москва же быстрее всего восстановилась после него. Показывает, что кризис 1998 года сказался на экономике значительно сильнее. Что Липецкая область почти не пострадала после кризиса.

Хитмэп – настолько мощный и сильный способ визуализации, что на его использовании может быть построена сильная история. Как этот проект Wall Street Journal, визуализирующий большой массив данных о заболеваемости детскими инфекциями в США:

Изменение заболеваемости корью в Америке до и после изобретения вакцины

Помимо наглядного представления большого количества временных рядов, тепловая карта также помогает проводить мультикатегориальное сравнение (см. главу 6).

Глава 5

Как устроена визуализация данных, виды графиков

Коснемся терминов, которые используют для обозначения графического представления числовых данных. Обычно все, что строится непосредственно в декартовой системе координат, называют графиками (graphs): линейный график, график рассеивания, график функции. Остальные виды визуализации – это диаграммы (charts): столбиковая диаграмма, круговая диаграмма и так далее. Хотя в обиходе и в этой книге это взаимозаменяемые понятия.

Суть визуализации данных

Суть визуализации данных – в переводе чисел на язык графических образов. Иными словами, в кодировании числовых значений визуальными объектами. Непонятно? Сейчас все разберем.

Кодировать можно сотнями способов, даже два одинаковых числа можно закодировать совершенно по-разному (см. далее эксперимент Сантьяго Ортиза). Вот почему сам факт кодирования еще не решает задачу донесения сообщения или упрощения восприятия числовых значений и взаимоотношений между ними.

В 2010 году Сантьяго Ортиз провел эксперимент: он предложил студентам найти максимально возможное количество вариантов визуализации двух чисел, 75 и 37. Задание заняло больше двух часов, и в результате получилось 45 различных видов визуализаций (а реальных примеров было еще больше):

1. Запись числа

2. Плитки из квадратов

3. Повторяющиеся иконки

4. Десятки и числа от 1 до 10, представленные квадратами

5. Столбики и линии

6. Линейный и площадной график

7. Столбики, равные 100%

8. Столбики с накоплением

9. Пропорции (предполагая, что одно из чисел – часть другого)

10. Интервал

11. Квадраты с накоплением

12. Вафельные графики

13. Круговые диаграммы

14. Кольцевая диаграмма

15. Пузырьковая диаграмма

16. Полупузырьки

17. Круг и внешнее кольцо

18. Круги с общим центром

19. Разделенный квадрат

20. Разделенная фигура

21. Площади квадратов

22. Площади фигур

23. Фигуры разной формы

24. Площади иконок

25. Высота иконок

26. Объем фигур

27. Особые метафоры

28. Оттенки серого

29. Оттенки цвета

30. Геометрические пропорции

31. Горизонтальные/вертикальные пропорции

32. Координаты

33. Углы

34. Географические координаты

35. Столбиковая картодиаграмма

36. Плотность

37. Процентное соотношение/плотность

38. Штриховка

39. Узлы и связи между ними

40. Параметры математической функции

41. Гармонические колебания

42. Частота пульса в минуту

43. Частота вращения в минуту

44. Звуковые колебания в Гц

45. Жирность шрифта

На мой взгляд этот перечень, безусловно, не полон и не включает даже такой распространенный вид визуализации, как гистограмма – распределение значений в наборе данных по интервалам:

Как образуется визуализация данных

При кодировании чисел каждую единицу данных в наборе данных мы превращаем в объект – простую геометрическую фигуру: точку, линию, квадрат, круг. А различные количественные и качественные свойства этой единицы данных зашифровываем визуальными свойствами этого объекта. В качестве визуальных свойств обычно выступает размер, положение, цвет (оттенок, насыщенность, яркость), угол, наклон.

В этом датасете про актеров, которые играли Джеймса Бонда, каждый актер – это одна единица данных. Мы превращаем ее в объект – точку, у нас получается шесть точек. Количество фильмов, в которых актер участвовал, мы зашифровываем положением этой точки относительно базовой линии:

В зависимости от цвета волос (качественное свойство) мы изменяем цвет точек. Цвет точек, соответствующих актерам-брюнетам, сделаем черным. Точке, соответствующей актеру-блондину (он всего один – Дэниел Крейг), присвоим оранжевый:

Добавим подпись для оси X. В легенде объясним значения цветов. По ней читатель сможет раскодировать информацию:

Проведем линию от ноля до точки, соответствующей количеству фильмов. Так будет удобнее сопоставлять актера и количество фильмов, в которых он сыграл.

Мы наглядно увидели, как образуется визуализация данных. И сразу же познакомились с двумя задачами, которая она может решать: графически представлять данные и удобно их сравнивать. В нашем случае сравнение данных происходило за счет того, что все точки стояли на расстоянии, пропорциональном количеству фильмов.

Есть еще одна задача для визуализации: она может обеспечивать ранжирование данных – сортировку по определенному принципу (от большего к меньшему, по алфавиту и так далее). Никогда не стоит пренебрегать этой возможностью. На самом деле наши значения сейчас тоже ранжированы: актеры расположены в хронологическом порядке. Нагляднее будет, если разместить их по убыванию значений:

Определенная комбинация выбранного объекта и свойств образует вид визуализации: столбиковую диаграмму, линейный график и т. п. У нас получилась диаграмма, которая называется lollipop – леденцовая, своеобразный гибрид столбиковой и точечной. Она позволяет сфокусироваться на сравнении между собой окончаний линий, а не размеров столбиков. Ее можно использовать вместо столбиковой.

Эффективность вида визуализации как инструмента донесения сообщения определяется:

• Однозначностью считывания – понятностью. Когда человек быстро понимает, какие именно объекты и их свойства и как именно кодируют числовые значения.

• Тем, насколько удобно и точно он позволяет человеческому глазу раскодировать графические образы обратно в числовые значения.

• И, наконец, самое главное – тем, насколько тип визуализации подходит выбранным данным.

Именно последний пункт в значительной мере определяет эффективность донесения вашего сообщения.

Стоит избегать двойного кодирования, когда одно и то же свойство объекта кодируется сразу несколькими способами – например, длиной и цветом. Это вводит в заблуждение и сразу неоправданно повышает сложность визуализации:

В первом случае количество фильмов закодировано только длиной столбика. Во втором – еще и степенью яркости цвета самого столбика. В этом нет необходимости.

Существует огромное количество геометрических фигур и их визуальных свойств. А число их комбинаций и вовсе стремится к бесконечности. Однако базовых типов визуализации данных совсем немного. Давайте посмотрим на них.

Типы сравнения

Как вы помните, в третьей главе «Формулируем сообщение» мы говорили о том, что ваши находки по результатам анализа данных формулируются в терминах повышения, снижения, влияния одних переменных на другие, характера распределения значений, описания тренда или значений, которые выбиваются.

Можно выделить несколько основных видов взаимоотношений между данными, соответствующих возможным видам сообщений:

Страницы: «« 12345 »»

Читать бесплатно другие книги:

В новой книге известного режиссера Игоря Талалаевского три невероятные женщины «времен минувших» – Л...
Почему мы простужаемся? Что вызывает смену времен года? Если выстрелить из пистолета и одновременно ...
Работать ещё и во сне? Увольте! Но увольнений у сноходцев, похоже, нет. Зато опасностей хоть отбавля...
Более двадцати лет Марк Яковлевич Казарновский живет во Франции, но почти во всех своих произведения...
Эта ценная книга содержит подробное описание 53-х славянских оберегов, лунный календарь ведуньи, дре...
…Но Аллины наивные иллюзии стали рассыпаться в прах сразу же, как только они с мамой приехали в Моск...