Графики, которые убеждают всех Богачев Александр
1. В основе почти всех взаимоотношений между данными, которые мы можем визуализировать, лежит сравнение. Чаще всего с помощью визуализации данных мы пытаемся понять, какие из значений больше или меньше других и в какой степени.
Понятно, что почти все виды визуализации данных (кроме, может быть, связей) позволяют сравнивать: наглядно видеть, какие числовые значения больше, а какие меньше. Однако первый тип фокусируется именно на сравнении.
Если при этом отсортировать значения, чаще всего от большего к меньшему, то к сравнению добавляется функция ранжирования. Мы получаем возможность ответить на вопрос «на каком месте?».
Основные слова в сообщении для этого типа визуализации – «больше, чем», «меньше, чем», «равно», а также указание на место (при ранжировании).
Примеры сообщений:
Больше всего в 2018 году подорожало пшено – на 38 %.
АФК «Система» занимает третье место по выручке среди системных интеграторов России.
Больше всего пожаров, приведших к человеческим жертвам, было в Смоленской области.
НТВ получило в два раза меньше финансирования, чем Первый канал.
Основной вид визуализации здесь – столбиковая диаграмма:
Второй график – сгруппированная столбиковая диаграмма. Она позволяет сравнивать ряды данных по нескольким категориям (обычно 2–3).
2. Сравнение части с целым. Здесь появляется новое измерение для сравнения: мы можем сравнивать значения, но при этом визуально воспринимать их еще и как отношение доли к целому.
Сообщение формулируется в терминах доли, процентов от целого. Основные слова в сообщении для этого типа визуализации – «доля», «проценты от целого».
Примеры сообщений:
Нелегальные эмигранты составляют четверть всех граждан США, родившихся за границей.
Больше 80 % всей выручки в ритейле уходит пяти компаниям.
Жители Москвы составляют половину всех активных пользователей Facebook в России.
Основной вид визуализации – круговая диаграмма или столбиковая с накоплением:
3. Временное сравнение наглядно фокусируется не на значениях отдельных точек, а на характере изменения показателя во времени.
Сообщение формулируется в терминах, описывающих характер изменения показателя: «растет/падает», «плавно/резко». Также сообщение может фокусироваться на пиках или провалах в динамике.
Примеры сообщений:
Уровень безработицы остается выше на Кавказе в сравнении с другими федеральными округами.
За последние три года в России на 10 % выросла средняя ожидаемая продолжительность жизни.
Количество инвестиций в сельское хозяйство резко снизилось.
Пожалуй, ни один другой тип визуализации, кроме линейного графика, не может показать изменения во времени нагляднее:
Эти три основных вида взаимоотношений между данными закрывают 80–90 % ситуаций, в которых требуется визуализация данных в презентациях.
Реже встречаются следующие типы сравнений:
4. Частотное сравнение или распределение показывает, сколько единиц данных попадает в определенные последовательные интервалы.
Сообщение формулируется в терминах структуры, концентрации, диапазонов.
Примеры сообщений:
Большинство покупок в августе попадало в диапазон от 1000 до 2000 рублей.
В структуре подписчиков канала преобладают люди 25–30 лет.
Основной вид визуализации – гистограмма.
5. Связь (корреляция) между количественными переменными показывает, есть ли зависимость между переменными или ее нет.
Обычно описывается как «при росте X отмечается снижение Y», «чем больше X, тем больше/меньше Y».
Примеры сообщений:
При увеличении площади торговых залов размер средней покупки снижается.
Стаж специалиста не влияет на уровень его заработной платы в компании.
Для двух числовых переменных (ось X, ось Y) классическим способом визуализации зависимости между ними является график рассеивания:
Я предлагаю вам иллюстрированный список с типами визуализаций по группам. Первый график в каждой группе – тот, который в большинстве случаев будет эффективен, если нужно использовать визуализации из этой группы. К уже упомянутым основным типам взаимоотношений между данными добавлено еще четыре, с которыми вы можете встретиться в своей практике.
6. Сравнение отклонения/разницы. Акцентирует внимание на разнице значений с какой-либо фиксированной точкой. Точкой может быть ноль, некий пороговый уровень или запланированное для показателя значение. Можно использовать для наглядной визуализации переменных с полярными порядковыми шкалами типа позитив/негатив. Например, для визуализации результатов опросов.
Является разновидностью сравнения.
7. Иерархия – когда состав значений имеет вложенный характер. Это одна из разновидностей сравнения части и целого.
8. Этапы/процесс/поток. Специфический вид визуализации. Основной из них – потоковая диаграмма, или диаграмма Санкея (по имени инженера Мэтью Санкея). Она показывает, как меняется характер распределения значений во времени или по этапам.
9. Составление профилей/мультивариантное сравнение – сравнение нескольких категорий по нескольким переменным. Часто для этого используется радарная диаграмма типа «паук», однако это крайне неудачный способ визуализации, поэтому он не включен в список.
Как можно видеть из списка, один и тот же тип визуализации может входить в разные группы. Это говорит о том, что он наглядно показывает разные типы взаимоотношений между данными и может эффективно передавать сообщения разного рода.
Такой пример – наклонный график, который сейчас используется недостаточно широко. Наиболее наглядно он показывает характер изменения показателя по двум точкам во времени (вырос/снизился и в какой степени), причем сразу по многим категориям.
Но также наклонный график хорошо показывает и динамику изменений, и ранжирование, и даже распределение. Именно его мы использовали в первой главе, чтобы показать изменения на рынке сыров.
Разумеется, это не все виды графиков, которые вы могли видеть. Как говорилось выше, возможно бесконечное количество комбинаций геометрических объектов и их характеристик.
Когда кажется, что ваши данные очень сложные и ни один тип визуализации не подходит, проблема в другом. Чаще всего – в перегруженности графика лишними данными. Представленных в списке вариантов более чем достаточно для наглядной визуализации и передачи самых разнообразных сообщений.
Важно понимать: для использования в презентациях, о которых мы в первую очередь говорим, самое важное качество графика – способность ясно доносить сообщение до вашей аудитории. С этой точки зрения чем проще и привычнее будет вид графика, тем лучше.
Я не предлагаю полностью отказываться от более сложных и менее знакомых аудитории графиков. Просто их использование должно быть уместным. Например, когда вы лично можете объяснить устройство графика и уверены, что здесь не справится более простой аналог.
Иконка Excel обозначает, что график есть в стандартном наборе диаграмм Excel. Почти все остальные представленные диаграммы относительно несложно реализуются в Excel. Исключение составляют диаграмма Санкея, потоковый график, уложенная пузырьковая и гантельная диаграммы.
Какие графики лучше
Выше мы говорили о том, что одна из важных характеристик типа визуализации данных – то, насколько точно он позволяет раскодировать значения, записанные с помощью геометрических фигур и их свойств.
Проводились исследования на эту тему. Оказалось, что точнее всего позволяют считывать значения точечная и столбиковая диаграммы. А именно – сочетание длины столбика с его расположением относительно базовой (общей) линии. Угол, в частности сектор в круговой диаграмме, считывается значительно хуже. Еще расплывчатее показывают значения разные оттенки насыщенности цвета и объемные фигуры. Речь, разумеется, идет о количественных значениях.
Это не означает, что ими совсем не стоит пользоваться, но нужно понимать степень точности каждой из диаграмм и использовать их сообразно вашей задаче. Если задача – показать разницу или соотношение между значениями более точно, ничто не справится лучше столбиковой диаграммы.
Если же отвечать на вопрос «Какие графики лучше?» в целом, то лучше те графики, которые в конкретной ситуации эффективнее доносят ваше сообщение до аудитории.
Можно выделить несколько критериев подобных графиков:
• точно передают данные
• прочитываются очевидным образом
• компактные
• лишены декоративности, затрудняющей передачу сообщения
Выбор визуализации: ключевой этап
Выбор вида визуализации – важнейший момент в создании понятного, наглядного, эффективно работающего графика. Если на этом этапе возникла ошибка, то дальнейшие многочисленные улучшения, связанные с оформлением графика, не помогут. Мы коснемся темы улучшений графиков в последующих главах.
Вот пример:
Оформление этого графика можно бесконечно улучшать, но в базовой форме выбора визуализации сделана ошибка, поэтому выводы из графика неочевидны.
В первую очередь нас здесь интересует динамика изменения цен на первичном и вторичном рынке недвижимости и как цены соотносятся друг с другом. В этом случае однозначно лучше сработает линейный график. Тогда мы сфокусируемся не на значениях отдельных столбиков, а на общей динамике изменения цен и на разнице между категориями (стоимостью первичного и вторичного жилья).
Что еще влияет на выбор графика
На окончательный выбор графика влияют следующие факторы:
• уровень подготовленности аудитории
• формат
• условия использования
• техническая возможность
• необходимость обновления
Уровень подготовленности аудитории
Если ваша аудитория по роду своей деятельности ежедневно сталкивается со специфическими видами визуализации данных, которые наглядно показывают какие-либо характеристики этой деятельности, будет вполне разумно использовать этот тип визуализации данных.
Скажем, свечной биржевой график (японские свечи) будет привычен и знаком всем, кто работает в трейдерской индустрии. Он имеет множество узнаваемых для специалистов паттернов. Однако если вы захотите ту же информацию передать более широкой аудитории, вам придется использовать менее компактный, зато более понятный линейный график. Или же давать объяснение, как устроен свечной график.
Некоторые паттерны, встречающиеся при использовании японских свечей. Непосвященным они как правило не заметны и не понятны
Формат
В зависимости от того, в какой ситуации используется график, вы можете выбрать тот или иной вид визуализации или особенности его оформления.
Одни графики подходят для портретного формата, другие – для альбомного, одним требуется больше свободного пространства (например, круговой диаграмме), другие более компактны (например, столбиковая диаграмма с накоплением или наклонный график). Отталкивайтесь от своего формата и от конкретной задачи.
Если по какой-то причине вы уменьшаете график, нельзя делать это в ущерб его читаемости. Шрифт должен оставаться достаточно крупным, а геометрические формы – считываться однозначно.
Если ваш график занимает слишком много места, а подписи на нем нужно уменьшать – скорее всего, выбран неудачный вид визуализации. Или же вы попытались отобразить слишком много данных в рамках одной визуализации.
Условия использования
Иногда вы не можете использовать подходящий способ визуализации или цветовое решение: например, вас ограничивает фирменный стиль компании или печать лимитирована по количеству цветов. Но даже в таких случаях нужно добиваться максимальной читаемости и удобства для читателя.
Техническая возможность
Вы можете выбрать очень элегантный и наглядный вид визуализации (например, потоковую диаграмму для распределения бюджета). Но при этом вы не знаете, как ее сделать, или у вас нет подходящего программного обеспечения. Бывает сложно рассчитать, сколько времени займет создание незнакомого графика. Если вы ограничены по срокам, лучше выбрать менее наглядный и компактный, но проще реализуемый вариант.
Необходимость обновления
Если вам нужно регулярно обновлять график, не стоит использовать диаграмму, сделанную вручную в графическом редакторе. Выберите софт для создания графиков с возможностью обновления. Причем такой, в котором при изменении данных настройки оформления будут сохраняться (например, подгонка шкал под полезное пространство).
Все представленные выше ситуации ни в коем случае не означают, что можно игнорировать, насколько график подходит для передачи вашего сообщения. Именно это определяет выбор. Остальные факторы могут повлиять на ваше решение, если у вас есть два-три равноценных по наглядности варианта.
Самое важное – это именно тип визуализации, который основывается на процессе восприятия человеком закодированных в геометрические фигуры чисел, исходя из взаимоотношений между данными.
Глава 6
Основные виды взаимоотношений между данными, как их визуализировать и чем заменять в сложных случаях
Сравнение
Лучше всего для сравнения использовать столбиковую либо линейчатую диаграмму.
Столбик в столбиковой диаграмме представлен линией со вторым измерением – шириной. Ширина линии ничего не означает, она просто делает столбик более заметным. Числовое значение кодируется только длиной столбика и точкой его окончания относительно количественной шкалы.
Эквиваленты столбиков
Вертикальные и горизонтальные столбики
Какой вариант выбрать? В абстрактном случае разницы нет, выбор определяется форматом визуализации – альбомной или портретной. При этом вертикальные столбики считываются чуть точнее.
Столбиковая диаграмма может показывать, как отличается переменная у разных категорий. В этом случае названия категорий могут быть длинными. Чтобы их было удобно читать, проще повернуть график на 90 градусов: из вертикального в горизонтальный формат. Надписи по диагонали также неудобны для чтения и увеличивают размер графика. Лучше использовать горизонтальное положение
Какая ширина должна быть между столбиками?
Четких правил на этот счет нет, но столбики не должны быть слишком широкими или слишком узкими: их ширина не должна обращать на себя слишком много внимания. Важно, чтобы сам вид столбиковой диаграммы предлагал взгляду (и мозгу) сравнивать именно длину столбиков, а не какие-то другие их параметры. В целом соотношение ширины столбиков к пустому пространству между ними 2:1 будет вполне адекватным.
Чем заменить столбиковую диаграмму?
Заменить можно разными вариантами, но Excel в стандартной комплектации почти ничего другого не умеет.
В программе Tableau легко делается уложенная пузырьковая диаграмма. При ее использовании важно, чтобы между значениями был значительный контраст. Иначе все значения будут выглядеть одинаково: наш мозг не умеет сравнивать похожие по площади фигуры. Визуально донести ваш месседж в таком случае не получится.
Не стоит использовать много цветов: вместо того, чтобы сравнивать размер кружков, взгляд будет отвлекаться на цвета.
Другой вариант – леденцовый график, который мы с вами уже видели. Он фокусирует внимание на концах линий, а не на соотношении размеров столбиков. Леденцовый график с небольшими усилиями можно реализовать в Excel.
Не нужно бояться использовать столбиковую диаграмму. Это чемпион по наглядности. А вот пожелания начальства типа «не хочу опять видеть этот забор» скорее всего говорят о том, что человек фокусируется на форме, а не на сути. И это не проблема собственно графика.
Часть и целое
Классический представитель этого вида графиков – круговая диаграмма. Она используется значительно чаще, чем должна. Некоторые специалисты считают, что от использования круговой диаграммы нужно полностью отказаться. Я не разделяю этого мнения.
Тем не менее передать ощущение части и целого нужно гораздо реже, чем мы думаем. Чаще всего мы хотим сравнить компоненты целого между собой. А это круговая диаграмма делает плохо. Она предлагает нашему мозгу сравнивать либо углы секторов, либо визуальную площадь этих секторов. И то, и другое мозг делает плохо – нам гораздо проще сравнить длину столбиков.
Вот вам пример: попробуйте понять, какое значение больше, какое меньше в этой круговой диаграмме.
Превратим те же значения в столбики:
Очевидно, что столбиковая диаграмма помогает сравнить между собой доли значительно лучше.
Если вам все же нужно построить именно круговую диаграмму, сделайте ее максимально наглядной.
Самый крупный сектор должен начинаться с отметки, аналогичной 12 часам на часах, и располагаться по часовой стрелке. Мы смотрим на часы начиная с этой точки.
Лучше всего круговая диаграмма показывает значения, приблизительно кратные 25 % длины окружности в градусах: 90°, 180°, 270°.
Важно, чтобы первый (с 12 часов по часам) и последний сектора были ориентировочно кратными 90°/180°/270°. Это задает условную сетку.
Какие еще ошибки совершают при использовании круговой диаграммы и как сделать лучше:
• Если у вас слишком много категорий, разницу между ними сложно будет понять. Также это приводит к появлению слишком большого количества подписей. Объедините малозначимые категории в сектор «прочее»:
• Никакой псевдотрехмерности! Она очень сильно искажает значения, и в других видах визуализации, кстати, тоже:
Не стоит использовать круговую диаграмму, если наиболее важные для сравнения значения похожи. В таком случае понять разницу на глаз будет невозможно, лучше использовать столбиковую (линейчатую) диаграмму:
Как лучше показывать покомпонентное сравнение?
Как говорилось выше, чаще всего нам нужно сравнение между категориями, а не их доли от общего. Поэтому в большинстве случаев лучше использовать столбиковую диаграмму. Если речь идет о долях, можно перевести абсолютные значения в процентные.
Если вам важно сохранить ощущение доли, лучше использовать столбиковую (линейчатую) диаграмму с накоплением. Она компактнее круговой диаграммы и позволяет точнее считывать значения. В этом случае категории должны располагаться слева направо (или снизу вверх) от большего к меньшему значению. Если это играет роль, можно специально отметить на графике 50 %:
Другие варианты:
1) Кольцевая диаграмма – разновидность круговой. В ней считывать данные еще сложнее: значение кодируется не углом, а длиной дуг, из которых собирается круг.
Кольцевая диаграмма может быть уместной, когда значения имеют явный контраст и их мало. Тогда в центре можно поместить сумму в абсолютных значениях.
Как и круговая диаграмма, кольцевая не отличается компактностью и требует решения, как лучше разместить подписи и названия категорий:
Кольцевая диаграмма в окне программы Huawei Health для мониторинга физической активности
2) Вафельный график. Он подходит, когда категорий достаточно много и для каждой нужно сохранить ощущение доли от целого. Хорошо показывает заполненность или степень достижения целевых показателей.
Наиболее уместен, когда значения кратны целым числам, а сама «вафля» равна 100 %.
3) Тримэп (treemap, дерево). График появился в Excel в 2016 году, однако исследования показывают, что людям сложно его считывать. Использование может быть оправдано, если данные имеют иерархическую структуру (1–2 уровня вложенности).
А вот в случае интерактивности тримэп однозначно выигрывает у круговой диаграммы и у многоэтажной круговой (солнечные лучи): навести на квадратики значительно проще, чем в узкий сектор.
Не забывайте – раскрашивания категорий в случайные цвета лучше избегать.
Работа автора. Интерактивный проект, посвященный переписи населения России.
Изменение во времени
Лучшая форма для сообщения об изменении одного или нескольких показателей в динамике – это линейный график.
Линия в данном графике не кодирует числа, это делают точки, отложенные по двум осям. Ось X – прямая времени, ось Y – непрерывная числовая шкала. Однако именно линия, соединяющая точки, делает график таким наглядным.
Степень наклона линии дает взгляду большее количество информации в более привычной для мозга манере, чем только точки. Мы считываем тренды (рост/падение), характер тренда (плавный/резкий), ритм, сезонность, пики и провалы. Каждый из этих аспектов может превратиться в сообщение, которое вы хотите продемонстрировать на линейном графике.
Можно ли линию заменить столбиками?
Можно, но нежелательно. При их использовании мы фиксируемся на оценке отдельных столбиков и разнице между ними. А в случае линии – именно на характере изменений в целом за весь период времени.
Какую размерность выбрать для линейного графика? Можно ли обрезать шкалу?
В отличие от столбиковой диаграммы, шкалу количественных значений (ось Y) в линейном графике обрезать можно. Однако лучше сохранить ноль, если это не помешает читабельности графика. Сохранив ноль на графике, вы добавите целое измерение для сравнения.
С обрезанной шкалой линейный график позволяет визуально сравнивать лишь разницу между соседними точками. С полной шкалой – дополнительно показывает разницу между точками и базовой линией. Так мы видим контекст и можем оценить изменения.
Вот пример графика с обрезанной шкалой:
В данном случае взгляд фокусируется на динамике. Мы видим, что в первые пятьдесят лет отмечался относительно плавный рост с некоторыми спадами, затем было условное плато, а после 2000 года началось резкое снижение. Складывается впечатление, что произошло настолько значительное снижение, что сотрудников в газетах и вовсе не осталось.
Если построить график от нуля, мы можем увидеть степень роста и падения относительно общего количества журналистов. Мы видим, что количество журналистов сократилось втрое. Однако нам понятно, что журналистов осталось еще достаточно много. При этом описанный выше паттерн изменений тоже считывается предельно четко:
В каких-то случаях будет уместно сделать два графика. Например, когда вам важно показать и общий рост, и детальный характер его небольших изменений.
Обрезана шкала или нет – должно быть очевидно из отметок на шкале. Отметки должны быть явно указаны, ведь это напрямую влияет на понимание линейного графика и декодирование его значений.
Что касается масштаба (размерности) оси Y, разные авторы (Тафти, Кливленд) говорят о среднем угле наклона линейного графика в 45 градусов. Однако к этому стоит подходить с позиции здравого смысла и понимания самих данных. Возможны две крайности:
График слишком пологий для реального характера изменений, то есть в реальности изменения более значительны.
Перепады в графике излишне крутые за счет шкалы/размера, в реальности их можно оценить как весьма скромные.
Методом подбора нужно добиваться такой размерности линейного графика, которая позволит сохранить и передать субъективное ощущение от изменений.
Отдельно хочется отметить: если шкала обрезана, график не должен начинаться от крайней минимальной точки обрезанной шкалы. Идеальный вариант – оставить примерно 1/10 пустого пространства сверху и снизу графика. Это будет однозначно указывать на то, что график начинается не от ноля.
Если данные отсутствуют, что делать?
Если на какой-то момент числовое значение отсутствует, лучше обозначить это явным образом – пропустить в этом месте линию на графике.
Отсутствие значения не равно нолю, увести в этом месте линию в ноль – грубая ошибка. В таком случае график будет однозначно указывать на резкое снижение, а затем резкий подъем, что никак не соответствует реальности:
Вот как это можно сделать в Excel. Нажимаем на диаграмму, в верхнем меню программы выбираем: конструктор выбрать данные скрытые и пустые ячейки показывать пустые ячейки как пустые значения:
Можно ли сделать из линейного графика площадной – закрасить его под линией? Можно ли обрезать шкалу в таком графике?
На практике подобный прием иногда используется в декоративных целях, например, в биржевых дэшбордах. Важно понимать: закрашенная площадь становится эквивалентна столбикам, где сама площадь начинает кодировать значения.
И в таком случае обрезать шкалу и удалять часть площади – значит просто удалять часть значений. Некоторые авторы категорически не рекомендуют этого делать.
Я тоже не одобряю использование этого приема. Если вы все же решили к нему прибегнуть, лучше делать это максимально деликатно: сделать заливку полупрозрачной, использовать градиент, уходящий темной частью вниз. Это даст понять, что визуализация построена не от нуля и не отражает общее количество.
Распределение
Графики, показывающие распределение, используют реже, чем стоило бы.
Гистограмма – классический способ показать распределение данных внутри одного ряда. Она демонстрирует, сколько значений переменной попадает в последовательные интервалы. Есть несколько основных правил использования гистограммы.
1) В большинстве ситуаций интервалы на порядковой шкале должны быть равными. Так распределение считывается наиболее наглядно:
Казалось бы, первый вариант показывает нормальное распределение. Однако это впечатление обманчиво: на самом деле гистограмма здесь смещена вправо.
2) Интервалы нельзя пропускать! Так теряется возможность наглядно увидеть выбросы значений:
Разница со столбиковой диаграммой
Гистограмма и столбиковая диаграмма – это ведь одно и то же? Нет, они принципиально отличаются, хотя и выглядят похоже.
Между столбиками в гистограмме обычно не оставляют пустого пространства, подчеркивая непрерывность интервалов. По оси X в гистограмме расположена количественная шкала (в виде последовательных интервалов), а в столбиковой диаграмме – категориальная. Причем этих интервалов обычно нет в изначальном датасете, они выбираются произвольно. Столбики в столбиковой диаграмме можно сортировать, например, от большего к меньшему, или по алфавиту. В гистограмме сортировать днные не получится, так как интервалы идут по порядку, от меньших значений к большим.
Кстати, гистограммы появились в стандартных диаграммах Excel в 2016 году.
Как выбирать интервалы?
Слишком маленькие интервалы показывают данные чрезмерно детализированно, затрудняя восприятие паттерна. Слишком большие интервалы чересчур обобщают, из-за чего теряются важные особенности характера распределения. Нет единого рецепта, нужно найти здоровый баланс между двумя крайностями.
В приведенном примере интервал 0,5 кажется наиболее сбалансированным.
Альтернативы гистограммам
Гистограммы особенно уместны в презентациях в силу своей исключительной понятности и наглядности. Но если вам нужно показать распределение по нескольким рядам данных, для достижения компактности можно использовать и другие графики.
Высокой плотностью данных отличаются баркод-плот и стрип-плот:
Работа автора
Если вы хотите использовать эти графики в презентациях, лучше применять акцентное выделение. Мы обсудим это в седьмой главе.
В научных работах широко используют график «ящик с усами», который является «сплющенной» гистограммой. Дополнительно он указывает на медиану, а также более компактно показывает характер распределения:
Автор Андрей Дорожный, визуальный журналист
В презентации для широкого неподготовленного читателя использование «ящика с усами» вряд ли будет уместно.
Корреляция/взаимосвязь
График рассеивания – классический способ показать взаимосвязь. На оси X показана одна количественная переменная, на оси Y – другая. По направлению, его выраженности, по форме расположения точек можно судить о наличии/отсутствии и силе взаимосвязи, о характере корреляции между переменными.
Чаще всего людей интересует, есть ли связь между переменными, положительная она или отрицательная. Если связь положительная, при возрастании значений одной переменной возрастают и значения другой. Классический пример – положительная связь между расходами на маркетинг и объемом продаж.
Есть мнение, что широкая аудитория гораздо хуже понимает графики рассеивания, чем столбиковые, круговые и линейные диаграммы. В одном из крупнейших мировых СМИ – Нью-Йорк Таймс – долгие годы существовал запрет на использование графиков рассеивания.
Я считаю, что в ряде случаев графики рассеивания все же могут быть эффективными и наглядными, в том числе и в презентациях. Безусловно, они предполагают личное объяснение.
Кроме того, существует прием, который может сделать графики рассеивания гораздо более наглядными. Это объединение точек в группы и разделение пространства системы координат на смысловые зоны. Выделение смысловых зон можно сделать по среднему или медианному значению по каждой из переменных (губернаторы на примере ниже). Или на основе других значений.
Работа автора
Выделение смысловых зон значительно облегает считывание информации на графике. Оно позволяет донести сообщение с помощью объединения значений в группы.
Альтернативы
Одна из популярных альтернатив для показа взаимосвязи между двумя переменными – две линейчатые диаграммы, расположенные рядом. Они делают очевидной обратно пропорциональную связь: в одном ряду значения возрастают, а в другом, соответственно, убывают.
Часто для показа взаимосвязи используют комбинированные диаграммы, сочетающие столбиковую диаграмму и линейный график. Обычно, это не самое удачное решение, так как может создавать ложное ощущение корреляции.
Если вы все же решили использовать подобную комбинированную диаграмму, стоит соблюдать несколько правил:
• Не больше двух рядов данных на одном графике. Если нужно больше, лучше сделать несколько графиков
• Четкое указание на то, какая шкала к какому ряду данных относится
• Использование сопоставимых размерностей у шкал. Если в одной размерности определенное расстояние означает, что показатель изменился вдвое, то и в другой должно быть то же самое. Иначе можно легко ввести читателя в заблуждение относительно предполагаемой причинной связи между переменными