Графики, которые убеждают всех Богачев Александр

Об авторе

Я думаю, инфографика и визуализация данных завораживали меня с раннего детства. У нас дома были детские энциклопедии издательства «Росмэн». Обычно они полны инфографики: вулканы в разрезе, схема Солнечной системы и тому подобное. Подростком я увлекался футболом и футбольной статистикой. Интернет тогда был совсем не развит, и мы с братом создавали свои собственные энциклопедии футбольных чемпионатов, вели турнирные таблицы, рисовали схемы игр на вылет, считали голы, пасы и желтые карточки. Потом эта система перешла и на компьютерные игры.

Когда в 17 лет я поступил в медицинскую академию, то плотно познакомился с одним из наиболее старых жанров инфографики – атласом анатомии. После окончания ВУЗа я стал работать врачом. Казалось, инфографика забыта. Но и во время работы врачом я создавал базы данных пациентов и рисовал схемы лечения.

Вот, например, результаты одного дня профилактических осмотров. Осмотры показаны на пленке ЭКГ (сама ЭКГ никакого отношения к визуализации данных не имеет). Это результаты самого легкого дня – последнего. В первый день было 130 осмотров, потом 112, потом 88. А в последний, изображенный на картинке, – всего 44.

Точка – начало приема. Точка с кружочком – прием с ЭКГ. В предыдущие дни я тоже фиксировал тех, кто приходил. Но оптимальную форму визуализации нашел только в последний день.

В 27 лет я ушел из медицины, поменял ряд других специальностей и окончательно остановился на инфографике и визуализации данных. Год в Санкт-Петербурге руководил мини-студией, специализирующейся на медицинской инфографике. Затем переехал в Москву и стал работать редактором в Студии инфографики сайта РИА.ру. За 2,5 года работы там выпустил больше 50 проектов, завоевал вместе с коллегами несколько международных премий, отточил навыки информационного дизайнера и столкнулся со всем спектром задач по визуализации данных. Во время работы в Студии у меня было правило: «При создании каждого нового проекта осваивать один новый инструмент или прием». Это позволило в короткие сроки овладеть массой различных техник и подходов к визуализации данных.

Мы делали в РИА масштабные проекты, но меня все больше стали привлекать простые графики и диаграммы – оказалось, что они не так просты. Чем больше я погружался в это, тем чаще замечал неудачные, перегруженные, непонятные визуализации данных вокруг. Тогда я создал в Telegram канал «Чартомойка» (chart по-английски – диаграмма), где стал проводить разборы попадавшихся мне графиков.

После ухода из РИА я консультировал бизнес, маркетинг, медиа и НКО в отношении визуализации данных. Работал с крупными компаниями над проектами, связанными с инфографикой и визуализацией данных. В качестве руководителя отдела дата-спецпроектов в РБК занимался в том числе датавиз-дирекшеном – обращал внимание на неочевидные нюансы при визуализации числовой информации.

Последние четыре года много преподаю визуализацию данных и презентации, оценил сотни (может быть, даже тысячи) студенческих работ. С 2019 года преподаю визуализацию данных и дата-сторителлинг на магистерской программе «Журналистика данных» в Высшей школе экономики.

В 2018 году я посчитал и даже визуализировал свои образовательные активности, получилось всего около 70: тренинги, лекции, вебинары. В конце концов, кажется, мне удалось выработать систему обучения и донесения знаний о визуализации данных.

Эта тема не кажется мне узкоспециальной. Она может и должна преподаваться в старших классах школы или на начальных курсах вузов. Умение визуализировать числовую и нечисловую информацию и создавать презентации – один из наиболее распространенных и востребованных сегодня soft skills в самых разных сферах.

Итогом моего погружения в сферу визуализации данных стала эта книга. Хочется надеяться, что для кого-то она станет отправной точкой в повышении культуры графического представления числовой информации и будет способствовать появлению более грамотных и эффективных графиков в нашей стране.

Александр Богачев

Введение

Многие думают, что умеют делать графики в Excel и презентации в PowerPoint. На самом деле 95 % (или даже больше) графиков, которые ежедневно тысячами производят во всем мире, ужасны. Непонятно, кто в этом виноват. Ведь люди учатся на том, что видят вокруг. А вокруг – неудачные, слабые, перегруженные графики, непонятные, не доносящие никакой конкретной мысли. Сделаны они в популярных офисных программах. Все их видят и считают «крутыми», другие люди тоже хотят делать именно так. Производители софта идут навстречу и встраивают подобные шаблоны в свои программы. А большинство людей (и это нормально) пользуется тем, что предлагается по умолчанию. Круг замыкается. На самом деле авторов этих графиков не в чем упрекнуть: они хотят сделать «лучше», «красивее», «ярче».

В докомпьютерную эпоху над каждым графиком, перед тем как его нарисовать, нужно было подумать. Прежде всего решить, нужен он или нет, стоит ли тратить на него столько усилий. И, если нужен, то как сделать его оптимальным образом, максимально наглядно. Сейчас большинство, как говорилось выше, пользуется стандартными настройками программ типа Excel, а график создается буквально за долю секунды. Но насколько этот график и слайд на его основе хороши?

Главное – не просто сделать график, даже корректный. Ваша задача – убедительно и наглядно донести до читателей то, что вы нашли в данных. Сообщение, ключевую мысль или даже историю, которая в них есть. Программа, которая строит график, не знает и не может знать этой истории. Ее можете и должны знать вы.

Однажды я читал статью про биткоин-фермы. Авторы объясняли, что биткоин не так уж безопасен, как принято думать. Оказывается, биткоин-фермы (места, где создается биткоин) объединяются в пулы. Больше 50 % всего производимого биткоина – на совести всего четырех пулов, которые к тому же находятся в одной стране – Китае. Стоит получить контроль над этими четырьмя пулами – и можно вносить фальшивые платежные операции. Эту мысль в статье иллюстрировал чудовищный график:

Кольцевая диаграмма перегружена цветами, выносками, значениями. Скорее всего, она сделана очень быстро, за несколько минут. Но стоит немного ее перекрасить, не меняя остальной информации, – и график начинает рассказывать эту историю, помогая тексту или даже частично заменяя его:

Здесь по-прежнему слишком много лишней информации и не очень аккуратное оформление. Но даже в таком виде этот график гораздо понятнее передает главное сообщение.

Визуализация данных – мощный инструмент для решения различных задач. Важно понимать, какую именно задачу вы пытаетесь решить этим инструментом. Что именно вам нужно показать, рассказать, кого и в чем убедить, какое решение помочь принять?

В этой книге вы не найдете конкретных рекомендаций, как сделать тот или иной график, – с этим легко справятся справка к программе и интернет. Эта книга дает универсальные принципы, которые превратят ваш график из яркой, но, по сути, невнятной картинки в мощный инструмент донесения вашего сообщения. Вы научитесь делать свое сообщение очевидным адресату.

Визуализация данных эффективна настолько, насколько она преподносит данные в понятной для нашего мозга манере. Большинство ошибок в графиках возникает из-за непонимания того, как работают наше зрение, внимание и восприятие в целом. Мелочей здесь нет: подготовка данных, выбор типа представления информации, оформление, заголовки, подписи, аннотации и другое. Все это в совокупности позволяет сделать график корректным, эстетичным и эффективным. Обсуждению данных вопросов и посвящена эта книга. Прочитав ее, вы сможете по-новому взглянуть на создание даже самого простого графика или диаграммы.

Для кого эта книга? Для тех, кто не чувствует уверенности в себе, когда его просят сделать график или несколько диаграмм. Для аналитиков, менеджеров, маркетологов, предпринимателей, студентов, бакалавров, магистрантов и аспирантов, ученых. Для всех, чья жизнь так или иначе соприкасается с визуализацией данных.

Успешный, эффективный график требует знаний из разных сфер: статистики, аналитики, дизайна, собственно визуализации данных и даже журналистики. В этой книге вы найдете основы этих дисциплин и познакомитесь с пошаговым подходом к созданию эффективных, убеждающих графиков.

Глава 1

Пример было/стало. Общее понимание процесса

В большинстве случаев люди не задаются вопросом, как им сделать более наглядный, эффективно работающий или рассказывающий историю график. Они рады тому, что из их цифр в офисной программе в принципе получился хоть какой-то график. К нему применяются те варианты оформления, которые настроены по умолчанию, график вставляется в презентацию, работа кажется выполненной.

Было/стало

Вот типичный график, который мы часто видим в презентациях:

С одной стороны, автор явно старался: слайд выглядит ярким и привлекает взгляд. Применены стандартные шаблоны оформления диаграмм из Excel и PowerPoint.

Но давайте зададим несколько вопросов, чтобы понять, насколько нагляден этот слайд:

1) Представлены ли на нем данные? Да, доля твердых сыров в каждом году графически закодирована углами секторов круговой диаграммы.

2) Насколько точно визуализированы данные? Не очень точно.

Круговая диаграмма сама по себе не особо наглядна: человеческий глаз плохо оценивает разницу площадей и углов. Здесь проблема усугубляется тем, что круговые диаграммы сделаны псевдотрехмерными и показаны в перспективе. Это еще больше искажает форму секторов и кодируемые ими значения.

3) Удобно ли сравнивать данные? Нет, неудобно.

Основное, что хотелось бы сравнить, – доли продаж разных сыров по годам. Это сложно сделать, потому что сектора круговой диаграммы не очень точно представляют данные. Чтобы понять, какой сектор какому сыру соответствует, нужно постоянно сверяться с легендой. А затем проводить мыслительную операцию, пытаясь понять, выросла доля этого сыра или уменьшилась.

4) Очевидны ли выводы? Нет. Что нам нужно понять – сейчас неясно.

Давайте начнем пошагово улучшать этот слайд.

Сначала уберем псевдотрехмерность, проверим, станет ли нагляднее:

Теперь углы секторов более точно показывают значения. Но все же в этой ситуации круговая диаграмма – не самый наглядный способ визуализации. Давайте поменяем его на линейный график:

Кажется, в этом что-то есть! Мы просто изменили вид визуализации – и содержание сразу же стало очевиднее. Мы видим, доля продаж каких сыров выросла и насколько, а каких – упала. Попробуем убрать все, что отвлекает от самих линий и подписей к ним.

Для начала уберем тень:

Поменяем фон на белый:

Уберем агрессивную контрастную сетку:

Значения подписаны возле концов линий. Значит, шкалу тоже можно убрать:

Сдвинем график в левую часть слайда и разместим значения слева и справа от линий:

Нам по-прежнему неудобно сверять цвета с легендой. Давайте поместим названия сыров рядом с линиями:

Теперь попробуем приглушить цвета. Так мы будем обращать внимание на наклон линий, а не на цвет. Именно наклон характеризует, выросла доля или уменьшилась:

Уже почти то, что нужно! Сделаем заголовок более осмысленным:

Теперь зарифмуем заголовок и сам график, сделав более контрастными соответствующие линии:

Забыли важную информацию – источник данных:

Теперь заменим шрифт и расставим блоки более аккуратно.

Точнее и корректнее сформулируем заголовок. В заголовке выделим тем же оттенком синего названия соответствующих сыров:

Теперь попробуем ответить на те же вопросы, которые мы задавали в начале:

1) Представлены ли на слайде данные? Да, данные представлены графически.

2) Насколько точно визуализированы данные? Данные визуализированы точно.

3) Удобно ли сравнивать данные? Да, стало гораздо удобнее.

Этот тип графика называется slope chart – наклонный график. По направлению и степени наклона линий мы мгновенно считываем, увеличилась доля или нет и в какой мере. Мы видим, у каких сыров в каждом году доля больше и насколько, какое место занимает каждый из них. Удобству и скорости сравнения помогают подписи названий сыров возле самих линий. Так нам не нужно тратить время, чтобы сверять цвета с легендой.

4) Очевидны ли выводы? Да, выводы очевидны.

При этом слайд максимально чистый, на нем нет ничего лишнего, что отвлекало бы внимание, каждая деталь играет свою роль. Заголовок помогает сразу считывать график в нужном ключе.

Давайте попробуем понять, что именно мы поменяли, чтобы сделать этот график лучше.

Мы подобрали наиболее подходящий способ визуализации исходя из того, что хотим показать. Убрали лишние, чрезмерно контрастные и отвлекающие внимание элементы. Ввели наглядное цветовое кодирование. Постарались сделать очевидной главную мысль, добавив акценты. Дополнительно подчеркнули это в заголовке.

Именно эти приемы и то, как они работают, мы будем подробно обсуждать дальше.

Этапы работы

Главная задача этой книги – показать каждому, что цель графиков и диаграмм – не просто представить данные визуально, а убедительно и эффективно донести идею, передать сообщение, рассказать историю.

Как в таком случае будет строиться работа над графиком?

Чтобы передать сообщение, нужно сначала его сформулировать. Но перед этим необходимо понять, в рамках какой более глобальной задачи вы осуществляете эту работу, ее формат. Например, вы работаете с данными для подготовки ежеквартального оперативного отчета руководству. Или же у вас «молодая развивающаяся компания», и вы готовите презентацию для питч-сессии с инвесторами. В обоих случаях вы будете стараться насытить презентации разными смыслами, так как преследуете разные цели.

Определившись с задачей и форматом, вы начинаете формулировать сообщение. Для этого вы всеми возможными и нужными способами проводите анализ данных и сочетаете его с собственными знаниями о том, что происходит в нужной сфере. При необходимости подключаете экспертов, чтобы понимать контекст, в котором живут ваши данные.

Следующий этап – найти оптимальную визуальную форму для передачи сообщения. Нужно определиться с типом графика, который окажется максимально наглядным.

Дальше вам нужно убрать лишнее: все, что не работает на коммуникацию и мешает считывать сообщение.

И, наконец, озвучить сообщение во всю мощь, добавив графику акцентов и написав правильные тексты.

Именно эти этапы мы будем последовательно и подробно обсуждать в этой книге.

Глава 2

Понимать свою задачу и аудиторию

С чего начинается создание графика, наглядно доносящего сообщение? С поиска данных, с выбора необычного типа визуализации или интересной цветовой схемы? На самом деле нет. Самое важное – понять основную задачу, в рамках которой вы планируете делать график.

Графики никогда не существуют сами по себе. Они – всего лишь инструмент, который помогает решить вашу задачу. Чтобы понять, какая именно у вас задача, попробуйте задать себе вопрос: «Зачем я вообще делаю эту презентацию?» Ответ может быть таким: «Я делаю ее, потому что мне это поручило руководство и за это я получаю зарплату». На самом деле это всего лишь обстоятельства выполнения вашей работы, а не ее цель.

Цель можно определить, ответив на вопросы: «На что должна повлиять эта презентация? Что в результате должно измениться?»

Какой в таком случае может быть задача? Например, задача – информировать руководство о том, как прошла реорганизации компании. Тогда вам нужно показать, во сколько она обошлась, какие проблемы возникли в процессе реорганизации, как компания работает сейчас, что изменилось.

Или ваше руководство проводит тестирование нового продукта. Например, ежеквартального аналитического отчета о состоянии рынка. Цель на данном этапе – создать минимально жизнеспособный продукт. Это позволит понять, насколько потенциальные клиенты в нем заинтересованы, что бы хотели туда добавить. При этом презентация сама может являться прототипом продукта. А если отчет уже выпущен, презентация может показать, насколько он востребован, что потенциальных заказчиков в нем устраивает, а что нет.

Важно понять, кто является лицом, принимающим решения по поводу вашего продукта, кто будет утверждать вашу работу. Важны также и ваши потенциальные читатели, ожидания и требования каждого из них. Нужно обговорить все это с заказчиком. А еще лучше – письменно зафиксировать ключевые параметры проекта.

Что еще будет влиять на вашу работу?

• Аудитория – то, насколько она заинтересована в проекте. Это ее жизненная необходимость или ей придется иметь дело с вашей презентацией по долгу службы? Насколько аудитория ориентируется в специфических терминах и процессах в вашей сфере работы? Если график предназначен для публикации в тематическом научном издании, вы можете позволить себе не объяснять какие-то аббревиатуры и очевидные вещи. Но, перенося тот же график в научно-популярную статью, вы обязаны адаптировать его, чтобы он стал понятен широкой читательской аудитории.

• Формат и стиль. Есть ли у компании шаблон презентации, брендбук, фирменные цвета и шрифты? Если есть, то достаточно странно «городить огород», изобретая собственный шаблон. Бывает и хуже: в определенный момент заказчик вспоминает о корпоративном стиле, и приходится все переделывать.

• Условия существования и распространения. Презентация будет показана только с экрана ноутбука/проектора или также предназначена для рассылки по почте? Будет ли выступление? Планируется ли распечатывание и раздача презентации на конференции или встрече?

• Наличие и возможность получения данных и консультации с экспертом.

• Сроки и бюджет.

Оптимальный вариант – создать короткий, на 1–1,5 странички документ. Там будут кратко даны ответы на эти вопросы – списком или в виде диаграммы связей (mindmap).

Вот как могла бы начинаться диаграмма связей для презентации про сыр:

Это кажется скучным и непонятным. Но на деле четкие ответы на данные выше вопросы будут определять практически все ваши решения: от содержания презентации и ее структуры до особенностей оформления конкретных графиков. Чем больше у проекта ограничений, тем проще вам работать.

Что должен в результате сделать адресат вашего графика? Какое решение он должен принять? Что ему нужно ясно понять?

Давайте вспомним график из прошлой главы. Предположим, мы работаем в компании, которая собирается выводить на рынок свой пармезан. Как в таком случае мог бы выглядеть тот же самый график?

А если бы компания продавала голландский и российский сыр, но интересовалась общими трендами на рынке, график мог бы стать вот таким:

Или, например, таким:

Эстетика для графика важна только в той мере, в какой она помогает решить вашу задачу. Не бывает красивого и хорошего графика самого по себе, в отрыве от его задачи. Хотя, разумеется, единый стиль и аккуратность тоже работают на визуальную коммуникацию. Они передают общее впечатление о вашей презентации и компании.

Задачи, которые может выполнять инфографика

• Объяснять

• Помогать принимать решение

• Убеждать

• Представлять результаты в наглядной форме

• Продавать

• Повышать доверие к данным

• Контролировать

• Информировать

В этой книге мы прежде всего говорим о графиках, которые решают задачу коммуникации. В рамках какой коммуникации будет существовать ваш график? Неслучайно информационный дизайн часто относят к более широкому коммуникационному дизайну.

Известный специалист по визуализации данных Стивен Фью указывал, что визуализация данных может служить:

• анализу – поисковые визуализации

• коммуникации – графики помогают передавать сообщение читателю

• контролю – когда с помощью графиков отслеживают состояние различных систем (например, выполнение планов, объем продаж, темпы производства)

• планированию

В любой коммуникации есть три компонента: отправитель, адресат и сообщение. У отправителя сообщения всегда есть цель. Адресат, прочитав сообщение, должен понять отправителя и отреагировать нужным образом.

Однажды ко мне обратились с просьбой сделать интерактивную карту. Данные у заказчика имелись, никаких технических проблем с созданием такой карты не было. Однако мы решили встретиться и обсудить, какую именно задачу заказчик хочет решить. В результате часовой беседы мы совместно пришли к выводу, что интерактивная карта не нужна, а заказчику нужно в целом изменить подход к своей медиастратегии. Кроме того, бюджет лучше использовать по-другому, а карта может быть лишь частью целенаправленной медиакампании, но не ее заменителем.

Главное во второй главе

• Графики – инструмент коммуникации.

• Необходимо понять контекст, в рамках которого существуют график и презентация.

• Нужно определиться с целью презентации.

• Рекомендуется составлять техническое задание с ключевыми параметрами проекта.

Глава 3

Формулируем сообщение

В конечном итоге убеждают адресата только данные, а не график или оформление. Ведь именно в данных содержится то, на что опирается наше сообщение. Даже самый прекрасно оформленный график не произведет впечатления, если за ним не стоит вдумчивая работа по анализу и интерпретации данных. Все равно что цветастый, полный «воды» и написанный для количества знаков текст, в котором мало смысла и много шаблонных фраз.

Если вы работаете в компании, то данные у вас наверняка есть. Возможно, их даже слишком много. Как правило, это бесконечные таблицы из многих тысяч строк. Возникает очевидный вопрос – как среди этих тысяч строк найти подходящие для презентации данные?

Ответ прост: нужно искать то, что важно. То, что максимально соответствует вашей цели внутри проекта. Что в рамках этой цели интересует вас в первую очередь, без чего эта цель не может быть осуществлена. То, от чего зависит выбор действий для решения конкретной задачи.

Процесс выбора нужных данных можно сравнить с процессом медицинского обследования пациента. В организме есть сотни параметров, которые врач умеет оценивать. А дополнительно к этому – тысячи лабораторных анализов и других исследований. Однако пациента не заставляют сдавать все это при каждом посещении врача. Есть несколько обязательных обследований – например, оценка артериального давления, пульса и частоты дыхания. Большинство остальных врач выбирает по ситуации, в соответствии с задачей. Он учитывает, является визит плановым или экстренным, что пациент сообщает о своих текущих проблемах. Если визит плановый, врач подберет профилактические диагностические мероприятия или исследования, соответствующие хронической болезни. Если же человек готовится заниматься спортом, ему требуется оценить свою физическую выносливость – для этого будут подобраны другие анализы и обследования. То есть из многих тысяч параметров человеческого организма, которые ежедневно динамически меняются, врач выберет для исследования несколько релевантных данной ситуации. Для какого-то случая врач может решить, что обследования и вовсе не нужны, а нужны только конкретные действия. Например, больше спать или бывать на свежем воздухе.

Только вы сами можете понять, что важно для конкретного отчета, презентации или научного исследования. В целом можно сформулировать такое правило: если вы сомневаетесь, что данные значимы и их визуализация нужнаскорее всего, представлять их графически не требуется.

Если вы не уверены, понадобится ли график руководству, можно подготовить и положить его в конец презентации. Если по ходу выступления или в конце возникнет соответствующий вопрос, вы сможете продемонстрировать этот график. Также полезно все материалы, не вошедшие в презентацию, собирать в текстовый файл. После выступления его можно отправить слушателям вместе с презентацией.

Однажды я помогал одному банку улучшить презентацию. Ребята говорили, что потенциальные клиенты с трудом врубаются в графики и в тему презентации. По идее, графики как раз должны были облегчать понимание. Для начала я попытался увидеть презентацию глазами потенциального читателя и самостоятельно понять смысл графиков. На одном из них мое внимание привлекло сильное колебание цены. Я подумал, что смысл графика именно в этом:

Однако оказалось, что слайд создан ради вот этого маленького фрагмента:

В итоге этот фрагмент мы и превратили в слайд.

На графике показано важное событие – покупка клиентом акций. После этой покупки цена акций может расти, а может оставаться прежней. В этом состоит ключевая мысль. При покупке через банк цена почти не меняется. При самостоятельной покупке рынок реагирует резко. Цена повышается, и дальнейшая покупка становится для человека невыгодной.

Финальная версия слайда была примерно такой:

Этот пример показывает, как именно относиться к большому массиву данных. Нужно выбирать из него только релевантные, максимально подходящие для ваших целей срезы: по времени, по категориям и так далее.

Однако в другой ситуации вам, наоборот, может понадобиться более широкий контекст, потому что иначе картина сильно искажается.

Если показать только график А, у читателей сложится обманчивое впечатление, что показатель уверенно растет. В то время как на самом деле это был лишь короткий эпизод. Это хорошо видно на графике B.

Продолжим аналогию с врачом. Представьте, что врач назначает всем пациентам одни и те же обследования, даже не взглянув на людей, вне зависимости от ситуации. Звучит абсурдно? Однако такое происходит очень часто. Сотрудника просят сделать отчет или презентацию с графиками «вот по этой табличке».

Зачастую человек не тратит время, чтобы выяснить: зачем нужна презентация, какова ее цель и что все эти цифры обозначают в разрезе цели. Он просто визуализирует все, что можно визуализировать. Графики могут получиться симпатичными, но вряд ли они улучшат понимание происходящего. Потому что, если понимания происходящего нет у автора графика, его не будет и у зрителя.

Качество данных

С данными всегда что-то не так. Они всегда неполные, есть вопросы к методологии, не такие свежие, как хотелось бы, не совсем в том формате, в каком нужно, не совсем с теми переменными, с какими хотелось бы. Это следует принимать как данность и стараться выжимать максимум из того, что есть.

К данным, к тому, как они собраны, организованы и подготовлены, предъявляются определенные требования. Визуализация данных – это следующий этап после их подготовки и анализа. Если на подготовительном этапе возникли ошибки, то представление таких данных, как бы грамотно оно ни было сделано, не будет стоить многого.

Данные должны быть по возможности:

• максимально свежими

• целостными, полными, единообразными

• сравнимыми – собранными по одной методологии на сопоставимых выборках

• из источников, вызывающих доверие

Этот график, построенный на базе данных террористических актов Мэрилендского университета, показывает количество терактов, совершенных в мире с 1969 по 2019 год. Я потратил много времени, выясняя, почему в середине девяностых годов значения на графике полностью отсутствуют. Я подозревал в ошибке какие-то настройки программы, в которой создавался график. В конечном итоге пришлось обратиться к документации, сопровождавшей базу данных. Выяснилось, что данные за 1993 год отсутствуют по техническим причинам.

Очень важно перед началом работы проверить датасет (набор данных) на полноту, целостность и корректность. Если он небольшой, можно просто просмотреть все значения. Если относительно большой – нужно создать оценочные визуализации.

Очень удобно оценивать целостность датасета и распределение значений в столбцах с помощью софта, подобного Trifacta Wrangler (см. скриншот). Над каждым столбцом строится гистограмма, показывающая распределение данных в нем:

Датасет нужно готовить так, чтобы в каждом столбце находились данные в одном формате и одного типа. Значения должны быть написаны одинаково, с точностью до знака. Если в столбце встречается различное написание или ошибки (например, Массква, Москва, г. Москва) – все должно быть приведено к единообразию. Какие-то столбцы при необходимости нужно разбить, какие-то, напротив, свести в один.

Скажем, таблицы, представленные на сайте Росстата (gks.ru), непригодны для автоматизированной работы с ними. Они неоднородны. Их строки могут содержать значения разного уровня вложенности: «итого», «в том числе», «из них». Такую таблицу можно только изучать, а проводить по ней анализ и строить графики нельзя. Ту же таблицу про причины смертности можно было бы переделать, например, так:

Подготовительная работа крайне важна. От нее зависит не только то, насколько удобно вам будет работать в аналитической программе или программе для визуализации данных. Подготовка решает, насколько корректными будут ваши выводы и графики в итоге.

Правила оформления датасета

• Первая строка – заголовки столбцов

• Каждый столбец – отдельная категория

• Данные в столбцах однотипны

• Одно событие или объект – одна строка

• Отсутствие пустых строк и столбцов

Иногда предварительная работа (поиск, сбор, подготовка, очистка данных) занимает 80–90 % времени работы над проектом. И это нормально.

Погружение в тему и контекст

Любые количественные значения, которыми наполнены ваши таблицы, – это не просто циферки. Они возникают не из воздуха. За каждым значением стоит процесс или явление в реальном мире. И эти цифры что-то означают. Они собираются по какому-то принципу, следуя какой-то методологии, с какими-то интервалами, с какой-то погрешностью. И каждая из цифр оценивает какой-то маленький аспект огромной многообразной реальности. Важно понимать, насколько достоверно и в каком качестве данные соотносятся с реальностью, какой контекст за ними стоит.

Одно из российских СМИ однажды опубликовало график, посвященный числу эмигрантов из России по годам. И сделало вывод, что в нашей стране все настолько плохо, что с 2012-го года, с третьего срока Путина, народ массово покидает страну. Шутка ли – 300 тысяч эмигрантов в год! Это население крупного областного центра.

Однако же данные эти на самом деле совсем не однозначны. Природа показателей, стоящих за этими цифрами в разные периоды, различна.

Первое, о чем следует сказать: по тем же данным, за тот же период в Россию въехало в два раза больше людей:

И, что более важно, этот график о совершенно разных группах людей. По-хорошему, их вообще нельзя ставить на общую ось. Оказывается, за последние 15 лет Росстат дважды менял методику подсчета мигрантов. С 1997 по 2006 год учитывались только те, кто получил вид на жительство в России или снялся с учета при переезде за границу. С 2007 по 2011 год – получившие разрешение на временное проживание. А с 2012 года (как раз!) стали считать всех, кто въехал в Россию или выехал из нее на срок от девяти месяцев по любой причине.

Согласитесь, между получением вида на жительство и въездом на срок от девяти месяцев есть существенная разница. Куда же все уезжают? В основном в страны Средней Азии и Украину. То есть на самом деле график показывает возросший объем трудовой миграции между странами бывшего СССР. Какова же доля уезжающих в страны дальнего зарубежья по сравнению с концом 1990-х годов?

Она стала гораздо меньше. Особенно хорошо количество уезжающих на Запад видно на этом графике:

Как видим, между 300 тысячами в год и 10 тысячами в год огромная разница.

Насколько этим данным Росстата можно доверять? Есть ли какие-то недочеты в их методологии? Да, есть. Росстат фиксирует выезд человека из России автоматически, по факту истечения срока разрешения на въезд. Так трудовые иммигранты, не продлившие документы, по данным Росстата «становятся» эмигрантами.

При этом никак не учитываются россияне, которые не снимаются с регистрационного учета, уезжая из страны. А таких людей с каждым годом становится все больше. На учет в консульствах западных стран встает в 3–5 раз больше эмигрантов из России, чем фиксируется Росстатом. Тем не менее, говорить о существенном росте количества уезжающих из страны нельзя.

Серые отсечки показывают миграционный баланс – разницу между приехавшими и уехавшими из России с учетом данных консульств принимающих стран. С одной только Германией отрицательный миграционный баланс составляет 10–15 тысяч человек в год. Это значит, что в Германию переезжает на 10–15 тысяч россиян больше, чем граждан Германии переезжает в Россию.

В целом в Европу, США и Канаду ежегодно уезжает около 50–70 тысяч россиян.

Тема непростая: в последние годы размывается само понятие эмиграции, ее становится все сложнее отслеживать и фиксировать.

Без погружения в тему и понимания связей между данными и реальностью создать эффективную, дающую инсайты визуализацию практически невозможно.

Представьте, что ваша компания опиралась бы на анализ уровня этого СМИ? К каким неверным действиям это могло бы привести!

В каждой отрасли знания есть свои значимые аспекты. Если вы хотите разобраться в них, но ваших знаний не хватает – обратитесь к эксперту. Вам нужен специалист, который непосредственно работает с этими данными. Если вы сотрудник, которого попросили сделать инфографику, именно ваша задача – обсудить с заказчиком или начальником, что в данных самое значимое, ключевое.

Знать основы статистики

Чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики. Если вы уже изучали статистику – самое время вспомнить о ней. Это нужно, чтобы избежать бессмысленных и некорректных вычислений и визуализаций на их основе.

Необходимо получить принципиальное понимание, какие расчеты приводят к вызывающим доверие результатам, а какие – нет. Уходить при этом в дебри и подробно разбираться в формулах и сложных видах статистического анализа совершенно необязательно.

Вот, например, карта России. Угадайте, какой показатель здесь закодирован оттенками цвета?

Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург, Краснодарский край. Если любые статистические данные по регионам России не пересчитывать на количество населения, вы всегда будете получать подобную карту.

Например, мы изучаем смертность в ДТП. Здесь важно понять не сколько всего было жертв ДТП в каждом регионе, а сколько их было на каждую тысячу проживающих.

Вот карта общего числа преступлений по регионам за 2018 год в абсолютных числах. Она почти идентична карте, показывающей население:

А вот количество преступлений на 10 000 человек:

Картина меняется радикально. Данные по регионам почти всегда нужно нормировать, то есть приводить к количеству населения или к площади.

Нельзя вольно обращаться и с процентными значениями. Обычно их нельзя просто так складывать или высчитывать из них среднее.

Допустим, нам известно, что 18 % взрослых и 21 % детей в России страдает аллергией. Из этого совершенно не следует, что аллергией страдает 39 % населения, как это показывает картинка выше. Также из этого не следует, что процент аллергиков среди населения всех возрастов равен 19,5 ((18+21)/2). Чтобы узнать процент аллергиков всего среди населения, нам нужны дополнительные данные. Необходимо знать процент взрослых и детей в России. Допустим, детей 10 %, а взрослых – 90 %. Теперь проводим следующие вычисления: (90 0,18 + 10 0,21)/100 = (16,2 + 2,1)/100 = 18,3 %.

Быть аналитиком. Задавать вопросы

Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.

Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:

• статистического

• визуального

Статистические методы используются для того, чтобы узнавать:

• количество значений в каждой категории

• распределение значений внутри категории: какие значения встречаются чаще, какие – реже

• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана

• максимальные и минимальные значения и так далее

Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.

Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.

Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.

Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.

Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.

Поэтому автоматический инструмент анализа данных до сих пор не создан. А вот логику статистического и визуального анализа вполне можно понять. Для этого загрузите свою таблицу в Google Sheets (Гугл Таблицы). Затем нажмите в правом нижнем углу кнопку «Анализ данных». Сначала вы увидите ключевые числа, описывающие датасет. Ниже – сводные таблицы и графики. Давайте загрузим в Гугл Таблицы данные о зарплате тренеров и результатах команд, участвовавших в Чемпионате мира по футболу-2018:

Страницы: 12345 »»

Читать бесплатно другие книги:

В новой книге известного режиссера Игоря Талалаевского три невероятные женщины «времен минувших» – Л...
Почему мы простужаемся? Что вызывает смену времен года? Если выстрелить из пистолета и одновременно ...
Работать ещё и во сне? Увольте! Но увольнений у сноходцев, похоже, нет. Зато опасностей хоть отбавля...
Более двадцати лет Марк Яковлевич Казарновский живет во Франции, но почти во всех своих произведения...
Эта ценная книга содержит подробное описание 53-х славянских оберегов, лунный календарь ведуньи, дре...
…Но Аллины наивные иллюзии стали рассыпаться в прах сразу же, как только они с мамой приехали в Моск...