Как измерить все, что угодно. Оценка стоимости нематериального в бизнесе Хаббард Дуглас
Похоже, что, приступая к измерениям в бизнесе, некоторые толковые предприниматели обычно исходят из того, что им, раз уж они так умны, придется самим придумывать метод количественной оценки интересующего объекта. Однако на самом деле в большинстве случаев подобные инновации вовсе не требуются.
Ни одно научное исследование не начинается с первой случайной выборки или экспериментального наблюдения. Не начинается оно и с разработки метода выборки или способа проведения эксперимента. Исследование начинается с вторичных исследований, то есть с анализа результатов, полученных до вас. Вторичные исследования отличаются от первичных, во время которых исследователи сами делают свои наблюдения. Несмотря на название, вторичные исследования всегда предшествуют первичным. Все исследователи считают само собой разумеющимся, что проблемой уже кто-то занимался. Об этом говорит и первое из четырех сформулированных нами «рабочих предпосылок» измерения (см. главу 3): «Ваша проблема совсем не так уникальна, как вы думаете. Предположите, что кто-то уже решил ее до вас или, по крайней мере, уточнил». Эта предпосылка почти всегда оказывается правильной.
Анализ имеющейся литературы, похоже, еще не вошел у менеджеров в привычку. Но проводить его стало намного легче. Сегодня почти все мои исследования начинаются с поиска информации в Интернете. Какую бы задачу по измерению я ни пытался решить, обязательным этапом является «домашнее задание» в Google или Yahoo. Потом я, конечно, все равно отправляюсь в библиотеку, но уже лучше представляю, что мне нужно.
Даю несколько советов по использованию Интернета для вторичных исследований. Быстро найти нужную вам информацию по методам измерения вы сможете только при условии, что укажете в строке «Поиск» нужные слова. Умение эффективно пользоваться Интернетом приходит с практикой, но, возможно, вам пригодятся следующие советы:
• Если предмет мне совершенно незнаком, то я начинаю вовсе не с Google, а с онлайновой энциклопедии Wikipedia.org. Она содержит свыше миллиона статей, многие из которых посвящены проблемам бизнеса и техники, кажущимся слишком спорными для освещения в традиционных энциклопедиях. В хорошей статье обычно имеются ссылки на другие сайты, а по спорным вопросам приводятся несколько точек зрения, чтобы вы могли сами выбрать наиболее подходящую.
• Ищите по словам, которые ассоциируются с исследованиями и количественным анализом. Если вам необходимо оценить качество программного обеспечения или мнение потребителя, ищите не только по этим словам — найдете только общие рассуждения. Ищите по таким словам, как «таблица», «опрос», «контрольная группа», «корреляция» и «стандартное отклонение», которые обычно фигурируют в более содержательных исследованиях. Кроме того, в серьезных поисках обычно используют такие слова и словосочетания, как «университет», «доктор наук» и «общенациональные исследования».
• Помните, что в Интернете есть не только поисковые машины, но и хранилища специальной информации. Недостатком таких мощных поисковиков, как Google, является то, что вы, получив тысячи совпадений, можете все же не найти необходимой информации. Но попытайтесь заходить на сайты отраслевых или научных журналов. Если меня интересует национальная или мировая экономическая статистика, то я отправляюсь прямиком на такие сайты, как сайт Бюро переписи населения США, Министерства торговли и даже ЦРУ («World Fact Book» — «Всемирная книга фактов ЦРУ» — место, где я всегда нахожу самые разнообразные данные международной статистики). Совпадений окажется меньше, а нужных данных будет больше.
• Используйте несколько поисковых машин. Даже всесильный на первый взгляд Google пропускает статьи, которые быстро находят другие машины. Лично я помимо Google пользуюсь clusty. com и yahoo.com.
• Найдя исследования не совсем по своей теме, в которых, тем не менее, упоминается интересующий вас вопрос, обязательно посмотрите библиографию. Иногда ее изучение — лучший способ отыскать нужные данные.
Основные методы наблюдения: не работает один — попробуйте другой
Подробное описание того, как вы представляете себе или распознаете предполагаемый объект измерения, — полезный прием при выборе метода его количественной оценки. Наличие любых оснований считать, что объект вообще существует, означает: вы его так или иначе наблюдаете. Когда кто-то утверждает, что удовлетворенность потребителей значительно повысится в случае сокращения времени ожидания ответа у телефона, он делает это, основываясь на каких-то аргументах: возможно, поступали жалобы от клиентов; возможно, с ростом компании наметилась тенденция к сокращению числа довольных покупателей. Измерения почти всегда проводятся для проверки достоверности какой-то идеи, а эти идеи возникают не на пустом месте.
Выявив неопределенность, установив соответствующие пороги и рассчитав стоимость информации, вы уже обнаружили нечто, в принципе поддающееся наблюдению. Обдумайте несколько этапов, связанных с характером наблюдений, — своеобразный каскад эмпирических методов. Если вам не подойдет первый подход, попробуйте следующий и т. д. Вопросы приведены в произвольном порядке, но, возможно, в некоторых ситуациях вам будет удобнее начать с первого, а потом перейти к другим.
1. Оставляет ли интересующий вас объект какие-либо следы после себя? Практически все явления, какие только можно вообразить, оставляют после себя некое доказательство своего осуществления. Рассуждайте, как следователь. Приводит ли объект, событие или вид деятельности, который вы хотите измерить (оценить), к последствиям, оставляющим после себя какие-нибудь следы? Пример: длительное ожидание ответа у телефона заставляет некоторых клиентов, позвонивших в службу поддержки, дать отбой. Это должно приводить, по меньшей мере, к убыткам в бизнесе, но каким именно? Почему люди не дожидаются ответа — по каким-то своим причинам или из-за раздражения от проволочки? В первом случае они перезвонят, а во втором — нет. Выявив хотя бы несколько человек из тех, кто повесил трубку, и связав это с сокращением объемов их покупок, вы получите подсказку. Сумеете ли вы установить корреляцию между числом клиентов, не дождавшихся ответа, и снижением продаж своей продукции? (См. пример «Оставшийся след».)
2. Если явление не оставило следов, попробуйте понаблюдать за ним или какой-то его составляющей непосредственно. Вы наверняка не подсчитывали, сколько машин с номерами других штатов скапливается на парковке у магазина, — теперь можете сделать это. Конечно, дежурить на парковке целый день нецелесообразно, но вполне приемлемо подсчитать такие автомобили в какие-то произвольно выбранные часы работы магазина.
3. Если объект измерения, по всей видимости, не оставил после себя никаких определяемых следов, а непосредственное его наблюдение без дополнительных инструментов кажется невозможным, можете ли вы придумать способ обнаружить последствия сейчас? Если до сих пор объект никаких следов не оставил, его можно «пометить», чтобы они проявились, по крайней мере, теперь. Например, Amazon.com предоставляет бесплатную подарочную упаковку, чтобы следить за тем, сколько книг приобретается в подарок. Раньше создателей сайта эта информация не интересовала. Введение новой услуги «мешки» позволило им получить такие сведения. Другой пример — раздача купонов покупателям, давшая владельцам магазинов возможность следить в том числе и за тем, какие газеты читают их клиенты.
4. Если наблюдение в существующих условиях не дает нужных результатов (когда имевшейся или вновь собранной информации недостаточно), то нельзя ли «заставить» интересующий вас феномен проявиться в других условиях, в которых наблюдать за ним будет проще? Пример: владелец сети магазинов хочет узнать, как новые правила возврата бракованных товаров повлияют на удовлетворенность покупателей и объемы продажи. Он должен опробовать их сначала в одном магазине, оставив в других все по-прежнему, и сравнить результаты.
1. Идите по следу, как заправский детектив. Проводите «криминалистический анализ» уже имеющейся у вас информации.
2. Используйте непосредственное наблюдение. Начните смотреть, подсчитывать и по возможности делайте выборочные оценки.
3. Если до сих пор объект не оставлял после себя следов, «пометьте» его, чтобы следы наконец появились.
4. Если выйти на след никак не удается, создайте условия, в которых появится возможность наблюдать за объектом (проведите эксперимент).
Перечисленные методы применимы и тогда, когда требуется оценить происходящее в настоящее время (например, текущие продажи, обусловленные положительными отзывами покупателей), и тогда, когда нужно сделать прогноз (ожидаемого совершенствования рекламы, базирующейся на отзывах потребителей о новой характеристике товара, повышения качества обслуживания и т. д.). Когда возникает необходимость оценить текущее состояние, вся необходимая для этого информация уже имеется. Но когда составляется прогноз, приходится решать, что из уже наблюдаемого дает основания ожидать улучшения. Если же в прошлом нельзя найти ничего, что позволяет надеяться на прогресс, то на чем вообще базировались подобные ожидания?
И помните: чтобы обнаружить след, «пометить» объект или провести эксперимент, нужно понаблюдать всего за несколькими явлениями из случайной выборки. Не забывайте и о том, что выявленные составляющие объекта порой измеряются разными способами. И не стоит сразу беспокоиться из-за проблем, которые часто возникают в ходе применения приведенных выше методов. Просто решите, какой из них проще и практичнее применить именно сейчас.
Один крупный европейский дистрибьютор лакокрасочной продукции попросил меня оценить влияние скорости работы сети на объемы продаж, так как от этого показателя зависела быстрота ответов на входящие звонки клиентов. Поскольку офисная АТС вела учет всех звонков, в том числе и прерванных абонентами в период ожидания, а торговый персонал хранил данные о степени занятости (а следовательно, о времени отклика) за прошлые периоды, я порекомендовал провести перекрестный анализ обоих массивов данных. В результате оказалось, что когда нагрузка на сбытовую сеть возросла, клиенты стали обрывать звонки чаще. Изучались также ситуации прошлых периодов, когда сеть работала медленнее по другим причинам, а не из-за того, что ею активно пользовалась служба поддержки, а также динамика продаж. В результате компания сумела выявить ту разницу в продажах, которая объяснялась исключительно более медленной работой сети.
Не измеряйте точнее, чем нужно
В главе 7 мы рассказали о том, как рассчитать стоимость информации, необходимой для принятия решения. Определенная вами исходная неопределенность, стоимость информации и пороги дают достаточно данных о методе измерения, который действительно подходит для поставленной задачи. Если информация о том, заметили ли покупатели улучшение качества вашей продукции после перехода на новый метод производства (например, после изменения рецептуры изготавливаемого вами напитка), стоит пару тысяч долларов, то вам не удастся экономически обосновать ни небольшое маркетинговое исследование, ни даже дегустацию вслепую. Но когда эта информация стоит миллионы долларов (что более вероятно, если ваша компания крупная или хотя бы средняя), вас не запугает исследование, которое обойдется в 100 тыс. дол. и продлится несколько недель. Знание стоимости информации, порога, текущей неопределенности и решения, которое придется принять, — необходимое условие правильного выбора цели и условий измерения.
Стоимость информации определяет верхний предел затрат на проведение измерений. Но, как правило, такие затраты оказываются намного ниже. Обычно я рассчитываю, что они приблизительно составят 10 % EVPI, хотя порой они не превышают и 2 % EVPI (это минимум, из которого вы должны исходить). Я ориентируюсь на эти показатели по трем причинам. Во-первых, EVPI — это стоимость полной информации. Но все эмпирические методы дают какую-то погрешность, а наша цель — снизить неопределенность, а вовсе не получить точные сведения. Поэтому стоимость результатов наших измерений будет, по всей видимости, намного меньше EVPI. Во-вторых, начальные измерения нередко меняют стоимость результатов дальнейших измерений. Если первые итоги оказываются неожиданными, то затраты на продолжение оценки могут упасть до нуля. Это означает одно: измерения следует проводить итеративно. А поскольку у нас всегда есть возможность продолжить измерения, если нужен более точный результат, то обычно в недооценке результатов начальных оценок присутствует управляемый риск. Наконец, не забывайте о том, что кривая стоимости информации обычно круче всего идет вверх в самом начале: первая сотня изученных образцов снижает неопределенность намного больше, чем вторая.
Способ измерения объекта подсказывает порог. Если возникает необходимость оценить возможный спрос, чтобы определить объем производства, или производительность труда (для расчета премиальных выплат), то фактически порога у вас не будет. Каждое повышение точности будет иметь свою стоимость, хотя с приближением к EVPI стоимость информации будет инкрементально расти все медленнее. Но предположим, что требуется рассчитать размер рынка, так как сделанные вашей компанией инвестиции окажутся безубыточными только в случае роста рынка не менее чем на 12 % по сравнению с прошлым годом. Выбирая метод измерения, вам следует учесть, что ошибка не выше 1 % не так важна, главное — узнать, на какой стороне порога вы окажетесь. Если вы можете с достоверностью установить, что рынок вырастет менее чем на 5 %, то какова погрешность этого показателя — 1 % или 5 % — вам неважно. В этом случае главное, чтобы прогноз не показал, что рост рынка составит больше (или меньше) 12 %, когда на самом деле правильно обратное.
Наконец, о том, какой метод измерения вам потребуется, говорит и исходная неопределенность. Помните: чем выше неопределенность, тем больше информации дадут первые наблюдения. Если сначала неопределенность была очень высока, то даже методы, имеющие большую неустранимую погрешность, дадут больше сведений, чем имелось раньше.
Учитывать погрешность
Все измерения дают погрешность. Чтобы решить эту проблему, ее, как и любую другую, необходимо, прежде всего, признать. После этого мы сможем выработать стратегию, позволяющую, по крайней мере, частично компенсировать ошибки. Однако те, кто быстро пасует перед трудностями измерения, нередко исходят из того, что наличие любой погрешности означает невозможность оценки. Будь это так, измерения были бы невозможны ни в одной области науки. Но, к счастью для научного сообщества и для всех остальных, это заблуждение. Энрико Ферми может покоиться с миром.
Ученые, статистики, экономисты и большинство других специалистов, занимающихся эмпирическими измерениями, делят ошибки на две большие категории — систематические и случайные. Систематические ошибки — это постоянные, а не случайные отклонения результатов одного наблюдения от итогов другого. Например, если прогнозы доходов следующего квартала, составляемые менеджерами по продажам, постоянно оказываются завышенными в среднем на 50 %, то это ошибка систематическая. То, что завышение не всегда составляет ровно 50 %, — ошибка случайная. Случайная ошибка одного наблюдения, по определению, не поддается предсказанию, но случайные ошибки ряда наблюдений подчиняются определенной закономерности и могут быть рассчитаны с помощью теории вероятности.
Термины «систематическая» и «случайная ошибки» связаны с такими понятиями, как достоверность и точность. Достоверность отражает воспроизводимость и повторяемость результатов измерений, в то время как точность показывает, насколько результат измерения близок к «истинному» значению. Большинство считает понятия «точность» и «достоверность» синонимичными, но специалисты по измерению их определенно различают.
Показания домашних весов, специально настроенных, чтобы занижать или завышать вес, могут быть достоверными, но неточными. Они достоверны, так как будут показывать один и тот же вес каждый раз, когда один и тот же человек будет вставать на них несколько раз в течение часа (за который его вес не успеет измениться). И все же они неточны, потому что всякий раз будут показывать вес, специально заниженный, например на 3 кг. Представим себе теперь, что идеально настроенные весы находятся в движущемся автофургоне. Ухабы, ускорение или спуски и подъемы заставят их давать каждый раз иные показания, даже если взвешиваться будет один и тот же человек (становясь на них по два раза в минуту). И все же окажется, что средний ответ очень близок к его реальному весу. Вот пример довольно хорошей точности, но низкой достоверности. Это характерно и для калиброванных экспертов: они могут быть непоследовательными в своих суждениях, постоянно что-то пере- или недооценивая.
Систематическая ошибка, или систематическое отклонение (смещение) — неотъемлемое свойство процесса измерения давать определенный результат; постоянное отклонение.
Случайная ошибка — ошибка, непредсказуемая для отдельного наблюдения, непостоянная и не зависящая от известных величин (хотя в своей массе такие ошибки подчиняются законам вероятности).
Точность — характеристика измерений, дающих низкую систематическую ошибку, то есть таких, когда искомое значение не занижается и не завышается на постоянной основе.
Достоверность — характеристика измерений, дающих низкую случайную ошибку, то есть таких, которые дают аналогичные результаты, пусть и далекие от истинного значения.
Иными словами, достоверность — это низкая случайная ошибка при любой систематической ошибке, а точность — это низкая систематическая ошибка при любой случайной ошибке. Каждый вид ошибки можно учесть и компенсировать. Зная, что весы всегда показывают на 3 кг больше, мы можем скорректировать их показания. Если весы настроены точно, но дают разноречивые показания, то мы можем устранить случайную ошибку, проведя несколько измерений и рассчитать средний результат. Любое снижение того или иного вида ошибки называется контролем точности.
Случайная выборка представляет собой тип контроля точности в случае правильного ее использования. Непредсказуемые по отдельности, взятые в целом, случайные эффекты подчиняются определенным, вполне прогнозируемым закономерностям. Например, я не знаю, как упадет одна подброшенная монета, но могу сказать, что при подбрасывании 1000 монет решка выпадет 500±26 раз (способ определения этой ошибки мы еще обсудим позже). Намного сложнее оценить, даже приблизительно, систематическую ошибку. Систематические ошибки (допускаемые необъективно настроенными экспертами, определяющими качество продукции, или приборами, постоянно дающими завышенные показания) не обязательно порождают случайные ошибки, не поддающиеся количественной оценке с помощью теории вероятности.
Будь у вас выбор, что бы вы предпочли: взвеситься на разрегулированных, но достоверных весах с неизвестной погрешностью или на настроенных, но находящихся на движущейся платформе и дающих всякий раз разные показания? Я обнаружил, что в бизнесе люди нередко предпочитают достоверность с неизвестной систематической ошибкой недостоверному значению со случайной ошибкой. Например, чтобы определить, сколько времени торговые представители тратят на встречи с клиентами по сравнению с выполнением других административных задач, менеджеры, скорее всего, проанализируют все ведомости учета рабочего времени. Идея провести случайную выборку торговых представителей и изучить структуру их временных затрат вряд ли придет им в голову. Но ведомости учета рабочего времени не дают точной картины, особенно если заполняются в пятницу в 5 часов вечера перед самым уходом с работы за всю неделю сразу. Люди недооценивают время, затраченное на выполнение одних задач, переоценивают продолжительность выполнения других и непоследовательны в классификации этих задач.
Поэтому даже если анализ всех пяти тысяч ведомостей учета рабочего времени (по 50 недельных ведомостей на каждого из 100 торговых представителей) и скажет нам, что они тратят на непосредственное общение с клиентами 34 % своего времени, мы не будем знать, правда ли это. И все же эта «точная» цифра, похоже, кажется многим менеджерам вполне убедительной. Предположим теперь, что прямое наблюдение за случайно выбранными торговыми представителями в случайно выбранные моменты времени показало, что они находились на встречах с клиентами или разговаривали с ними по телефону только в 13 из 100 случаев (в этом можно убедиться, и не отвлекая торговых представителей от их занятия, а опросив их, когда они освободятся). Как показано в главе 9, для последнего измерения мы можем статистическими методами рассчитать, что 90-процентный доверительный интервал этого показателя составляет 7,5–18,5 %. Хотя метод случайной выборки и даст нам только интервал, его результат будет представлять больший интерес, чем результат анализа ведомостей учета рабочего времени. Последний способ предоставляет точное число, но мы не имеем возможности узнать, как велика погрешность и в какую сторону полученное значение отклоняется от истинного.
В 1940-х и 1950-х годах исследования Альфреда Кинси о сексуальном поведении человека дали толчок оживленным дискуссиям о сравнительных достоинствах малых случайных выборок и крупных неслучайных. Книги Кинси вызвали и большой интерес, и много споров. Получив грант от фонда Рокфеллера, Кинси сумел опросить 18 тыс. мужчин и женщин. Но его выборки были не совсем случайными. Он стремился встретиться с рекомендованными ему людьми и побеседовать с каждым представителем какой-либо группы (команды по боулингу, студенческих сообществ, книжного клуба и т. д.). По-видимому, он исходил из того, что при достаточно большой выборке погрешность компенсируется. Но в случае большинства систематических ошибок это не срабатывает — они не исключаются методом усреднения. Знаменитый статистик Джон Тьюки, которому тот же фонд Рокфеллера не позволил проверить работу Кинси, якобы сказал, что случайный выбор трех человек дал бы лучшие результаты, чем выбранная мистером Кинси группа из 300 человек. По другой версии, он сказал, что предпочитает случайную выборку из 400 респондентов отобранным Кинси 18 тыс. человек. Возможно, первое высказывание Тьюки и преувеличение, но небольшое. Он имел в виду, что выбиравшиеся Кинси группы были нередко очень близки к однородным. Поэтому, с точки зрения статистики, их можно приравнять к одному случайно выбранному человеку. Во второй версии своего высказывания Тьюки был абсолютно прав: ошибка при случайном выборе 400 человек вполне поддается количественной оценке и может быть намного меньше систематической ошибки при неправильном выборе 18 тыс. человек.
Почему люди предпочитают ложное впечатление точности ошибке случайной выборки, поддающейся количественной оценке? Как я обнаружил, нередко это происходит потому, что они путают ошибку одной выборки с ошибкой всего исследования. Да, в нашем примере с торговыми представителями в какие-то моменты вы могли обнаружить, что кто-то занят нетипичной, нерепрезентативной деятельностью, вовсе не характерной для всей группы, например готовится к командировке, хотя обычно почти никуда не ездит. Если бы мы выбрали именно этого человека и опросили его всего один раз, то вряд ли узнали бы что-то полезное о том, на что он тратит свое рабочее время. Но если 25 из 100 торговых представителей, опрошенных неоднократно, действительно готовятся к командировке, то можно не сомневаться, что весь торговый персонал тратит на это, в среднем, 25 % своего времени, и простейшие расчеты из главы 9 показывают, что 90-процентный доверительный интервал для этого показателя составляет 18–32 %. Из ненадежности результата одной выборки люди делают вывод, что в случае нескольких случайных выборок их ошибки не устраняются путем компенсации, а суммируются.
Ошибку, не исключаемую путем усреднения (систематическую ошибку), называют также отклонением, или смещением. Исследования в области психологии принятия решений и эмпирических наук в целом расширяют перечень возможных типов отклонения чуть ли не каждый год. Но есть три основных типа, которые можно ожидать при проведении измерений: отклонение ожидания, отклонение выбора и отклонение наблюдателя.
Смещение ожидания — принятие желаемого за действительное. Наблюдатели и испытуемые порой намеренно или ненамеренно видят именно то, что хотят. Люди доверчивы и склонны к самообману. Когда проводятся клинические испытания лекарств, пациенты не знают, кто принимает лекарство, а кто — плацебо. Это упомянутое выше испытание вслепую. Если принимающие лекарство не известны ни пациентам, ни врачам, то это двойное испытание вслепую. Еще один пример испытания вслепую — подход, предложенный мною Mitre Corporation (см. главу 3).
Смещение выбора. Выборка, планировавшаяся как случайная, может оказаться неслучайной. Если мы отберем 500 участников голосования, 55 % из которых скажут, что проголосуют за кандидата А, то возникает большая, а точнее, 98,8-процентная вероятность того, что этот кандидат действительно пользуется наибольшей поддержкой населения. Есть только 1,2-процентная вероятность того, что мы случайно отобрали слишком много людей, поддерживающих А, который на самом деле далеко не любимец народа. Но подразумевается, что выборка была случайной и мы не стремились к отбору сторонников одного кандидата. А если отбор осуществляется, например, путем опроса прохожих в деловом районе города, на определенной улице, где расположено много финансовых учреждений, то, скорее всего, все опрошенные избиратели окажутся определенного типа, даже если вы выбирали их наугад.
Ошибка наблюдателя (или искажение Гейзенберга и Хоторна). Субатомные частицы и люди имеют нечто общее: наблюдение заставляет их менять свое поведение. В 1927 г. физик Вернер Гейзенберг вывел формулу, которая показала, что нашим знаниям о положении и скорости движения частицы есть предел. Наблюдая за частицами, мы на них воздействуем (например, направляем пучок света), что заставляет их менять свою траекторию. В том же году началась реализация научно-исследовательского проекта на заводе Western Electric Company в Хоторне (штат Иллинойс). Первоначально им руководил профессор Элтон Мэйо из Гарвардской школы бизнеса, преследуя цель определить влияние условий на производительность труда рабочих. Исследователи меняли уровень освещенности, влажность, график работы и т. д., чтобы определить, при каких условиях рабочие будут работать лучше всего. К своему удивлению, они обнаружили, что производительность труда растет независимо от изменения условий труда. Рабочие работали лучше просто потому, что знали, что за ними наблюдают; или, возможно, предположили исследователи, положительную реакцию вызвало то, что руководство обратило на них внимание. В любом случае, мы не можем больше считать, что наши исследования показывают нам «реальный» мир, если не постараемся компенсировать эффект, оказываемый наблюдениями на изучаемый объект. Простейший выход из положения — проводить наблюдения в тайне от испытуемых.
Выберите или разработайте нужный инструмент
После разложения объекта измерения на составляющие, установления порядка наблюдения за этими составляющими, выбора уровня снижения неопределенности (лишь настолько, насколько это необходимо) и учета основных типов ошибок можно считать, что нужный инструмент оценки практически у вас в руках. Одни только ответы на приведенные ранее вопросы должны были сделать для вас метод измерения более очевидным.
Итак, чтобы выбрать нужный инструмент измерения, необходимы следующие этапы.
1. Разложите интересующий вас объект на составляющие так, чтобы их можно было оценить по другим измерениям. Некоторые составляющие оценивать легко, а иногда само разложение уже достаточно снижает неопределенность.
2. Проведите вторичные исследования своих результатов. Узнайте, как подобные объекты измерялись до вас. Даже если итоги других исследователей далеки от ваших проблем, нельзя ли воспользоваться их методами?
3. Примените к одному или нескольким составляющим объекта измерения один или более методов наблюдения (выявление оставленного следа, прямое наблюдение, наблюдение с помощью «меток» или проведение эксперимента). Придумайте, по крайней мере, три способа их обнаружения и затем действуйте, как настоящий следователь. Если это не удается, попробуйте прямое наблюдение. Если и это оказалось безрезультатным, пометьте свой объект или внесите в него другие изменения, чтобы хотя бы потом он начал оставлять поддающиеся обнаружению следы. Если и этот случай оказался безуспешным, воспроизведите событие специально для того, чтобы за ним можно было понаблюдать (проведите эксперимент).
4. Постоянно помните о правиле «Не измеряйте точнее, чем нужно». Ну зачем вам высокая точность, если вы хотите, например, только удостовериться, что рост производства оправдает сделанные инвестиции? Не забывайте о стоимости информации: низкая стоимость означает, что и затраты на проведение измерений должны быть низкими; а высокая стоимость информации означает, что вы можете не экономить на расходах. Помните и о том, с какого уровня неопределенности вы начинали. Если сначала этот уровень был очень высок, то сколько наблюдений вам потребуется, чтобы снизить его?
5. Учитывайте ошибки, специфичные для данной задачи. Если несколько экспертов оценивают качество работы, помните о смещении ожидания и проведите испытания вслепую. Если нужно сделать выборку, проследите за тем, чтобы она действительно была случайной. Если сам факт проведения наблюдений может повлиять на результат, найдите способ скрыть эту информацию от наблюдаемых.
Но если вы и теперь не сумели выбрать себе инструмент измерения, воспользуйтесь следующими советами, приведенными в произвольном порядке. Некоторые из них вам уже известны, но все они вполне заслуживают повторения.
• Работайте с последствиями. Что вы увидите, если интересующий вас показатель сильно повысится? Что произойдет, если он заметно упадет? В примере из главы 2 юная Эмили рассудила: раз целители с помощью бесконтактного массажа действительно могут делать то, что утверждают, значит, они должны, по меньшей мере, обнаруживать ауру человека. Оценивая качество, мы можем исходить из того, что с его повышением сокращается число жалоб от потребителей. Решая, стоит ли устанавливать новое программное обеспечение для отдела сбыта, мы должны спросить себя: «Если эта информационная система так хороша, как говорят, и действительно позволяет продавать больше, то почему же объемы реализации в тех фирмах, которые ею пользуются, пошли вниз?»
• Представьте себе, как это сделали бы другие. Посмотрите на свою задачу глазами криминалиста, детектива, психолога-экс-периментатора, палеонтолога, библиотекаря, военного разведчика, журналиста. Преодолейте свою профессиональную «за-шоренность» и обратите внимание на другие, нестандартные для вашей отрасли методы измерения.
• Пусть ваши измерения будут итеративными. Не пытайтесь сразу и полностью устранить неопределенность в ходе одного гигантского исследования. Начните с нескольких наблюдений и пересчитайте стоимость информации. Возможно, вы измените прежний план проведения измерений.
• Используйте многосторонние подходы. Если какая-то составляющая объекта измерения не поддается наблюдению одним способом, воспользуйтесь другим. Возможностей у вас много. Хорошо, если сработал первый же метод измерения. Но в некоторых случаях мне приходилось измерять свой объект тремя разными способами, и лишь на третий раз я получал желаемое.
Уверены ли вы, что проверили пригодность всех имеющихся методов? Если не удается оценить одну из составляющих переменной, нельзя ли измерить другую?
• Каков на самом деле тот простой вопрос, ответ на который может сделать дальнейшие измерения неактуальными? Эмили не пыталась оценить, какой эффект дает метод бесконтактного массажа и есть ли этот эффект вообще. В обсуждавшемся ранее примере с компанией Mitre я предложил ее специалистам сначала выяснить, смогут ли ее клиенты заметить хоть какое-то изменение качества исследований, и только потом рассчитывать стоимость ожидаемого повышения качества. Существуют такие базовые вопросы, ответы на которые могут избавить вас от необходимости проведения более сложных измерений. Какой вопрос вы должны себе задать, чтобы понять, необходимы ли дальнейшие усилия?
• Просто сделайте это. Не позволяйте своей озабоченности по поводу возможных неудач помешать вам приступить к каким-либо упорядоченным наблюдениям. Ведь уже первые результаты могут вас удивить и значительно снизить неопределенность, характерную для измеряемого объекта.
К настоящему моменту вы уже должны понять, что следует наблюдать и (в общих чертах) как это сделать. Теперь можно приступить к обсуждению двух категорий методов наблюдения: способов, результаты которых анализируются методами «традиционной» статистики, и метода байесовского анализа. Эти две категории охватывают практически все эмпирические методы измерения, применяемые в физике, медицине, экологии и экономике. Хотя традиционный подход распространен гораздо шире, более новый байесовский анализ обладает рядом очевидных преимуществ.
Глава 9. Выборочная реальность: как наблюдение за частью рассказывает нам о целом
Если вы хотите знать наверняка, каков процент брака в партии кирпичей, вам придется проверить каждый. А поскольку при испытаниях кирпичи подвергнутся нагрузке вплоть до разрушения, после нее не останется ни одного целого. Стремясь сохранить партию кирпичей для продажи или иного использования, мы должны проверить лишь несколько изделий — это даст информацию о всех.
Группа, сведения о которой необходимо получить (в данном случае это партия кирпичей), называется генеральной совокупностью. Изучение всех элементов группы (то есть проверка каждого произведенного кирпича) называется полным обследованием. Очевидно, что проведение полного обследования партии нецелесообразно, так как по его завершении не останется ни одного неповрежденного кирпича. Вместе с тем в других условиях полное обследование весьма обоснованно. Ежемесячная инвентаризация — это обычно именно тот случай, балансовый отчет — тоже результат полного обследования всех активов и обязательств. Бюро переписей населения США (U. S. Census Bureau) старается пересчитать всех проживающих в стране людей, хотя на практике это не вполне удается.
Но многие вещи скорее напоминают кирпичи, чем бухгалтерские операции. Существуют причины, по которым проверять, измерять, взвешивать или даже подсчитывать все элементы генеральной совокупности бывает нецелесообразно. Но мы все же можем снизить неопределенность, изучив несколько элементов этой совокупности. Любое обследование, не являющееся полным, называется выборочным. В сущности, выборка — это несколько объектов из генеральной совокупности, которые подвергаются наблюдению с целью получить информацию обо всех ее элементах.
Кого-то может удивить, что, исследуя одни объекты, мы получаем информацию о других, даже не рассматриваемых в данный момент, но ведь этим, в сущности, и занимается наука. Проводя эксперименты, мы изучаем отдельные эффекты Вселенной, изобилующей самыми разнообразными явлениями. Однако, открывая «закон», наука говорит, что он относится ко всем элементам исследуемой совокупности, а не только к тем, за которыми велось наблюдение.
Так, скорость света была определена путем выборочного обследования. И какой бы метод при этом ни применялся, он давал погрешность. Поэтому ученые измеряли скорость света неоднократно, и каждое измерение — новая выборка. Тем не менее скорость света — абсолютная константа, характеризующая и свет, отражающийся от этой страницы и попадающий вам в глаза, и свет, изучавшийся в лабораторных условиях. Полное обследование тоже может считаться выборочным, если со временем генеральная совокупность расширилась. Ведь данные полной инвентаризации, как и балансовый отчет, — всего лишь моментальная фотография.
Следующая фраза может огорчить тех, кто хочет, чтобы в мире было больше определенности: все, что мы знаем «по опыту», — не более чем выборка. Ведь на своем опыте мы испытываем не все, а только кое-что, а затем делаем обобщение. Все, что нам доступно, — лишь мимолетные образы по большей части невидимого нами мира, по которым мы и судим о том, что не можем наблюдать. Но люди уверены в выводах, которые делают на основе изучения ограниченных выборок, потому что опыт подсказывает: выборки работают! (Конечно, этот вывод сделан на основе таких же ограниченных наблюдений.)
Иногда полезные выводы обо всей обследуемой совокупности можно сделать лишь по нескольким образцам. Если мы отбираем их, чтобы установить состав однородного объекта, например делаем анализ крови на ДНК или определяем октановое число бензина, то достаточно одного образца крови или одной партии бензина. Но если элементы генеральной совокупности разнородны, как, например, рыбы в озере по размеру или затраты времени разных специалистов на ремонт компьютеров, то выборка должна быть больше — иногда существенно, хотя все же не настолько, как думают многие.
Как изучение нескольких элементов может рассказать о всей генеральной совокупности? Можно ли, отобрав 12 жителей города и спросив, как часто они ходят в кино или доверяют ли мэру, узнать что-либо о тех, кто не был опрошен? Да, можно. И такая малая выборка порой дает на удивление много информации, хотя отчасти это зависит и от того, как проведено исследование. Если мы просто опросим своих друзей или всех мужчин — клиентов парикмахерской, то данная группа, вероятно, не будет репрезентативной для всего населения и наши общие выводы окажутся ошибочными. Необходим метод, гарантирующий нас от систематического выделения однотипных выборок.
Решением этой проблемы является проведение действительно случайной выборки из интересующей нас генеральной совокупности. Осуществляя выбор случайным образом, мы обязательно получим погрешность, но погрешность, подчиняющуюся законам вероятности. Тогда можно рассчитать, например, вероятность того, что случайно выбрали демократов, проводя опрос в районе, где на самом деле преобладают республиканцы. И чем больше людей мы отберем таким случайным образом, тем меньше вероятность нерепрезентативности группы.
Если вам доводилось читать отчеты об опросах общественного мнения или научные статьи, авторы которых проводили выборку, значит, вы уже встречались с понятием «статистическая значимость». Статистическая значимость просто говорит: вы наблюдаете нечто реальное, а не произошедшее по чистой случайности. Насколько крупной должна быть выборка, чтобы получить статистически значимый результат? Достаточно ли нам опросить 1000 потребителей? Будет ли результат статистически значимым, если выборочно проверить сварку на шасси 50 автомашин или испытать действие нового лекарства на 100 пациентах?
Мне не раз доводилось слышать на первый взгляд авторитетные суждения по этому поводу. Кто-то утверждает, что получить статистически значимые результаты позволяет только выборка определенного размера. Однако спроси такого человека, как он определил это число, — он в лучшем случае сошлется на какое-нибудь правило из учебника по статистике, но объяснить, как оно рассчитано, скорее всего, не сможет.
Короче говоря, термином «статистическая значимость» часто злоупотребляют те, кто не вполне понимает, что он означает. Неужели эти люди действительно думают, что снижение неопределенности происходит только при выборке, достигшей этого порогового значения? Или же они считают, что экономическая стоимость информации, полученной при изучении малой выборки, всегда меньше затрат на проведение измерений? По своему опыту могу сказать: когда в любой компании проводится случайная выборка, всегда найдется «эксперт», точно знающий, что можно, а чего нельзя делать в статистике. Но я обнаружил, что процент ошибок в туманных воспоминаниях таких экспертов о статистике, которую они учили когда-то давно, на первом курсе университета, бывает намного выше ошибки при малой выборке.
Кто действительно разбирается в статистической значимости, так это Барри Нассбаум, главный статистик Службы статистической поддержки Агентства по защите окружающей среды (Statistical Support Services at the Environmental Protection Agency). Мы вместе занимались внедрением некоторых моих методов в EPA. Он отвечает на самые неожиданные вопросы, поступающие от сотрудников Агентства, связанные с проведением статистических анализов при решении проблем разных типов. Как-то он сказал мне: «Обращаясь за помощью к статистикам, люди всегда спрашивают, каким должен быть размер выборки. Это неправильный вопрос, но именно его и задают в первую очередь». Естественно, прежде всего надо выяснить, что они измеряют и зачем, и в этом с Нассбаумом нельзя не согласиться.
На самом деле небольшая выборка может рассказать намного больше, чем вы думаете. Когда исходная неопределенность высока, даже малая выборка позволяет значительно снизить ее. А если вы уже знаете тот узкий интервал значений, в котором находится интересующий вас показатель (например, новой услугой довольны 80–85 % потребителей), то уточнить эту цифру вам поможет только крупная выборка (придется опросить более 1000 человек). Но в этой книге мы говорим о том, что считается не поддающимся измерению. В таких случаях неопределенность обычно особенно высока и полезную информацию могут дать уже первые наблюдения.
Для тех, кто хотел бы освежить свои знания статистики, полученные еще на первом курсе, существуют многочисленные учебники. Повторюсь: на освещение этой тематики полностью книга не претендует. Наша задача — описать самые простые и полезные методы и рассказать то, о чем умалчивают обычные учебники по статистике или, по крайней мере, чему они не уделяют особого внимания. Ограниченность подобной литературы — вот часть проблемы измерения, с которой сталкиваются менеджеры компаний, пытаясь решить возникшие перед ними задачи. Дело в том, что специалистов по статистическому анализу вопросы практического измерения «неизмеряе-мого», похоже, не очень интересуют. Нассбаум подметил эту общую тенденцию у авторов публикаций в «Journal of American Statistical Association» (JASA): «Даже то, что авторы JASA называют „практическими приложениями“, — сплошная теория».
В этой главе мы обсудим некоторые простые способы извлечения важной информации из малой выборки. Но, в отличие от большинства работ по статистике, вначале мы постараемся обойтись без математики и лишь потом приведем кое-какие формулы, да и то немного. А когда перейдем к конкретным расчетам, покажем, что способы быстрой оценки и простые таблицы и графики нередко бывают полезнее сложных уравнений.
Все приводимые примеры можно скачать со вспомогательного сайта www.howtomeasureanything.com Воспользуйтесь возможностями этого ресурса.
Государственное агентство принимает подход «просто сделай это»
В 1970-е годы некоторые действия Агентства по защите окружающей среды вызвали негативную реакцию общественности. В 1975 г. начался выпуск автомобилей с каталитическими конвертерами, позволяющими использовать неэтилированный, то есть не содержащий тетраэтилсвинец, бензин. Но этилированный бензин был гораздо дешевле, и водители предпочитали использовать именно его в машинах, оборудованных новыми конвертерами. Известный всем сегодня устанавливаемый на горловину бензобака рестриктор был рекомендован Агентством специально для того, чтобы люди не заправляли новые автомашины этилированным бензином (на заправках такой бензин поступал из пистолетов большего диаметра). Однако водитель мог просто снять этот рестриктор и использовать бензин, содержащий свинец. Главный статистик EPA Барри Нассбаум сказал: «Мы знали, что люди заправляли новые машины этилированным бензином, потому что когда представители Управления автомобильного транспорта (Department of Motor Vehicle, DMV) проводили проверки, они смотрели, не снят ли рестриктор». Использование свинецсодержащего топлива в новых автомобилях могло привести к еще большему загрязнению воздуха, а не к улучшению экологической обстановки, что было целью программы. Какое-то время специалисты EPA просто не знали, что им предпринять. Разве можно определить, сколько людей заправляют свои новые машины старым бензином? Но, в конце концов, они решили «просто сделать это» — понаблюдать за автозаправками. Сначала в округе случайным образом были выбраны несколько заправок. Затем, вооружившись биноклями, представители Агентства принялись следить за машинами, отмечать, каким топливом их заправляли, и сравнивать номера этих автомобилей со списком типов машин, представленным Управлением автотранспорта. Этот метод вызвал всеобщее недовольство — карикатуристы из «Atlanta Constitution» даже изобразили сотрудников EPA в виде фашистов, арестовывающих автовладельцев, пользующихся не тем бензином, хотя за людьми только следили и никого не задерживали. И все же, как сказал Нассбаум, у Агентства возникли проблемы с несколькими отделениями полиции. Правда, полицейским пришлось в конечном счете согласиться, что любой имеет право наблюдать за кем-то из-за угла. Но самое главное — специалисты EPA установили желаемое: 8 % машин, которые должны были работать на неэтилированном бензине, заправляли горючим с тетраэтилсвинцом. Несмотря на всю сложность стоящей задачи, сотрудники Агентства поняли, что простые наблюдения и выборка помогут им снизить исходную неопределенность.
Развиваем интуитивное понимание случайных выборок: пример с леденцами
Попробуйте выполнить небольшое задание. Укажите 90-процентный доверительный интервал для среднего веса одного леденца в граммах, то есть вы должны назвать всего два числа (нижнюю и верхнюю границы интервала), отстоящих друг от друга ровно настолько, чтобы вы были на 90 % уверены в том, что средний вес леденца попадет в этот диапазон. Как всегда, делая калиброванную оценку вероятности, вы, конечно, имеете какое-то представление о неизвестном показателе, каким бы сомнительным оно ни было. Между прочим, один грамм — вес одного кубического сантиметра воды. Запишите предполагаемый CI, прежде чем двигаться дальше. Проверьте его, следуя указаниям из главы 5, сделав эквивалентную ставку, рассмотрев все «за» и «против» того, что диапазон значений обоснован, и испытав границы интервала на соответствие практике.
Предположим теперь, что у меня есть обычный пакетик с леденцами, который можно купить в любой кондитерской. Открыв этот пакетик, я вынимаю наугад несколько конфет и взвешиваю их по очереди на весах. Обратите внимание на вопросы, которые изложены далее. Ответьте на каждый, прежде чем перейти к следующему этапу.
1. Допустим, я скажу, что вес первого отобранного мной леденца — 1,4 грамма. Отвечает ли это вашему 90-процентному доверительному интервалу? Если нет, то каким будет ваш новый 90-процентный CI? Запишите измененный интервал, прежде чем двигаться дальше.
2. Теперь я сообщаю результаты взвешивания остальных четырех из пяти наугад отобранных леденцов: 1,4; 1,5; 1,6 и 1,1 грамма. Как теперь изменится 90-процентный CI? Запишите и его.
3. Наконец, я говорю о результатах взвешивания еще трех леденцов (так что всего их стало восемь): 1,5; 0,9 и 1,7 грамма. Каков теперь ваш 90-процентный CI? Запишите окончательный вариант.
Всякий раз при поступлении новой информации ваш доверительный интервал должен сужаться. Если сначала (до взвешивания) он был очень широк, то уже после первого взвешивания должно произойти его существенное сокращение.
Я дал этот тест девяти калиброванным экспертам и получил практически одинаковые результаты. Главное различие между ними состояло в степени неуверенности специалистов в своей первоначальной оценке. Самый узкий интервал составлял 1–3 грамма, а самый широкий — 0,5–50 граммов, однако чаще всего диапазоны выглядели, скорее, узкими. Получив дополнительную информацию, эксперты в большинстве своем (особенно начинавшие с очень широкого интервала) быстро сузили свои диапазоны. Эксперт, указавший интервал 1–3 грамма, не сократил его после первого взвешивания, а тот, кто предложил 0,5–50 граммов, сильно опустил верхнюю границу и в конце концов пришел к интервалу 0,5–6 граммов.
На самом деле один леденец из этого пакетика весил в среднем около 1,45 грамма. Интересно, что эксперты довольно быстро сузили свои интервалы на основании дополнительной информации всего о нескольких конфетах.
Подобные упражнения помогают развить интуитивное понимание сути случайной выборки и интервала. Как мы вскоре увидим, выяснение субъективного мнения калиброванных экспертов без применения того, что кто-то назвал бы «настоящей статистикой», весьма полезно и даже имеет ряд преимуществ перед традиционными статистическими методами. Но давайте сначала узнаем, что говорится о малых выборках в большинстве работ по статистике.
Кое-что о малых выборках: подход пивовара
Точно рассчитать 90-процентный CI для среднего веса одного леденца, а не полагаться на мнение калиброванных экспертов позволяет метод, разработанный одним пивоваром. Он преподается в базовом курсе статистики и часто используется для определения погрешности выборки, состоящей всего из двух объектов. В самом начале XX века Уильяму Сили Госсету, химику и статистику ирландской пивоваренной компании Guinness, потребовалось установить, какой из двух сортов ячменя дает лучшее пиво с большим выходом. Ранее был разработан метод z-значения (z-score), или статистики нормальных распределений, позволяющий находить доверительный интервал на основе случайной выборки, состоящей из не менее чем 30 объектов. Метод дает распределения, не отличающиеся по форме от обсуждавшегося выше нормального. К сожалению, у Госсета не было возможности протестировать большое число партий пива, изготовленных из каждого сорта ячменя. Однако он не отказался от своей затеи измерить то, что как будто не поддавалось оценке, и решил вывести новый вид распределения для крайне малых выборок. К 1908 г. Госсет разработал новый эффективный метод, который назвал t-статистикой, и захотел опубликовать результаты своей работы.
Однако у Guinness уже были проблемы с разглашением коммерческой тайны, и служащим компании было запрещено публиковать любую информацию о бизнес-процессах. Госсет понимал значение своей работы, но ему сильнее хотелось рассказать о своей идее, чем добиться немедленного признания. Поэтому он опубликовал статью под псевдонимом «Стьюдент». И хотя истинный автор давно известен, практически во всех работах по статистике метод называется t-статистикой Стьюдента.
Вид распределения Стьюдента напоминает обсуждавшееся нами ранее нормальное распределение. Но в случае очень малых выборок его форма становится намного уплощеннее и шире. Рассчитанный с помощью t-статистики 90-процентный CI намного шире (то есть неопределеннее), чем в случае нормального распределения. Если размер выборки больше 30, то график t-распределения практически совпадает с нормальным распределением.
И для одного, и для другого типа распределения существует сравнительно простой (по сравнению со многими другими статистическими методами) способ расчета 90-процентного доверительного интервала для среднего значения генеральной совокупности. Кому-то наши расчеты могут показаться слишком сложными, а те, кто уже знаком с данным методом, скажут, что мы просто пересказываем содержание учебников по статистике. Пусть первые подождут, пока мы не рассмотрим в следующей главе намного более простое решение, а вторые просто пропустят этот материал. Адресуя свои пояснения читателям, которые отнесут себя к средней категории, я старался сделать их как можно более простыми для восприятия. Вот как мы могли рассчитать 90-процентный CI в предыдущем примере, отобрав всего пять леденцов.
1. Рассчитаем сначала дисперсию выборки (этим понятием мы позднее будем часто пользоваться):
а) рассчитаем средний вес отобранных леденцов: (1,4 + 1,4 + 1,5 + 1,6 + 1,1)/5 = 1,4;
б) вычтем это среднее из каждого значения в выборке и возведем полученные результаты в квадрат: (1,4–1,4)2 = 0; (1,5–1,4)2 = 0,012 и т. д.;
в) суммируем все квадраты и разделим на размер выборки минус единица: (0 + 0 + 0,01 + 0,04 + 0,09)/(5–1) = 0,035.
2. Разделим дисперсию выборки на ее размер и извлечем из полученного результата квадратный корень. В электронной таблице мы записали бы «=SQRT (0,035/5)» и получили 0,0837.
(В работах по статистике это называется средним квадратичным отклонением.)
3. Найдем в таблице 9.1 (таблице упрощенных значений t-статистики) значение t, соответствующее размеру выборки: для выборки, состоящей из пяти объектов, t = 2,13. Обратите внимание, что для очень больших выборок t близко к z-значению (нормальное распределение) 1,645.
4. Умножим найденное t-значение на результат этапа 2: 2,13 0,0837 = 0,178. Это ошибка выборки в граммах.
5. Суммируем ошибку выборки и средний вес леденца, чтобы получить верхнюю границу 90-процентного CI, а затем вычтем ее из среднего веса, чтобы получить нижнюю границу: верхняя граница = 1,4 + 0,178 = 1,578; нижняя граница = 1,4–0,178 = 1,222.
Итак, выбрав всего пять леденцов, мы получили 90-процентный CI, составляющий 1,222–1,578. Аналогично рассчитывают доверительный интервал и для более крупных выборок. Единственная разница заключается в том, что z-значение, необходимое для этого, всегда будет составлять 1,645 (с ростом размера выборки оно не увеличится).
На рисунке 9.1 представлен общий результат решения другой гипотетической задачи с использованием t-статистики. Это могло быть определение средней партии пива, сваренного в компании Guinness, среднего времени, проводимого покупателями в очередях, или среднего размера обуви жителей штата Небраска. В любом случае необходимо определить 90-процентный CI для среднего значения генеральной совокупности, хотя по каким-то причинам (экономические факторы, ограниченность во времени или несогласие жителей штата Небраска на измерение размеров их ног) размер выборки из подобных совокупностей составлял бы не десятки и сотни, а всего несколько образцов.
На этом рисунке нижняя ломаная линия — график значений выборки, пунктир — истинное среднее значение генеральной совокупности. Одни значения выборки выше этого среднего, другие ниже. Фактических значений на рисунке нет, но для наших целей смысл понятен. В верхней части рисунка вы видите три кривые, левые края которых образуют своеобразную «воронку торнадо». Средняя линия — график скользящей средней выборки (сначала среднее из первых трех значений, затем среднее из первых четырех значений и т. д.), которая сравнивается с истинным средним генеральной совокупности, представленным прямой пунктирной линией. Две внешние кривые — графики верхней и нижней границ 90-процентного доверительного интервала, пересчитываемого после каждого нового пополнения выборки.
Обратите внимание, что пока выборка невелика, 90-процентный CI достаточно широк, быстро сужаясь всякий раз, как она пополняется. Разброс значений в выборке по-прежнему велик, но скользящее среднее значение все больше приближается к истинному среднему. Заметьте и то, что при 30 членах выборки 90-процентный CI намного уже, но ненамного уже, чем при 20 или 10 членах. Когда выборка насчитывает 30 объектов, снижение ошибки вдвое требует увеличения ее размера в четыре раза (120 объектов). Чтобы сократить ошибку в четыре раза, нужно увеличить размер выборки в 16 раз (480 объектов). Короче говоря, каждое уменьшение ошибки выборки вдвое требует умножения ее размера на четыре.
И t-статистика, и нормальная z-статистика — разновидности так называемой параметрической статистики Она предполагает конкретную форму распределения. Во многих случаях можно смело допустить, что распределение переменных является нормальным, но это не всегда так. Поэтому хотя параметрическая статистика и не опирается на субъективные оценки калиброванных экспертов, она все равно начинается с достаточно произвольного допущения о типе распределения.
В конечном счете разница между субъективным и объективным может не иметь большого значения, во всяком случае, на эффективность этих методов она не влияет. Единственное, что должно нас беспокоить, — как они работают на практике. Какая оценка интервала на основе малой выборки точнее — сделанная калиброванными экспертами или полученная с помощью параметрической статистики? Не ошибаются ли эксперты чаще, чем параметрическая статистика?
В эксперименте с калиброванными экспертами и леденцами специалисты постоянно давали более широкие (хотя и ненамного) интервалы значений, чем t-статистика. Это означает, что дополнительные несложные расчеты позволяют уточнить оценки калиброванных экспертов. Когда мы выбрали восемь леденцов, интервалы, предложенные самым осторожным и самым уверенным в себе экспертом, составляли 0,5–2,4 и 1–1,7 грамма соответственно. При выборке такого же размера t-статистика дала бы 90-процентный CI для среднего веса конфеты 1,21–1,57 грамма. Мы видим, что последний гораздо уже, чем самый узкий из интервалов, предложенных специалистами. Но хотя снижение неопределенности в нашем эксперименте и не было таким заметным, как можно ожидать, оно все равно оказалось значительным по сравнению с исходным состоянием. И как мы еще увидим в главе 10, дальнейшие исследования подтверждают эти выводы.
Итак, мы установили, что:
• когда исходная неопределенность высока, для ее существенного снижения достаточно изучить несколько объектов из генеральной совокупности;
• калиброванные эксперты сумели снизить неопределенность, отобрав из генеральной совокупности всего один объект, чего не может традиционная параметрическая статистика;
• оценки калиброванных экспертов обоснованны, но осторожны. Чтобы снизить неопределенность еще больше, нужно провести дополнительные расчеты.
Простейшие статистические методы получения выборок
Ясно, что эксперты могут сильно снизить исходную неопределенность, сделав всего нескольких наблюдений, а параметрический метод позволяет сократить ее еще больше. Но всегда ли калиброванные оценки уступают результатам, полученным с помощью параметрической статистики? Нет, не всегда. И t-статистика, и нормальная статистика учитывают только значения в выборочной совокупности, не принимая во внимание условия выборки, предварительную информацию, имевшуюся у эксперта перед проведением оценки, или наличие иных факторов. Другими словами, параметрические методы не позволяют воспользоваться многим из того, что мы называем здравым смыслом, так как не принимают во внимание информацию, интуитивно учитываемую калиброванными экспертами.
Предположим, что вместо взвешивания леденцов мы спросили у руководителей отделов продаж, сколько времени у них отнимает работа с отстающими торговыми представителями. Допустим, мы выбрали всего пять руководителей и они сказали, что тратят на эти цели 1, 6, 12, 12 и 7 часов в неделю. Применив t-статистику, получаем 90-процентный CI, составляющий 3,8–13 часов. Однако в статистическом уравнении не учтен тот факт, что 1 час — это временные затраты Боба, у которого, как всем известно, больше проблем с персоналом, чем у кого-либо другого, и который наверняка намеренно занизил этот показатель. А калиброванный эксперт, напротив, обязательно использовал бы эту дополнительную информацию. Оценка эксперта субъективна и поэтому кажется ненадежной, но в среднем она почти не уступает, а иногда и превосходит по точности оценку «объективной» статистики.
Более того, при очень малых выборках t-статистика часто дает доверительный интервал, который не имеет смысла с учетом известных ограничений. Предположим, что вы проанализировали ведомости учета рабочего времени и увидели, что ни один руководитель отдела продаж не тратит на общение со своими торговыми представителями более 12 часов в неделю, а затраты времени на общение с отстающими работниками еще меньше. И торговые представители, имеющие неважные показатели, утверждают, что общаются с руководителями не более 12 часов в неделю. Тогда верхняя граница нашего 90-процентного CI (13 часов) выглядит нереалистичной, но это лучший расчет t-статистики.
Я придумал другой, более простой подход, позволяющий не привлекать калиброванных экспертов и использующий только значения выборки. Вместе с тем он свободен от недостатков t-статистики. В главе 3 мы вскользь обсуждали Правило пяти. Как вы помните, оно гласит, что если выбрать случайным образом пять объектов из любой генеральной совокупности, то существует вероятность 93,8 % того, что медиана этой совокупности окажется в интервале между наибольшим и наименьшим значениями выборки. Но это лишь одно из правил, касающихся малых выборок. Если бы мы нашли метод определения 90-процентного CI непосредственно по значениям выборки, то быстро находили бы его без всяких расчетов.
Если выбрать восемь объектов, то наибольшее и наименьшее их значения зададут CI, гораздо более широкий, чем 90-процентный (в действительности, это был бы примерно 99,2-процентный CI). Но оказывается, что если взять вторые наибольшее и наименьшее значения в этой выборке, то получим интервал, гораздо более близкий к 90-процентному (примерно 93 %). При выборке из 11 объектов интервал окажется еще ближе к 90-процентному для третьих наибольшего и наименьшего значений.
Таблица 9.2 показывает, выборки какого размера позволяют получить CI, близкий к 90-процентному, просто взяв одно из самых высоких и одно из самых низких значений из нее. Например, при выборке 18 объектов верхняя и нижняя границы CI, близкого к 90-процентному, будут примерно равны шестым наибольшему и наименьшему значениям. Осторожности ради я специально выбирал размеры выборки, позволяющие получить не 90-процентный, а несколько более широкий CI. Третий столбец «Фактическая степень уверенности» показывает вероятность того, что медиана окажется в интервале, границами которого служат я-ное наибольшее и я-ное наименьшее значения. Не беспокойтесь о том, как использовать этот столбец. Достаточно знать, что получаемый CI максимально близок к истинному 90-процентному и не слишком узок (то есть является довольно осторожной оценкой).
Я называю этот 90-процентный CI определяемым без математических расчетов, так как все, что от нас требуется, — это записать несколько цифр, касающихся наибольшего и наименьшего значений выборки. Вам не придется рассчитывать ее дисперсию, извлекать квадратные корни или использовать таблицы t-значений. Составляя данную таблицу, я пользовался некоторыми непараметрическими методами и проверил полученные результаты методом Монте-Карло для малых выборок. Не стану утруждать вас подробностями, но ее использование существенно упрощает определение 90-процентного CI на основе малых выборок. Постарайтесь запомнить, что имея выборку из 5, 8, 11 или 13 объектов, для определения на ее основе границ 90-процентного CI нужно взять, соответственно, ее первое, второе, третье или четвертое наибольшее и наименьшее значения. Теперь можно быстро оценить 90-процентный CI, отобрав лишь несколько объектов для наблюдения, не доставая из кармана калькулятор.
Если говорить коротко, данный прием работает потому, что при расчете 90-процентного CI «середина» ряда значений особой роли не играет. Чтобы объяснить почему, нам придется еще раз вернуться к параметрическим методам. Они, как мы видели на примере параметрической t-статистики, требуют расчета дисперсии выборки. Из каждого значения в выборке вычитается среднее по выборке, а полученный результат возводится в квадрат. Сумма всех этих квадратов и есть дисперсия. Выполнив эти простые расчеты, вы обнаружите, что величина дисперсии почти целиком зависит от значений, намного отличающихся от среднего. Даже у больших выборок дисперсия обычно лишь на 2 % зависит от средней трети значений и на 98 % — от других двух третей наибольших и наименьших значений выборки. Когда размер выборки не превышает 12 объектов, дисперсия определяется всего двумя экстремальными точками — наибольшим и наименьшим значениями выборки.
Данный не требующий расчетов метод позволяет получить 90-процентный CI, лишь чуть-чуть более широкий, чем при использовании t-статистики, без связанных с ней проблем. Вспомним пример, в котором пять руководителей отделов продаж указали, что тратят на общение с отстающими торговыми представителями 1, 6, 12, 12 и 7 часов в неделю. С помощью t-статистики мы установили, что верхняя граница интервала — 13, но знаем, что по другим соображениям она должна быть ниже, и с помощью нашего не требующего расчетов метода получим интервал 1–12. Мы знаем, что 12 — вполне возможное значение верхней границы интервала, так как это одно из значений нашей выборки. Если отобрать еще шесть руководителей с затратами времени 4, 5, 10, 7, 9 и 10 часов в неделю, то выборка составит 11 объектов. Таблица показывает, что при таком размере выборки границами CI, близкого к 90-процентному, служат третьи наибольшее и наименьшее ее значения. С учетом этого получаем 90-процентный CI, составляющий 5–11 часов в неделю. А t-статистика в этом (довольно редком) случае даст нам несколько более широкий интервал 4,5–11,3 часа в неделю.
Важно отметить, что использованный мной непараметрический метод в отличие от t-статистики определяет 90-процентный CI для медианы, а не для среднего значения. Медианой генеральной совокупности называют такое значение, выше которого располагается ровно одна половина ее значений, а ниже — другая. Среднее генеральной совокупности — это сумма всех ее значений, деленная на размер. При смещенном (асимметричном) распределении генеральной совокупности медиана не совпадает со средним значением. Однако если допустить, что распределение близко к симметричному, то медиана и среднее совпадут. В этом случае наша таблица позволит определить 90-процентный CI и для медианы, и для среднего значения.
В некоторых случаях данное допущение оказывается натяжкой, но вообще-то в параметрической статистике мы делаем гораздо более сомнительные допущения. В параметрической статистике мы обязаны придать графику нашего распределения вполне определенную форму. А оценивая медиану по таблице 9.2, мы не делаем никаких допущений о распределении значений генеральной совокупности. Оно может быть и нерегулярным — горбатым (camel-back) (как график распределения населения США по возрасту, форма которого объясняется произошедшим после войны демографическим взрывом), и равномерным (как график распределения выигрышей при игре в рулетку). Таблица 9.2 позволяет определить диапазон значений медианы и в том, и в другом случаях. Но если распределение к тому же симметрично, неважно, равномерное оно, нормальное, горбатое или типа «бабочка» (bow-tie), то таблица годится и для определения диапазона среднего значения.
Пристрастный отбор методов выборочного обследования
Как обычный работник измерил бы популяцию рыб, обитающих в озере? Этот вопрос я всегда задаю участникам своих семинаров. Обычно в ответ слышу: «Осушил бы озеро». По мнению, например, среднего бухгалтера или даже менеджера среднего звена по ИТ, «измерить» означает «пересчитать». Поэтому когда речь заходит о численности (популяции) рыб, такие люди полагают, что их просят назвать точный итог, а не просто уменьшить неопределенность. С этой мыслью они и предлагают осушить озеро и, несомненно, сумели бы организовать дело так, чтобы каждая мертвая рыбешка была подобрана, брошена в кузов грузовика и сосчитана вручную. Возможно, кто-то пересчитал бы рыбу в грузовике еще раз и осмотрел бы дно осушенного озера, чтобы убедиться в точности подсчетов. Затем они сообщили бы, что всего в озере обитали ровно 22 573 рыбы, так что прошлогодние усилия по пополнению рыбных запасов озера не пропали даром. Правда, теперь вся эта рыба погибла.
А вот если поручить биологам измерить численность рыбной популяции в озере, то уж они не спутают слова «измерить» и «пересчитать». Взамен они, скорее всего, воспользуются методом, состоящим в выпуске пойманной рыбы и повторной ловле. Сначала биологи поймают и пометят некое число, скажем 1000, особей и снова выпустят их в озеро. После того как меченая рыба перемешается с немеченой, они отлавливают еще некое число особей. Допустим, поймали опять 1000 рыб, из которых 50 меченых. Это означает, что помечено 5 % всех имеющихся в озере рыб. Зная число первоначально меченых рыб — 1000, биологи делают вывод: в озере около 20 тыс. рыбин (1000 — это 5 % от 20 000).
Такого рода выборка подчиняется так называемому биномиальному распределению, но для больших чисел можно считать такое распределение нормальным. Ошибку оценки рассчитывают практически так же, как и ранее. Все, что нужно сделать, — это изменить порядок расчета дисперсии выборки, остальное не меняется. В данном случае дисперсию определяют как долю объектов в группе, численность которой мы пытаемся узнать, умноженную на долю объектов вне группы. Иными словами, берем долю меченой рыбы (0,05), умножаем ее на долю немеченой рыбы (0,95) и в результате получаем 0,0475.
Дальнейший порядок расчетов тот же. Делим дисперсию выборки на размер выборки и извлекаем квадратный корень из суммы: SQRT(0,0475:1000) = 0,007. Чтобы получить 90-процентный CI для доли меченых рыб в озере, к этой доле (0,05) прибавляем и вычитаем из нее 0,007, умноженные на 1,645 (z-значение 90-процентного CI). Результат: помечено 3,8–6,8 % всех рыб в озере. Мы знаем, что пометили 1000 рыб, тогда всего в озере от 1000/0,062 = 16 256 до 1000/0,032 = 25 984 особей.
Кому-то такой интервал покажется широким. Но предположим, что первоначально он выглядел как 2000—50 000 особей. Допустим также, что цель состояла только в том, чтобы определить, растет популяция или вымирает, и что ранее в озеро запустили 5000 мальков. Любое число свыше 6000 скажет нам о том, что популяция, как минимум, растет, а цифра свыше 10 000 — что запускать новых мальков больше не нужно. С учетом первоначального интервала значений и соответствующего порога полученная новая степень неопределенности — явный шаг вперед, а погрешность в данном случае вполне приемлема. На самом деле, и в первый, и во второй раз улов мог состоять не из 1000, а только из 250 рыб, но все равно мы были бы уверены, что популяция увеличилась так, что ее численность превысила 6000 особей.
Приведенный пример наглядно показывает, что выборочное обследование позволяет получить информацию даже о том, что никто не видит. Метод дает возможность определять, например, сколько человек остались не учтенными Бюро переписи населения США, сколько видов бабочек до сих пор не открыто в бассейне Амазонки, сколько несанкционированных попыток доступа в информационную систему было предпринято за прошедший период, а также сколько потенциальных клиентов не сумели выявить менеджеры компании. Если нельзя увидеть целиком какую-то группу объектов, это еще не означает, что измерить их численность тоже невозможно.
Метод выпуска пойманной рыбы и повторной ловли — лишь один из многочисленных приемов выборочного обследования. Несомненно, новые, более эффективные способы еще будут разработаны. Однако даже поверхностное знакомство с основными методами выборки позволяет правильно оценивать наблюдения и получать информацию, необходимую для решения самых разнообразных проблем.
Преднамеренную (разовую) выборку можно сравнить со случайной моментальной фотографией людей, процессов или предметов в отличие от постоянного наблюдения за ними в течение некоего периода времени. Например, желая узнать, какую часть своего рабочего времени сотрудники тратят на данный вид деятельности, вы проверяете в один из дней, чем наугад выбранные люди заняты в настоящий момент. Окажись, что в 12 случаях из 100 работники участвовали в селекторном совещании, вы сделаете вывод: 12 % своего времени они тратят на селекторные совещания (90-процентный CI составляет 8–18 %). В этом примере, как и в случае с измерением численности рыбной популяции, мы имеем дело с биномиальным распределением. В каждый конкретный момент времени люди либо занимаются данным видом деятельности, либо нет, а вы просто спрашиваете, какую часть своего времени они на это тратят. И здесь размер выборки позволяет, как и ранее, считать распределение нормальным.
Но что, если удалось разово отобрать только 30 человек, из которых лишь пятеро занимаются интересующим вас видом деятельности? Достаточно ли этой информации? И вновь все зависит от степени исходной неопределенности до проведения выборочного обследования. Для ее снижения, возможно, этих данных и хватит. Рисунок 9.2 предоставляет способ быстрого определения 90-процентного CI для доли генеральной совокупности на базе малой выборки. Следуя указаниям на данном рисунке, вы получите такие результаты: нижняя граница 90-процентного CI — примерно 9 %, а верхняя — около 31 %. Предположим, что предыдущая оценка интервала дала итог 5–50 %, а порог, начиная с которого на базе той же информации придется принимать другое решение, — 40 %. Выборка такого размера вполне достаточна для принятия подобного решения.
Кластерное выборочное обследование — это случайная выборка из групп, проведение полного наблюдения или осуществление более концентрированной выборки в полученной группе. Например, если вы хотите узнать, какой процент семей имеет спутниковые тарелки или отделяет пластмассу от других бытовых отходов, иногда проще всего выбрать случайным образом в городе несколько кварталов, а затем провести сплошное обследование семей, проживающих в каждом из этих кварталов (на обследование семей, проживающих в разных концах города, ушло бы слишком много времени). В подобных случаях мы не можем исходить из того, что число объектов в случайной выборке должно равняться числу объектов в группах (в данном случае числу семей). Семьи, проживающие в одном квартале, могут быть очень похожими, поэтому нельзя считать, что размер случайной выборки определяется их числом. Когда семьи в квартале практически одинаковы, за размер выборки лучше принять число кварталов.
При стратифицированном отборе разные методы и (или) размеры выборки применяются к разным группам в составе одной генеральной совокупности. Этот подход имеет смысл, когда генеральная совокупность состоит из нескольких сильно отличающихся друг от друга, но внутренне однородных групп. Если вы владеете рестораном быстрого питания и хотите определить демографический состав своих клиентов, то, возможно, следует применять разные методы выборочного обследования к клиентам за столиками и к тем, кто берет еду на вынос. Если вы директор завода и хотите проверить, как соблюдается техника безопасности, то, возможно, методы наблюдения за сварщиками, мастерами и уборщицами должны различаться.
В учебниках по статистике метод серийной выборки обычно не освещается. Не обсуждали бы его и мы, называйся наша книга «Как измерить большинство вещей». Но в период Второй мировой войны данный подход широко использовался для сбора разведывательной информации[25]. Он может пригодиться и сегодня для решения некоторых бизнес-проблем. В годы Второй мировой разведчики союзников собирали сведения о производстве вражеской военной техники, в том числе немецких танков «Mark V». Сведения о производстве этих тяжелых танков были очень противоречивыми, и руководство разведки союзников не знало, чему верить. В 1943 г. работавшие на союзников статистики разработали метод определения объема производства на основе серийных номеров захваченных танков. Серийные номера следовали друг за другом и включали какую-нибудь дату. Однако по одному серийному номеру еще нельзя было точно сказать, когда был произведен первый танк серии (поскольку серия могла начинаться не с номера 001). Здравый смысл подсказывает, что минимальное месячное производство должно равняться, по крайней мере, разности между последним и первым серийными номерами машин, захваченных в данном месяце. Но нельзя ли узнать из этих номеров что-нибудь еще?
Подойдя к захваченным танкам как к случайной выборке из всей генеральной совокупности, статистики поняли, что могут рассчитать вероятность производства в разных объемах. Например, если в каком-то месяце было выпущено 1000 танков, то вероятность случайно захватить 10 произведенных в этот период машин с серийными номерами, отличающимися друг от друга не более чем на 50 единиц, крайне мала. Разброс номеров 10 танков, случайным образом выбранных из 1000, должен быть больше. Если же в этом месяце было произведено только 80 танков, то захват 10 из них с такими близкими номерами, по крайней мере, возможен.
Таблица 9.3 демонстрирует данные о выпуске танков «Mark V» по сведениям разведки и расчетам статистиков в сравнении с фактическим производством (сведения из захваченных после войны документов). Сравнение подтверждает эффективность статистического метода, основанного на анализе серийных номеров захваченных машин.
Более того, дать оценку, значительно более точную, чем исходные данные разведки, наверное, можно было по номерам нескольких танков. Рисунок 9.3 показывает, как по случайной выборке предметов с серийными номерами определяют размер всей генеральной совокупности. Следуя указаниям рисунка, рассмотрим пример, когда число трофеев составляет восемь объектов (которыми могут быть товары конкурирующей фирмы, найденные в мусоре страницы ее отчета и т. д.). Самый большой серийный номер — 100 220, а самый маленький — 100 070, так что в результате этапа 1 мы получаем 150. Результат этапа 2 — около 1,0 (в этой точке кривая верхней границы пересекает вертикальную линию для нашего размера выборки — 8). На этапе 3 мы производим простые вычисления (1+1,0) 150 = 300 и получим значение верхней границы CI. Повторив эти шаги для нижней границы и среднего значения, получаем 90-процентный доверительный интервал 156–300 со средним значением 195 (обратите внимание, что среднее — это не середина диапазона, поскольку распределение асимметрично). Так что статистики могли сделать свои выводы, располагая всего восемью номерами захваченных танков.
Два предостережения: если захвачены машины одной бронетанковой части, ни одна из них не может считаться отобранной случайно, поскольку у них могут быть близкие номера. Однако обычно это сразу видно по самим номерам. Кроме того, когда на самом деле нумерация серии не совсем последовательная (то есть каждый следующий номер присваивался не следующему танку) и какие-то номера пропущены, данный метод требует определенной модификации. Отметим: необходимо, чтобы распределение используемых номеров легко обнаруживалось. Например, если используются только четные номера или номера, отличающиеся друг от друга на пять, то это должно быть очевидным из выборки.
Как это можно применить в бизнесе? «Серийные номера» (то есть последовательные серии) можно найти в современном мире где угодно. Так, компании бесплатно предоставляют конкурентам информацию о своем объеме производства, просто указывая на товарах серийные номера, которые может увидеть любой покупатель. (Однако, чтобы быть случайной, такая выборочная совокупность должна состоять из товаров, купленных в разных магазинах.) Аналогичным образом несколько страниц из выброшенного отчета конкурента или цифр из квитанции могут многое рассказать об остальных страницах отчета или обо всех квитанциях за данный день. Я вовсе не призываю вас копаться в отбросах, но исследование содержимого мусорных контейнеров нередко позволяет решить интересные задачи по измерению.
Определите порог
Обычно мы хотим что-то измерить, так как требуется обосновать какое-то решение. И для всех решений обычно имеется некое пороговое значение: если интересующий нас показатель окажется выше его, то мы примем одн решение, а если ниже, то другое. Но статистические методы в большинстве своем не занимаются выяснением, при каком значении X следует принять то или иное решение. Я хочу познакомить вас с таким статистическим методом, который позволяет не только снизить неопределенность в целом, но и сравнить интересующий показатель с важным пороговым значением.
Предположим, требуется определить средние затраты времени сотрудников на совещания, которые в наш век Интернета могли бы проводиться и дистанционно. Работники не теряли бы время на дорогу, а совещания не срывались бы из-за проблем с транспортом. Чтобы решить, следует ли проводить данное совещание дистанционно, нужно выяснить, что на нем происходит. Если сотрудники, которые и так постоянно общаются друг с другом, обсуждают рутинные вопросы, но ради этого кому-то приходится ехать издалека, то подобное мероприятие, наверное, лучше проводить дистанционно. Начнем с калиброванной оценки времени, необходимого среднему сотруднику на то, чтобы попасть на совещание, которое могло бы проводиться дистанционно (3–15 %). Далее определяем, что если этот показатель превысит 7 %, то инвестировать немалые средства в подобные виртуальные мероприятия стоит. Расчет ожидаемой стоимости полной информации показывает, что необходимо израсходовать не больше 15 000 дол. на исследования по этому вопросу. Согласно нашему правилу определения затрат на проведение измерений, можно потратить на эти цели примерно 1500 дол., так что если в компании тысячи сотрудников, то сплошной опрос всех участников совещаний абсолютно исключен.
Предположим, что мы выбрали 10 человек и после подробного анализа времени, которое они тратят на дорогу и проводившиеся в последнее время совещания, выяснилось, что только один сотрудник расходует менее 7 % своего времени на эти виды деятельности. Какова, с учетом этой информации, вероятность того, что интересующий нас средний показатель действительно меньше 7 % и подобные инвестиции совершенно неоправданны? Ответ на уровне здравого смысла — один к десяти, или 10 %. Но это как раз тот случай, когда здравый смысл совсем не так полезен, как немного математики. На самом деле эта вероятность намного меньше.
Рисунок 9.4 показывает, как можно оценить вероятность того, что медиана генеральной совокупности находится по одну сторону порога при условии, что половина или большинство значений малой выборки — по другую сторону.
Попрактикуйтесь в обращении с рисунком 9.4.
1. Найдите в верхней части диаграммы, где указаны размеры выборок, цифру 10. Проследите, куда ведет сплошная кривая, соединяющая эту цифру с вертикальной осью координат.
2. Найдите в нижней части рисунка, где указано число объектов выборки ниже порогового, цифру 1. Проследите, куда ведет соответствующая этой цифре вертикальная пунктирная линия.
3. Найдите точку пересечения кривой и пунктирной линий.
4. Соответствующий этой точке процентный показатель на вертикальной оси координат (0,6 %) показывает вероятность того, что медиана такой выборки меньше порогового значения.
Данная малая выборка сигнализирует: вероятность того, что среднее значение совокупности окажется ниже порога, заметно меньше 1 %. Хоть эта статистика и кажется контринтуитивной[26], но факт остается фактом: неопределенность положения медианы (или даже среднего значения) генеральной совокупности относительно порога можно снизить очень быстро. Предположим, что мы отобрали из генеральной совокупности всего четыре объекта и ни один из них не оказался ниже порогового. Обратившись снова к рисунку 9.4, мы обнаружим, что вероятность нахождения медианы ниже порога составляет чуть менее 4 %, а вероятность ее положения выше него — соответственно 96 %. То, что выборочная совокупность всего из четырех объектов настолько снижает неопределенность, может показаться удивительным, но несложные расчеты или моделирование методом Монте-Карло это подтверждают.
Обратите внимание, что неопределенность, связанная с порогом, может снижаться гораздо быстрее, чем неопределенность по поводу самого интересного для нас показателя. Бывает, после нескольких выборок остается довольно широкий диапазон, однако когда порог находится за его пределами, неопределенность, связанная с ним, снижается буквально до нуля.
Серьезным ограничением данного подхода является предположение о максимальной неопределенности порогового значения. Метод исходит из допущения, что изначально у нас нет никакой информации о том, по какую сторону порога может находиться медиана генеральной совокупности. Это означает, что придется начинать с 50-процентной вероятности того, что медиана находится по ту или иную сторону порога. Знай мы заранее, что медиана, скорее всего, ниже порога, наша диаграмма, хотя и неточная, все же дала бы полезный результат. Если же вероятность того, что значение медианы ниже порогового будет меньше вероятности ее положения выше порога, то диаграмма завысит вероятность того, что в действительности медиана ниже порога. В нашем примере диапазон 3–15 % указывает на то, что медиана, скорее всего, больше порогового значения 7 %. Диаграмма указывает, что вероятность обратного — 0,6 %, но, обладая информацией о нашем диапазоне, мы можем сказать, что эта вероятность даже меньше.
Если бы, однако, диапазон составлял 1–8 %, то с самого начала было бы понятно, что интересующий нас показатель расположен ниже порогового значения 7 %. В данном случае рисунок 9.4 занижает вероятность того, что этот показатель ниже порога. Попытаемся использовать другой ориентир для уточнения искомой величины. Найдем фактическое среднее значение исходного диапазона и рассчитаем вероятность его нахождения по ту или иную сторону порога. При данном диапазоне можно утверждать, что существует 50-процентная вероятность того, что это значение меньше 4,5 %. Допустим, что из 10 отобранных нами служащих ни у одного затраты времени не оказались меньше 4,5 %. Рисунок 9.4 свидетельсвует: в этой ситуации вероятность того, что истинное значение на самом деле меньше 4,5 %, составляет менее 0,1 %. Хотя эта информация и не дает точных данных о том, насколько маловероятно, что искомое значение меньше 7 %, все же становится очевидно, что этот вариант практически невозможен.
Итак, как правило, если выборочное обследование убедительно подтверждает имевшуюся ранее информацию (например, лишь одно из 10 значений выборки оказывается ниже порога, а вы уже знаете, что медиана вряд ли может быть ниже порога), то неопределенность снижается даже быстрее. Когда же исследование опровергает имевшиеся ранее сведения, для аналогичного снижения неопределенности придется увеличить размер выборки. Не забывайте и о том, что рисунок 9.4 позволяет оценить вероятность того, что медиана (но не среднее значение диапазона) ниже или выше порога. Конечно, вы можете проделать дополнительные расчеты и еще больше снизить неопределенность. Если четыре значения в выборке окажутся намного больше порогового, то это даст вам большую уверенность, чем если бы они едва превысили его.
Эксперимент
Мой первый опыт покупки по Интернету относится примерно к середине 1990-х годов. В моей библиотеке было несколько работ по эмпирическим методам, применяемым в различных областях, но мне нужна была книга по общим основам научных измерений — такая, которую можно порекомендовать своим клиентам — менеджерам компаний. Я прочитал всех философов (Куна, Поппера и др.), но не нашел того, что искал. И тогда я увидел на сайте www.amazon.com книжку под названием «How to Think like a Scientist» («Мыслить, как ученый»)[27]. Отзывы были прекрасные, и казалось, что именно ее я смогу порекомендовать типичному руководителю. Оплатив покупку, через пару недель я получил по почте совсем не то, что ожидал. Книжка оказалась детской — для читателей от восьми лет. Я понял, что попал в глупое положение, и зарекся делать покупки по Интернету, пока электронная торговля не вышла из зачаточного состояния. Ведь в книжном магазине я, не имея в то время детей, просто проигнорировал бы секцию детской литературы. А заметь я эту книгу на книжном развале, ее обложка[28] подсказала бы, что это вовсе не то серьезное издание из серии «Наука для бизнеса», которое мне нужно. Повозмущавшись, я начал просматривать книгу. И оказалось, что хотя она на две трети состояла из картинок, в ней освещались все основные понятия и каждому давалось как нельзя более простое объяснение. Например, авторы очень доступно говорили о том, что такое проверка гипотезы и проведение наблюдений. Я изменил свое мнение, теперь покупка книги уже не казалась ошибкой. Я понял, что нашел в Интернете эту жемчужину именно потому, что принял ее за издание для взрослых. Стало ясно: главная идея книги была сформулирована на обложке — научные методы годятся для всех, кому уже исполнилось восемь.
Мысль провести эксперимент, чтобы определить какой-либо важный бизнес-показатель, к сожалению, приходит в голову менеджерам нечасто. А ведь эксперименты (что мы видели на примере Эмили Роза) могут быть очень простыми. При правильном подходе даже горсть конфетти, как показал Энрико Ферми, позволяет выяснить такой параметр, как мощность атомной бомбы. Сама идея очень проста. Как говорится в главе 3 о выборе инструментов измерения, когда вам нужно узнать то, что еще никем не измерено и что нельзя наблюдать без явного вмешательства, постарайтесь создать условия для наблюдения с помощью эксперимента.
Используемое в широком смысле слово «эксперимент» означает любое явление, созданное специально для цели наблюдения. Вы «экспериментируете», когда проверяете систему безопасности, чтобы понять, как быстро она отреагирует на угрозу. Но главной особенностью управляемого эксперимента является то, что у вас обычно не один, а два объекта изучения. Вы наблюдаете за тем, что испытываете (группа испытуемых), и за тем, с чем результаты испытания можно будет сравнить потом (контрольная группа). Это идеальный подход к ситуации, когда слишком сложно проследить за существующим явлением или когда объект, требующий измерения, еще не возник (например, необходимость оценки эффекта от изменения композиции продукта или внедрения новой информационной технологии).
Можно запустить новый опытный продукт или новую технологию и без оценки последствий. Но как узнать, понравилась ли потребителям ваша новая продукция, действительно ли повысилась производительность труда? Доходы могут вырасти вовсе не из-за изменения композиции продукта, а производительность труда — измениться совсем по другим причинам. На самом деле, если положение компании в какой-то момент зависит только от одного фактора, то отпадает необходимость в контрольных группах. Тогда можно менять этот фактор, исследовать положение компании и приписать возникшие сдвиги исключительно этой причине. Но, конечно, нужно уметь оценивать одновременное влияние разных сил и тогда, когда на сложные системы влияют многочисленные факторы, в том числе и такие, которые даже нельзя выявить и определить.
Изменяя какое-либо свойство своего продукта и желая понять, как это изменение повлияет на мнение потребителей, мы, возможно, должны будем провести эксперимент. Удовлетворенность потребителей, а следовательно, и число повторных заказов зависят от целого ряда причин. Но когда необходимо узнать, оправдано ли экономически это новое свойство продукта, приходится оценивать роль только этого фактора, а не совокупности разных причин. Сравнивая мнения потребителей, купивших усовершенствованный продукт, и тех, кто остался верен старому варианту, мы сможем количественно определить эффект именно нового свойства.
Для интерпретации результатов экспериментов используются в основном уже обсуждавшиеся нами методы: проведение разных выборочных обследований, возможно, испытаний вслепую и т. д. Но особенно важно уметь рассчитывать разницу результатов, полученных в группе испытуемых и контрольной группе. Если мы уверены, что группа испытуемых действительно отличается от контрольной, то должны быть убеждены и в том, что разница в результатах возникает не случайно. На самом деле, сравнение откликов двух групп очень похоже на расчет среднего квадратичного отклонения оценки, с которым мы уже знакомы, но с одним небольшим изменением. В данном случае среднее квадратичное отклонение, которое надо определить, — это отклонение различия результатов групп. Рассмотрим следующий пример.
Предположим, что одна компания решила оценить воздействие тренинга «Управление взаимоотношениями с клиентами» на качество работы службы поддержки потребителей. Сотрудники этой службы обычно отвечают на звонки покупателей, у которых появились вопросы или возникли проблемы с новым продуктом. Есть мнение, что плохая работа данной службы приводит не столько к снижению объемов продаж именно этим покупателям, сколько к той устной антирекламе, которую компания получает в результате. Как обычно, эта компания, прежде всего, оценила существующую неопределенность эффекта от проведения тренинга, затем определила соответствующий порог и рассчитала стоимость информации.
Изучив несколько возможных инструментов измерения, менеджеры решили, что лучше всего провести опрос позвонивших в службу поддержки покупателей и поинтересоваться не только их впечатлениями, но и вероятностью того, что они порекомендуют компанию своим друзьям. Используя ранее собранную маркетинговую информацию, калиброванные менеджеры определили, что новый тренинг в области управления взаимоотношениями с клиентами может увеличить объем продаж на 0–12 %, но расходы на его проведение окупятся даже в случае, если рост продаж составит лишь 2 %.
К проведению опроса приступили еще до начала тренинга, чтобы представить себе исходное положение дел. Из клиентов каждого сотрудника службы отбирали только одного. Главный вопрос был сформулирован так: «Какова вероятность, что вы порекомендуете нас своим друзьям, учитывая свой опыт обращения в службу поддержки?» В случае высокой вероятности такого поступка респонденты должны были выбрать цифру 1, если мнение о работе службы не изменилось — цифру 2, а в случае малой вероятности — 3. Каждому ответу присваивался соответствующий балл (1, 2, 3). Зная результаты некоторых предыдущих исследований роста продаж в результате повышения удовлетворенности потребителей, отдел маркетинга определил, что улучшение среднего балла ответов на этот вопрос на 0,1 пункта приведет к повышению объема реализации на 2 %.
Тренинг, о котором идет речь, был не из дешевых, поэтому сначала руководство решило послать на обучение 30 случайным образом выбранных сотрудников службы поддержки потребителей в качестве группы испытуемых. Тем не менее затраты на обучение этой группы оказались существенно меньше рассчитанной стоимости информации. В контрольную группу вошли все остальные сотрудники службы. После того, как тест-группа прошла программу тренинга, менеджеры продолжили опрос покупателей, осуществив выборочное обследование по принципу, описанному выше. Были рассчитаны среднее значение и дисперсия исходных данных по группе испытуемых и контрольной группе (как это показано в примере с леденцами в начале главы). Результаты расчетов представлены в таблице 9.4.
Ответы респондентов вроде бы продемонстрировали, что обучение дало эффект; но не является ли эта картина просто случайностью? Может быть, 30 случайным образом выбранных сотрудников уже работали лучше, чем персонал в среднем, или этим 30 случайно пришлось иметь дело с менее «трудными» покупателями? Пересчитаем полученные результаты обеих групп следующим образом:
1. Разделим дисперсию выборки каждой группы на размер выборки. Получим: 0,392 / 30 = 0,0131 для группы испытуемых и 0,682 / 85= 0,008 для контрольной группы.
2. Сложим полученные для каждой группы результаты: 0,0131 + 0,008 = 0,021.
3. Извлечем из полученного числа квадратный корень. Так мы получим среднее квадратичное отклонение разницы между группами. В данном случае она составит 0,15.
4. Рассчитаем разницу между средними значениями двух сравниваемых групп: 2,433–2,094 = 0,339.
5. Рассчитаем теперь вероятность того, что разница между группой испытуемых и контрольной группой больше 0, то есть группа испытуемых показала действительно, а не случайно, лучшие результаты, чем контрольная группа. Используем для этого расчета формулу normdist в Excel:
=normdist(0, 0,339, 0,15, 1)
и получим вероятность, равную 0,01.
Таким образом, существует вероятность всего 1 % того, что сравниваемые группы одинаково хороши или плохи. Значит, мы можем быть на 99 % уверены, что люди, прошедшие тренинг, действительно работают лучше остальных сотрудников службы.
Аналогично можно сравнить контрольную группу с исходным состоянием. Разница между ними составляет всего 0,007. Применив метод, только что использованный нами для сравнения тест-группы и контрольной группы, найдем, что есть 48-процентная вероятность того, что контрольная группа работает хуже исходного состояния, или 52-процентная вероятность того, что лучше. Таким образом, различие между этими группами пренебрежимо мало, а для всех практических целей его вообще не существует.
Мы определили с высокой степенью уверенности, что тренинг способствует повышению удовлетворенности потребителей. Поскольку разница между группой испытуемых и контрольной группой составляет около 0,4, отдел маркетинга пришел к выводу: обучение приведет к росту продаж примерно на 8 %. Это означает, что затраты на обучение всего персонала экономически целесообразны. Вспомним, что мы вполне могли бы взять и меньшую выборку, воспользовавшись t-распределением Стьюдента для выборок размером до 30.
Выявление взаимозависимости параметров: введение в регрессионное моделирование
На семинарах мне часто задают примерно такой вопрос: «Если благодаря внедрению новой информационной системы продажи увеличатся, то откуда мы будем знать, что это произошло благодаря именно этой системе?» Просто удивительно, как часто этот вопрос возникает при том, что последние несколько столетий специалисты по научным измерениям только и делают, что пытаются выделить эффект одной переменной. Могу лишь предположить, что эти люди незнакомы с основными понятиями научного измерения. Приведенный ранее в этой главе пример эксперимента ясно показывает: то, что объясняется многими причинами, вполне можно проследить до одного-единственного фактора влияния, сравнивая тест-группу с контрольной группой. На самом деле использование этих групп — лишь один из имеющихся способов выделения эффекта одной переменной из всей массы информации, существующей в любой компании. Другой способ — рассмотреть, насколько одна переменная коррелирует с другой.
Корреляция между двумя наборами данных обычно характеризуется числом, варьирующим от +1 до —1. Корреляция, равная +1, означает, что две переменные меняются совершенно одинаково: с ростом одной увеличивается и другая. Корреляция —1 также указывает на тесную связь между переменными, но когда одна из них увеличивается, другая уменьшается. Нулевая корреляция означает отсутствие всякой связи.
Чтобы понять, как выглядят коррелирующие друг с другом показатели, рассмотрим четыре примера, приведенных на рисунке 9.5. По горизонтальной оси отложены баллы теста на профессиональную пригодность или объем телевизионной рекламы за месяц, а по вертикальной — производительность труда или объемы продаж за месяц. Иными словами, на осях могут быть отложены любые критерии. Но из рисунка видно, что на одних диаграммах между параметрами существует более тесная связь, чем на других. В верхнем левом углу — график изменения двух переменных, никак не связанных друг с другом, между которыми нет корреляции, что видно из отсутствия наклона. Плоской и вытянутой в длину совокупность точек кажется потому, что изменчивость переменной по горизонтали больше таковой по вертикали. Будь их изменчивость одинаковой, точки разместились бы по кругу, но наклона все равно мы не наблюдали бы. График в нижнем правом углу указывает на сильную взаимозависимость двух переменных.
Прежде чем приступить к расчетам, необходимо построить график, чтобы убедиться в наличии или отсутствии заметной корреляции. Если при сравнении ожидаемых затрат на реализацию проекта с фактическими издержками ваш график оказался аналогичен изображенному в нижнем правом углу рисунка 9.5, значит, оценка была необыкновенно точной. А если он похож на набор точек в верхнем левом углу, то можно сказать, что игрок в кости оценил бы эти затраты не хуже.
Использование регрессионных моделей и данных за прошедшие периоды освобождает нас от необходимости проведения управляемого эксперимента. Допустим, что нам трудно увязать реализацию проекта в области информационных технологий и рост продаж. Однако имеется много данных о том, как влияет на продажи что-то еще, например более быстрый выход нового продукта на рынок. Если знать, что автоматизация некоторых процессов позволит сократить время от разработки до выхода продукта на рынок, то можно найти интересующую нас зависимость.
Однажды по просьбе одной крупной компании кабельного телевидения я анализировал ее проект инвестирования в новое программное обеспечение. Компания собиралась автоматизировать выполнение ряда административных задач, связанных с выпуском новых телешоу. Она надеялась, что это, в частности, приведет к повышению рейтингов подобных передач, а следовательно, и к росту доходов от рекламы. Но как компания могла оценить влияние проекта на рейтинги, зависящие от столь многих факторов?
По идее система автоматизации производства должна была ускорить выполнение определенных административных задач. Если они станут выполняться быстрее, компания сможет раньше начинать раскручивать новые шоу. У телекомпании были данные о рейтингах в прошлые периоды, и изучив старые производственные графики, мы смогли определить, сколько недель каждое новое шоу рекламировалось до выхода в эфир (ранее мы рассчитали стоимость этой информации и определили, что затраты на ее оценку полностью себя оправдают). Рисунок 9.6 представляет собой график роста рейтинга с увеличением продолжительности раскрутки (в неделях). Он построен не на основе реальных данных моего клиента, но иллюстрирует примерно ту же корреляцию.
Можем ли мы сразу, еще до анализа имеющихся данных, сказать, что между двумя переменными существует корреляция? Если да, то на какой график рисунка 9.5 больше всего будет похожа эта корреляция? Построение такой зависимости — всегда мой первый шаг при регрессионном анализе, поскольку чаще всего корреляция (если она существует) бывает очевидной. В Excel это очень просто сделать: заполните два столбца числами (в данном случае — недели раскрутки шоу и пункты рейтинга), каждая пара данных соответствует одному ТВ-шоу. Просто выберите весь набор данных, щелкните в меню программы Excel по кнопке «график», выберите опцию «XY (Scatter)» («график разброса»), выполните остальные указания, и вы увидите такой же график, как на рисунке 9.6.
Похоже, что корреляция имеется, но насколько она тесная? Ответ на этот вопрос требует знания некоторых тонкостей. Но я не стану здесь объяснять, на чем основано регрессивное моделирование, а взамен просто расскажу, что нужно сделать в Excel.
В программе Excel для расчета корреляции можно просто использовать функцию «=correl()». Предположим, что данные о продолжительности рекламы и рейтингах содержатся соответственно в первых 28 строках столбцов А и В электронной таблицы. Вы написали бы: =correl(A1:A28, В1:В28). С нашими данными мы получим коэффициент корреляции примерно 0,7. Поэтому можно с уверенностью считать, что увеличение продолжительности рекламы нового шоу повысит его рейтинг. Теперь пора сосредоточиться на упрощении процесса производства шоу и увеличении времени, которое можно потратить на рекламу.
Другой способ проделать это в Excel — воспользоваться опцией «Regression Wizard» («Мастер регрессии») из «Data Analysis Toolpack» («Набор инструментов для анализа данных») (перемещение к этой опции в разных версиях Excel разное, поэтому воспользуйтесь опцией «Справка»). Мастер регрессии подскажет вам выбрать «Y range» («интервал Y») и «X range» («интервал X»). В нашем примере это, соответственно, рейтинг и реклама (в неделях). Мастер создаст таблицу с результатами регрессионного анализа. Некоторые из них поясняются в таблице 9.5.
На основе приведенной информации можно вывести формулу наилучшего приближения для связи между продолжительностью раскрутки и рейтингом шоу. Далее мы рассчитаем прогнозируемый рейтинг по числу недель рекламы. Удобно называть это значение (в данном случае прогнозируемый рейтинг) «зависимой» переменной, а величину, по которой она определяется, — «независимой».
Прогнозируемый рейтинг (пункты) = Переменная X 1 Продолжительность раскрутки (недели) + Отрезок, отсекаемый на оси координат.