Как измерить все, что угодно. Оценка стоимости нематериального в бизнесе Хаббард Дуглас
Когда вам говорят, что определить величину «слишком дорого» или «слишком трудно», сразу спрашивайте: «По сравнению с чем?» Разумеется, если информационная ценность измерения буквально или практически равна нулю, проводить его не имеет смысла. Но когда эта ценность велика, задайте себе вопрос: «Существует ли вообще метод, позволяющий снизить неопределенность настолько, чтобы оправдать затраты на проведение измерения?» Как только ценность даже частичного снижения неопределенности становится понятной, ответ на этот вопрос обычно бывает утвердительным.
Возражение против полезности «статистики» вообще
В конце концов, факты — это факты. И хоть мы напоминаем друг другу, посмеиваясь, слова одного мудрого политика про «ложь, проклятую ложь… и статистику», есть все же такие цифры, в которых разберется даже последний простак и которые не сможет извратить и первый ловкач.
Леонард Кортни, первый барон Кортни, президент Королевского статистического общества (1897–1899)
Иногда высказывается и такое возражение, что даже если измерение возможно, оно ничего не даст, поскольку статистика и вероятность сами по себе бессмысленны (так сказать, «ложь, проклятая ложь… и статистика»[11]). Глубокое непонимание основ статистики проявляют порой даже квалифицированные специалисты. Иногда приходится слышать такие поразительные вещи, что не знаешь, как на них реагировать. Вот несколько высказываний, которые мне довелось выслушать:
«Все события равновероятны, так как мы не знаем, что произойдет» (сказано слушателем моего семинара).
«Я совершенно нетерпим к риску, потому что никогда не рискую» (фраза менеджера среднего звена страховой компании, которую я консультировал).
«Как узнать интервал, если я даже не знаю среднего значения?» (вопрос клиента Сэма Сэвиджа, ученого, моего коллеги и пропагандиста методов статистического анализа).
«Откуда известно, что вероятность выпадения орла — 50 %, если никто не знает, что произойдет?» (вопрос, заданный дипломником на лекции, которую я читал в Лондонской школе экономики, — это не шутка!)
«С помощью статистики можно доказать все, что угодно» (известная поговорка о статистике).
Давайте сначала обсудим последнюю фразу. Я прямо сейчас предлагаю приз в 10 тыс. дол. любому, кто, используя статистику, докажет следующее утверждение: «С помощью статистики можно доказать все, что угодно». Под словом «доказать» я подразумеваю, что это доказательство можно будет опубликовать в любом крупном математическом или вообще научном журнале. Критерием будет именно такая публикация (уверен, что подобное важное открытие обязательно будет напечатано). Под словами «что угодно» я подразумеваю буквально все, что угодно, включая любое давно опровергнутое утверждение из области математики или другой науки. А вот под статистикой я понимаю статистику в самом широком смысле слова. Тот, кто получит этот приз, может использовать любое направление математики или другой науки, имеющее малейшее отношение к теории вероятности, методам выборочного обследования, теории решений и т. д.
Дело в том, что когда люди говорят: «С помощью статистики можно доказать все, что угодно», они, скорее всего, имеют в виду не статистику как таковую, а использование цифр вообще (особенно, по какой-то причине, процентов). На самом деле они подразумевают не совсем «что угодно» или не совсем «доказать». Реальный смысл поговорки заключается в том, что «цифрами можно сбить с толку людей, особенно легковерных, кто не в ладах с математикой». Вот с этим я полностью согласен.
Другие высказывания из моего списка свидетельствуют о незнании основ теории вероятности, риска и измерений в целом. Ясно, что вероятности мы используем исключительно потому, что не можем быть уверены в полученном результате. Очевидно и то, что нам приходится принимать какие-то риски, даже при обычной поездке на работу, так что все люди в известной мере терпимы к риску.
Иногда я обнаруживаю, что люди, делающие подобные заявления, противоречащие здравому смыслу, не вполне понимают, о чем говорят, поскольку их собственные шаги идут вразрез с теми убеждениями, которых они якобы придерживаются. Заключите с кем-нибудь пари, что он не угадает, сколько раз выпадет решка, если подбросить монету 12 раз, — и вы увидите, что даже тот, кто считает, что вероятность определить невозможно, назовет цифру 6 или близкую к ней. Тот, кто говорит, что никогда не рискует, тем не менее, летит в Москву самолетом Аэрофлота (компании, статистика авиапроисшествий которой хуже любого американского перевозчика), чтобы получить в качестве приза миллион долларов. С какими только заблуждениями по поводу статистики и теории вероятности не приходится сталкиваться! Этим ошибочным мнениям, характерным даже для руководителей крупнейших компаний, а также путям их преодоления посвящены почти все статьи в таких изданиях, как, например, «Journal of Statistics Education». Но тот, кто дочитает книгу до конца, наверняка избавится хотя бы от некоторых своих заблуждений относительно статистики.
Этические возражения против проведения измерений
Обсудим теперь последний аргумент, приводимый теми, кто считает, что осуществлять измерения не следует. Это аргумент этического характера. Сопротивление проведению измерений порождается страхом перед возможной ответственностью и уверенностью в окончательном характере чисел в сочетании с ранее приобретенным недоверием к «статистике». Иногда измерения воспринимают даже как нечто антигуманное. Попытки оценить такие деликатные вещи, как стоимость исчезающих видов животных или даже человеческой жизни, вызывают праведное негодование. Тем не менее подобные оценки проводятся, причем регулярно, поскольку они необходимы.
Агентство по защите окружающей среды (Environmental Protection Agency, EPA) и другие государственные органы должны распределять весьма ограниченные средства на экологию, охрану нашего здоровья и даже жизни. Я помогал EPA оценивать некоторые инвестиционные проекты, в том числе проект создания Географической информационной системы (Geographic Information System, GIS) для улучшения мониторинга концентрации диметилртути — по мнению многих, вещества, высокая концентрация которого приводит к снижению коэффициент интеллекта (IQ) у детей.
Чтобы оценить, следует ли создавать эту систему, мы должны были задать важный, хотя и не очень приятный вопрос: целесообразно ли тратить в течение пяти лет 3 млн дол. на то, чтобы предотвратить возможное снижение IQ? Кого-то может возмутить одно то, что такой вопрос вообще был поставлен. Многие скажут, что миллионы стоит потратить даже в том случае, если IQ детей удастся повысить хотя бы на один балл.
Однако позвольте! Ведь EPA приходится финансировать и другие системы, призванные наблюдать за эффектом воздействия новых загрязнителей, которые иногда приводят к преждевременной смерти. Ресурсы EPA ограниченны, а программ по улучшению общественного здравоохранения и состояния окружающей среды, а также спасению исчезающих видов животных очень много. Агентству приходится сравнивать программы, задавая вопросы: «Скольким детям мы сумеем помочь, и насколько повысится их IQ?» и «Сколько преждевременных смертей можно будет предотвратить?»
Иногда даже приходится спрашивать: «Насколько преждевременной является такая смерть?» Когда ограниченность ресурсов вынуждает делать выбор, должны ли мы относиться к смерти пожилого человека так же, как к гибели молодого? В определенный момент EPA даже подумывала о том, чтобы использовать поправку на смерть пожилых людей (senior death discount). Это означает: смерть человека в возрасте за 70 лет «стоит» на 38 % меньше смерти человека в возрасте до 70. У некоторых это вызвало возмущение, и в 2003 г. администратору EPA Кристин Тодд Уитмен пришлось объявить, что данная поправка использовалась для общей ориентации, а не для разработки политики, и теперь эта практика прекращена[12]. Конечно, даже говоря об одинаковой стоимости жизни людей разных возрастов, мы проводим измерения, поскольку выражаем эти величины количественно. Но если они одинаковы, то всегда ли действует этот принцип? Стоит ли потратить на спасение жизни 99-летнего больного человека столько же усилий, сколько на спасение здорового пятилетнего ребенка? Каким бы ни был ваш ответ, это будет измерение относительной стоимости жизни каждого.
Если мы будем настаивать на том, чтобы не рассчитывать относительную стоимости многочисленных государственных социальных программ (что является естественным результатом отказа от определения ценности каждой из них), то почти наверняка будем распределять ограниченные ресурсы так, что, решив менее значимые задачи, потратим гораздо больше денег. Это связано с огромным числом возможностей для подобных инвестиций, и без цифр определить лучший вариант очень трудно.
В других случаях кажется, что само существование погрешности (которая, как мы знаем, почти всегда существует в эмпирических измерениях) делает попытку измерения неприемлемой с точки зрения морали. Стивен Гулд, автор книги «The Mismeasure of Man» («Ложное измерение человека»), страстно возражает против полезности и даже этичности оценки интеллекта путем определения IQ или единого показателя интеллекта g (проявляющегося при различных тестах, в том числе при расчете IQ). По его словам, g — не что иное, как артефакт математических манипуляций[13]. При определении баллов IQ и g, разумеется, возникает ошибка, но все-таки они не только отражают процедуру их расчета, но и основаны на наблюдениях (тестах). И поскольку теперь мы понимаем, что измерение вовсе не означает «полного отсутствия ошибки», возражение о невозможности количественной оценки интеллекта из-за погрешностей тестов, по меньшей мере, беспомощно.
Более того, другие исследователи считают: точка зрения, что показатели интеллекта не являются характеристиками реального явления, не согласуется с хорошей корреляцией таких показателей, рассчитанных разными способами[14], а также с социальным феноменом криминального поведения людей или индивидуальными доходами[15]. Как IQ может быть совершенно произвольным числом, если он соответствует наблюдаемой реальности? Я не пытаюсь здесь решить этот спор, но мне интересно, как Гулд распорядился бы средствами, выделяемыми на защиту окружающей среды от токсических веществ, влияющих на умственное развитие. Рассмотрим пример с диметилртутью, которая приводит к снижению IQ у детей. Считает ли Гулд, что на самом деле она такого эффекта не оказывает, или же он думает, что даже если эффект наблюдается, мы не вправе его оценивать, поскольку значения IQ были определены с погрешностью? В любом случае в итоге нам придется проигнорировать наносимый токсическими веществами вред здоровью, а отсутствие полной информации заставит направить ресурсы на другую программу. Бедные дети!
Когда между полным невежеством и возможностью хоть немного восполнить пробелы в своих знаниях выбирают полное невежество, вряд ли это можно назвать высокими моральными устоями. Если решения принимаются в условиях высокой неопределенности, хотя ее и можно снизить, то политики (или даже руководители таких компаний, как авиастроительные) сильно рискуют неправильно распределить ограниченные ресурсы и в результате создать угрозу для нашей жизни. В измерениях, как и во многих других областях человеческой деятельности, невежество не только расточительно, но и опасно.
Невежество никогда не может быть лучше знания.
Энрико Ферми, лауреат Нобелевской премии по физике (1938)
Навстречу универсальному подходу к измерению
Итак, мы узнали о людях, обладавших интересными интуитивными подходами к измерению. Мы познакомились с тем, как следует рассматривать главные возражения против проведения измерений, в том числе некоторые «измеренческие» максимы, и познакомились с несколькими интересными примерами количественной оценки. Мы выяснили, что люди считают объект не поддающимся измерению только из-за своих ошибочных представлений. Все это вместе очерчивает общие рамки схемы измерения. Чтобы завершить дело, нам нужно добавить к ней еще несколько понятий. Данная схема, как оказалось, лежит в основе разработанного мною метода прикладной информационной экономики.
При всем разнообразии возникающих на практике задач по измерению мы все же предложим такую последовательность шагов, которой следует придерживаться при проведении количественной оценки практически любого вида. Таким образом, мы можем разработать универсальный подход. Каждый элемент этого подхода хорошо известен специалистам разных областей науки или отраслей экономики, но никто еще не объединял их в единый логически последовательный метод. Предлагаемый универсальный подход требует ответов на шесть перечисленных далее вопросов.
1. Что вы пытаетесь измерить? Что на самом деле представляет собой этот якобы неизмеримый объект?
2. Почему вы хотите его измерить? Какое решение будет принято по результатам измерения, и каким должно быть «пороговое значение» определяемого показателя?
3. Что вам известно сейчас — какие интервалы или вероятности представляют нынешнюю неопределенность?
4. Какую ценность имеет данная информация? К каким последствиям приведет ошибка, какова ее вероятность и какие усилия, связанные с измерением, будут оправданы с экономической точки зрения?
5. Какие наблюдения, затраты на которые будут оправданы ценностью требуемой информации, позволят подтвердить или исключить различные возможности? Что именно мы должны увидеть сразу, если сбудется тот или иной сценарий?
6. Как учесть такие ошибки при измерении, которых можно избежать (опять при условии, что затраты оправдаются ценностью информации)?
Более подробно каждый шаг описываемого подхода будет рассмотрен в последующих главах, но частично мы о них уже говорили.
Выгоды взгляда на мир «калиброванными» глазами, которые видят все через призму количественной оценки, были той исторической силой, которая двигала вперед науку и способствовала повышению экономической эффективности. Измерение — один из основных инстинктов человека, однако этот инстинкт подавляется в условиях, когда люди предпочитают создавать комитеты и добиваться консенсуса вместо того, чтобы делать простые наблюдения. Многим менеджерам даже не приходит в голову, что «нематериальное» можно измерить с помощью простых и остроумных наблюдений.
Из предыдущего знакомства с концепцией измерения люди часто выносят свои предубеждения. Все мы сталкивались с основными понятиями теории измерений, например в университетской химической лаборатории, но вряд ли научились чему-то, кроме того, что измерения всегда точны и что количественно оценить можно только то, что поддается непосредственному наблюдению и количественному выражению. Однако, видимо, университетская статистика приводит в замешательство столько же людей, сколько информирует. Когда мы идем на работу, то видим, что специалисты любого профиля и квалификации просто завалены задачами по измерению совсем не столь легко поддающихся оценке объектов, с какими мы имели дело на семинарах. Взамен мы узнаем, что некоторые вещи просто не поддаются измерению. Однако, как мы видели, «неизмеримость» — это миф. Задачу по измерению можно решить. Вопрос «Сколько?» позволяет взглянуть на любую задачу под нужным углом зрения, и даже самые сложные проблемы измерения решаемы, если только осознать, к каким последствиям приведет отказ от их решения.
Часть II. Прежде, чем приступить к измерениям
Глава 4. Формулирование задачи по измерению
Когда вы сталкиваетесь со сложной задачей по измерению, полезно поместить ее в определенный контекст. Прежде чем приступить к измерению, задайте себе следующие пять вопросов.
1. Какое решение будет принято с учетом результатов данного измерения?
2. Что на самом деле представляет собой объект измерения?
3. Почему данное измерение необходимо для принятия решения?
4. Что мы знаем об объекте измерения в настоящий момент?
5. Какова ценность проведения дальнейших измерений?
При работе с созданным мною и используемым с 1995 г. методом прикладной информационной экономики я методично отвечаю на эти вопросы, что бы ни приходилось измерять. Я применял метод прикладной информационной экономики при решении более чем 50 сложных проблем в целом ряде организаций[16]. Если прекратить процедуру «вопросы — ответы», то можно полностью изменить не только способ, но и объект измерения.
Первые три вопроса помогают понять, что представляет собой объект оценки в рамках решений, которые планируется принимать по результатам измерения. Если эти результаты вообще имеют значение, то только потому, что они понятным образом влияют на решения и линию поведения. Когда не удается установить, какие решения будут затронуты итогами задуманного измерения и способ их воздействия, значит, это измерение просто не имеет никакой ценности.
Например, вы захотели оценить качество продукта. Тогда придется выяснить, на какие факторы повлияет результат оценки, и ответить на более общий вопрос о том, что вообще подразумевается под качеством продукта. Вы хотите использовать полученную информацию для решения об изменении действующего производственного процесса? Если да, то насколько низким должно оказаться качество продукта, чтобы это решение было принято? Вам нужны данные о качестве, чтобы рассчитать премии менеджеров по программе качества? Если да, то по какой формуле будут рассчитываться эти премии? И конечно, прежде всего ответы на вопросы зависят от того, какой смысл вы вкладываете в понятие «качество продукта».
Когда в конце 1980-х годов я работал в компании Coopers & Ly-brand, мы консультировали небольшой региональный банк, решивший упростить свои процессы отчетности. Банк использовал систему микрофильмирования для хранения отчетов из филиалов (их поступает более 60 еженедельно). Большинство отчетов были необязательными и составлялись не по требованию регулирующих органов, а потому, что кто-то из руководства считал эту информацию необходимой. В наши дни любой хороший программист на Oracle может сказать, что готовить и хранить такие справки очень легко, но в то время на составление отчетов уходила масса времени. Когда я спросил менеджеров банка, какие решения принимаются на основе этих документов, они смогли вспомнить лишь несколько случаев, когда необязательная отчетность изменила или только могла изменить сложившееся мнение. Неудивительно, что отчеты, не использовавшиеся непосредственно для принятия реальных управленческих решений, редко даже просматривали. Кто-то когда-то попросил составлять их, но первоначальная цель была, по всей видимости, забыта. Осознав, что многие отчеты совершенно не нужны для принятия решений, менеджеры поняли и то, что эти отчеты не имеют никакой ценности.
Годы спустя аналогичный вопрос возник у сотрудников аппарата министра обороны (Office of the Secretary of Defense, OSD). Они решили выяснить, какую ценность имеют многочисленные отчеты, составляемые еженедельно и ежемесячно. Когда я попросил их назвать хотя бы одно решение, принимаемое на основе каждого отчета, они обнаружили, что многие из них вообще не используются. Информационная ценность этих отчетов тоже оказалась нулевой.
Прежде чем выбрать конкретный способ измерения, вы должны задать себе еще два вопроса: что известно об объекте измерения сейчас, и какова стоимость информации, которую предполагается получить? Знать объем затрат, безусловно, следует заранее, ведь выбор метода оценки качества зависит от того, стоят эти сведения 10 тыс. или 10 млн дол. Но определить стоимость информации можно только тогда, когда станет ясно, что мы знаем в настоящий момент и как результаты оценки повлияют на конкретные решения.
В следующих главах мы обсудим несколько примеров, связанных с поиском ответов на вопросы, перечисленные выше. Рассказывая о проблемах этапа, предшествующего измерению, мы покажем, что ответы на эти вопросы, в частности о неопределенности, риске и стоимости информации, сами по себе являются полезными оценками.
Уточним терминологию: что на самом деле означают понятия «неопределенность» и «риск»
Как уже говорилось, прежде чем приступить к измерению, целесообразно определить, о чем, собственно, идет речь и почему это нас интересует. Хороший пример задачи по измерению, с которой может столкнуться любая компания и которая требует существенных предварительных уточнений, — это оценка надежности информационных технологий. Приступая к решению этой задачи, мы должны задать следующие вопросы: «Что мы понимаем под безопасностью?» и «Какие решения зависят от этой оценки?»
Для большинства людей повышение безопасности означает не только рост числа работников, прошедших соответствующее обучение, или число компьютеров, на которых установлено новое защитное программное обеспечение. Когда безопасность повышается, какие-то риски должны снижаться. Раз это так, нам нужно также знать, что подразумевается под словом «риск». Вообще-то, именно поэтому я и начинаю с примера, связанного с надежностью информационных технологий. Уточнение этой задачи требует того, чтобы мы вместе выяснили смысл понятий «неопределенность» и «риск». И то и другое не только поддается измерению, но и служит ключом к пониманию измерения в целом.
Риск и неопределенность нередко считаются неизмеримыми факторами, однако специалисты любой процветающей отрасли постоянно занимаются их оценкой. Чаще всего мне доводилось консультировать страховые компании. Помню, как-то я анализировал один проект по поручению директора по ИТ некой чикагской страховой компании. Он сказал: «Дуг, проблема с информационными технологиями состоит в том, что они рискованны, а способа оценить существующие риски нет». Я ответил: «Но вы же работаете в страховой компании. В вашем здании целый этаж занимают актуарии. Чем же, по-вашему, они занимаются целый день?» Выражение лица моего собеседника было сродни прозрению. До него дошла вся абсурдность ситуации: человек, работающий в компании, ежедневно оценивающей риски наступления страховых событий, считает риск не поддающимся измерению.
Смысл слов «неопределенность» и «риск», а также их отличие друг от друга, похоже, не до конца ясны даже некоторым специалистам. Вот, например, что писал в начале 20-х годов прошлого века экономист Чикагского университета Фрэнк Найт:
Неопределенность следует употреблять как нечто кардинально отличающееся от Риска в его привычном понимании, хотя до сих пор четкую грань между ними никто не провел… Существенным фактом является то, что в одних случаях «риск» означает величину, поддающуюся измерению, а в других — нечто совсем иного характера и что возникают важные и принципиальные отличия в развитии явления в зависимости от того, присутствует в нем неопределенность или риск[17]…
Именно поэтому, давая определение своим терминам, так важно понять, для принятия каких решений мы проводим свои измерения. Найт говорит о непоследовательном и неоднозначном использовании понятий «риск» и «неопределенность» некими не названными им группами людей. Однако это не означает, что и мы обязаны использовать их таким же образом. На самом деле эти понятия довольно регулярно используют в науке принятия решений, причем трактуют их непоследовательно и неоднозначно. Но как бы ни толковали их другие, мы дадим им определения с учетом решений, которые придется принимать нам.
Неопределенность. Отсутствие полной определенности, то есть существование более чем одной возможности. «Истинный» результат (состояние, последствие, стоимость) неизвестен.
Показатель неопределенности. Ряд вероятностей, приписанных ряду возможностей. Например: «Есть 60-процентная вероятность того, что данный рынок за пять лет более чем удвоится, 30-процентная вероятность того, что он вырастет не так заметно, и 10-процентная вероятность того, что за тот же период рынок сократится».
Риск. Такое состояние неопределенности, когда в число возможностей входят убытки, катастрофы или другие нежелательные исходы.
Показатель риска. Набор возможностей с приписанными ими количественными вероятностями и количественно определенным ущербом. Например, «мы полагаем: существует 40-процентная вероятность того, что нефтяная скважина окажется сухой, и в результате мы понесем убытки в размере 12 млн дол. в виде затрат на разведочное бурение».
О том, как определяются эти вероятности, расскажем немного позже, а пока мы, по крайней мере, уточнили, что имеем в виду, то есть выполнили предварительный этап любого измерения. Мы выбрали именно такие определения как наиболее соответствующие той задаче, которую решаем в нашем примере, — задаче оценки информационной защищенности и стоимости безопасности. Но, как мы увидим, эти определения наиболее удобны и при решении любых встающих перед нами проблем, связанных с измерениями.
Будут ли другие и впредь использовать неоднозначные термины и вести бесконечные теоретические споры, мало интересует того, кто должен срочно решить поставленную задачу. Слово «сила», например, использовалось в английском языке задолго до того, как сэр Исаак Ньютон дал этому понятию математическое определение. Сегодня оно иногда используется как синоним терминов «энергия» или «мощность» — но только не физиками и не инженерами. Когда термин «сила» используют авиаконструкторы, они точно знают, что имеют в виду в количественном смысле (и те из нас, кто часто путешествует по воздуху, ценят их стремление быть точными).
Теперь, сформулировав, что такое неопределенность и риск, мы получили лучший инструментарий для определения такого понятия, как «безопасность» (или «защищенность», «надежность» и «качество», но об этом чуть позже). Говоря «безопасность повысилась», мы обычно имеем в виду, что отдельные риски снизились. Если исходить из данного нами определения риска, то его снижение должно означать уменьшение вероятности наступления нежелательных событий и (или) масштабов связанного с ними ущерба. Как я уже сказал ранее, именно этот подход позволил мне оценить целесообразность вложения Управлением по делам ветеранов крупной суммы (100 млн дол.) в ИТ с целью повышения надежности информационных технологий.
Примеры уточнения объекта измерения: чему бизнес может поучиться и у государства
Многие государственные служащие представляют себе бизнес как некий сказочный мир высокой эффективности и мотивации, где страх проиграть в конкурентной борьбе заставляет людей трудиться изо всех сил. Как часто можно услышать от них сожаления, что они не работают в бизнесе! А для представителей деловых кругов органы власти (федеральные, штата или иные) — синоним бюрократической неэффективности и немотивированности сотрудников, считающих дни, оставшиеся до пенсии. Мне доводилось консультировать и государственные учреждения, и частные компании, и я бы не назвал ни ту, ни другую точку зрения полностью правильной или абсолютно неверной. Многие представители этих двух сторон удивились бы, узнав мое мнение: бизнес мог бы поучиться у государства (или, по крайней мере, у некоторых государственных учреждений) очень многому. На самом деле, в крупных компаниях с их сложной внутренней структурой немало сотрудников, очень далеких от экономических реалий бизнеса, а их работа не менее бюрократизирована, чем у служащих любого государственного органа. И я готов прямо сейчас засвидетельствовать где угодно и перед кем угодно, что в федеральном правительстве США, хотя это, конечно, и самая крупная в истории бюрократическая машина, работает немало мотивированных и любящих свое дело людей. Поэтому я приведу здесь несколько весьма поучительных для бизнеса примеров из практики моих клиентов — государственных учреждений.
Расскажу подробнее о работе по оценке надежности информационных технологий, которую я выполнял для Управления по делам ветеранов и о которой говорилось в предыдущей главе. В 2000 г. Совет директоров по информационным технологиям при Федеральном правительстве США (Federal CIO Council) решил провести своего рода испытания, чтобы сравнить различные методы оценки эффективности. Как следует из его названия, Совет директоров по информационным технологиям — это организация, объединяющая руководителей информационных служб федеральных учреждений и их непосредственных подчиненных. У Совета есть свой бюджет, и иногда он финансирует исследования, представляющие интерес для всех директоров по информационным технологиям федеральных органов. Проанализировав несколько подходов, Совет решил, что должен испытать метод прикладной информационной экономики.
Было решено проверить этот метод на большом пакете мер по повышению информационной безопасности, который был предложен Управлению по делам ветеранов. Моя задача состояла в подборе показателей эффективности для каждой системы, связанной с безопасностью, и оценке самого пакета под пристальным наблюдением Совета. Всякий раз, когда я проводил семинар или презентацию своих результатов, на них присутствовало несколько наблюдателей от Совета — сотрудников разных федеральных органов. В конце каждого проекта они готовили свои отчеты, в которых сравнивали мой метод с другим популярным подходом, использовавшимся в то время в других организациях.
Прежде всего, я озадачил специалистов Управления по делам ветеранов вопросом, который задаю, приступая к решению большинства проблем по измерению: «Что именно вы подразумеваете под информационной безопасностью?» Иными словами, в чем должно будет проявиться усиление этой безопасности? Что нового мы увидим или обнаружим, если безопасность улучшится или ухудшится? Более того, что такое, по нашему мнению, «величина» безопасности?
Информационная безопасность, возможно, и не такое уж эфемерное, расплывчатое понятие, но участники проекта вскоре обнаружили, что не вполне уверены в том, какой смысл в него вкладывают.
Было очевидно, например, что уменьшение частоты и масштабов воздействия «пандемических» вирусных атак можно считать усилением безопасности, но что такое в данном случае «пандемические» и что такое «воздействие»? Также было очевидно, что несанкционированный вход хакера в систему — это нарушение информационной безопасности, но является ли таким нарушением кража ноутбука? А пожар в информационном центре, наводнение или торнадо? На первой же нашей встрече участники проекта установили один факт: хотя все они и считали, что безопасность могла бы быть выше, единого понимания того, что это такое, у них не было.
И дело было вовсе не в том, что разные стороны уже выработали свои, отличные от других представления о безопасности. Проблема заключалась в том, что до этого момента никто и не задумывался над смыслом слова «безопасность». Как только члены группы столкнулись с поиском специфических конкретных примеров информационной безопасности, они достигли согласия по поводу однозначной и полной ее модели.
Специалисты из Управления по делам ветеранов решили, что повышение безопасности означает снижение частоты определенных нежелательных событий и уменьшение ущерба от них. Они договорились, что в Управлении к таким событиям относятся вирусные атаки, несанкционированный доступ (логический и физический), а также некоторые другие происшествия (например, утрата центра обработки и передачи данных в результате пожара или урагана). Каждый из этих типов событий влечет за собой определенный тип издержек. В таблице 4.1 перечислены предложенные системы повышения безопасности, события, которые они были призваны предотвратить, и возможные последствия этих событий.
Каждая из предложенных систем уменьшала частоту или тяжесть воздействия конкретных событий. Каждое из этих нежелательных событий привело бы к ряду негативных последствий. Так, вирусная атака обычно снижает эффективность труда, в то время как несанкционированный доступ приводит одновременно к снижению эффективности, убыткам от мошенничества и даже возникновению юридических обязательств в результате неправомерного раскрытия частной информации, например медицинского характера, и т. п.
Выработав эти определения, мы добились более конкретного представления о том, что такое усиленная информационная безопасность, а значит, и о том, как ее можно измерить. На мой вопрос «Что вы замечаете, когда информационная защищенность повышается?» руководство Управления по делам ветеранов могло теперь ответить вполне конкретно. Специалисты поняли: наблюдая за усилением безопасности, они обнаруживают снижение частоты и тяжести последствий перечисленных в таблице 4.1 событий. Они реализовали первый этап измерения.
Конечно, к этому определению можно предъявить какие-то претензии. Вы можете (вполне обоснованно) возразить, что риск пожара не является, строго говоря, риском информационной безопасности. И все же специалисты Управления решили, что в своем учреждении им нужно учитывать и этот фактор. Я думаю, что, если оставить в стороне мелкие разногласия по поводу того, что еще можно включить в данное определение, нам действительно удалось выработать такое базовое определение, которое может использоваться при любой оценке информационной безопасности.
Ранее в Управлении применялся совершенно иной подход к измерению безопасности. Использовались такие показатели, как число сотрудников, закончивших курсы подготовки, и число компьютеров, на которые были установлены определенные программы. Иными словами, результаты вообще не измерялись. Все предыдущие усилия были направлены на количественную оценку того, что было легче измерить. До моей работы с Советом директоров по информационным технологиям при федеральном правительстве некоторые считали конечный результат реализации мер по повышению безопасности не поддающимся измерению, и никто не пытался уменьшить неопределенность хоть ненамного.
Разработав необходимые критерии, мы приступили к измерению вполне конкретных вещей. Мы построили на компьютере модель, учитывающую все эти последствия. В сущности, мы просто задали ряд «вопросов Ферми». В контексте вирусных атак эти вопросы звучали следующим образом:
• Как часто происходит средняя пандемическая (охватывающая все Управление) вирусная атака?
• Сколько человек страдает от такой атаки?
• Как снижается эффективность работы этих людей по сравнению с нормальными условиями?
• Как долго эффективность остается сниженной?
• Какие издержки от неэффективности труда несет при этом компания?
Знай мы ответы на все эти вопросы, удалось бы рассчитать, во что обходится компании вирусная атака, по следующей формуле:
Среднегодовые убытки от вирусных атак = Число атак Среднее число пострадавших сотрудников Среднее снижение эффективности Средняя продолжительность простоев Годовые затраты на оплату труда / 2080 часов в год[18].
Конечно, эта формула учитывает только потери, связанные со снижением производительности труда. Она ничего не говорит о том, как вирусная атака сказывается на заботе о ветеранах, или о другом ущербе. Тем не менее, хотя некоторые виды потерь и не учитываются, формула, по крайней мере, дает нам осторожную оценку нижней границы убытков. В таблице 4.2 приведены ответы на все эти вопросы.
Указанные интервалы значений отражают неопределенность в оценках экспертов по безопасности, сталкивавшихся ранее с вирусными атаками в Управлении по делам ветеранов. Этими интервалами эксперты пытаются сказать: есть 90-процентная вероятность того, что истинные значения окажутся где-то между верхней и нижней границами. Я научил экспертов оценивать неопределенность. Приобретя данный навык, они, по сути, стали «калиброванными», как любой научный инструмент.
Приведенные интервалы значений могут показаться чисто субъективными, но субъективные оценки некоторых людей бывают очень точными. Мы сочли возможным рассматривать эти интервалы как верные, поскольку серия испытаний доказала: когда наши эксперты говорили, что уверены на 90 %, они оказывались правыми в 90 % случаев.
Как вы могли убедиться, можно взять такое неоднозначное понятие, как «безопасность», и разложить его на несколько конкретных, вполне поддающихся наблюдению составляющих. Определив, что такое безопасность, Управление по делам ветеранов сделало большой шаг к ее оценке. На тот момент его специалисты еще не проводили наблюдения, которые позволили бы снизить неопределенность. Все, что они совершили, — это количественно оценили имеющуюся неопределенность с помощью вероятностей и интервалов значений.
Оказывается, способность человека оценить шансы можно калибровать — точно так же, как любой научный инструмент калибруется для получения правильных показаний. Калиброванная оценка вероятности — ключ к измерению степени приблизительности (достоверности) ваших нынешних знаний о чем-либо. Обучение количественному выражению приблизительности своих знаний о неизвестном показателе — важный этап в выборе такого способа его оценки, который отвечал бы вашим потребностям. Воспитанию этого навыка посвящена следующая глава.
Глава 5. Калиброванные оценки: что вам известно уже сейчас?
Хорошо ли вы оцениваете шансы?
Сколько часов в неделю работники тратят на разбор жалоб потребителей? Насколько повысятся объемы продаж после новой рекламной кампании? Даже не имея точных ответов на подобные вопросы, вы все-таки что-то знаете. Например, одни значения интересующего вас показателя кажутся более вероятными, чем другие. Понять, что именно вам известно о чем-то сейчас, очень важно: нередко от этого зависит выбор подхода к измерению или даже сама необходимость этого измерения. Нам очень нужен способ выразить то, сколько мы знаем сейчас, каким бы малым ни было наше знание. Кроме того, обязательно следует понять, насколько хорошо нам удастся выразить неопределенность.
Один из способов показать неточность определения величины — выразить ее в виде интервала возможных значений. В статистике интервал, в котором с некоторой вероятностью может содержаться правильный ответ, называется доверительным интервалом (confidence interval, CI); 90-процентный доверительный интервал — это диапазон значений, содержащий правильное с вероятностью 90 %. Например, не зная точно, сколько потенциальных потребителей действительно станут вашими клиентами в следующем квартале, вы думаете, что, вероятно, договоры подпишут не меньше трех и не больше семи человек. Если существует уверенность на 90 %, что реальное число окажется больше трех, но меньше семи, то можно утверждать, что ваш 90-процентный доверительный интервал составляет три — семь. Граицы такого интервала рассчитывают различными, довольно сложными статистическими интерференционными методами, но вы можете выбрать их, руководствуясь собственным опытом. В любом случае они отражают достоверность ваших знаний об искомом показателе.
Выразить неопределенность наступления конкретных событий в будущем вы можете и с помощью вероятностей. Например, существует вероятность 70 %, что данный потенциальный клиент подпишет договор в следующем месяце, однако правильно ли выбрано это значение? Чтобы понять, насколько хорошо человек умеет количественно оценивать неопределенность, нужно проверить судьбу всех потенциальных клиентов, по поводу которых делался квартальный прогноз, и ответить на вопрос: «Менеджер был на 70 % (80 %, 90 %) уверен, что все эти люди вот-вот подпишут договоры, но сколько их реально сделали это — 70 % (80 %, 90 %)?» Таким образом, чтобы узнать, насколько умело мы субъективно оцениваем вероятности, ожидавшиеся результаты нужно сравнить с фактическими.
Чрезмерная уверенность наблюдается, когда человек постоянно переоценивает точность своих знаний и оказывается правым реже, чем ожидает. Например, когда такого специалиста просят оценить что-то в виде 90-процентного доверительного интервала, в его пределах оказываются гораздо меньше, чем 90 %, правильных ответов.
Недостаточная уверенность проявляется, когда человек постоянно недооценивает точность своих знаний и оказывается правым намного чаще, чем ожидает. Например, когда такого специалиста просят оценить что-то в виде 90-процентного доверительного интервала, в его пределы попадают гораздо больше, чем 90 %, правильных ответов.
К сожалению, очень немногие из нас являются от природы калиброванными оценивателями. Большинство либо чересчур уверены, либо, наоборот, слишком не уверены в правильности своих результатов. Определение вероятности наступления недостоверных событий или интервала возможных значений некоего показателя — не такой навык, который приобретается по мере накопления опыта и развития интуиции.
К счастью, теоретические исследования доказали, что если людей специально учат преодолевать систематические ошибки и необъективность, их оценки становятся существенно точнее[19]. Калиброванные оценки вероятности активно изучались в психологии принятия решений в 1970-х и 1980-х годах. Чуть менее интенсивно изучаются они и сегодня. В отличие от многих преподаваемых в школах бизнеса методов «науки управления» или «количественного анализа», предлагающих оптимальные пути решения конкретных, четко определенных задач, психология принятия решений занимается тем, как люди реально принимают свои решения, какими бы иррациональными они ни были.
Исследователи обнаружили, что букмекеры обычно оценивают вероятность наступления события точнее, чем, например, менеджеры. Кроме того, они сделали ряд неутешительных открытий о том, как плохо врачи диагностируют непонятные явления: «есть шанс, что эта опухоль окажется злокачественной» или «эта боль в груди, вероятно, вызвана сердечным приступом». Наблюдаемые различия между людьми разных профессий позволили исследователям сделать вывод, что оценка вероятности — это навык, которому можно научиться.
Ученые установили, какими способами эксперты могут определить, страдают они чрезмерной уверенностью, недостаточной уверенностью в себе или имеют еще какие-то отклонения. После самоанализа с помощью ряда методов они способны устранить выявляемые недостатки и оценить достигнутый прогресс. Короче говоря, оказалось, что оценка неопределенности — это навык, который можно приобрести и который можно совершенствовать. Таким образом, когда калиброванные менеджеры по продажам говорят, что они на 75 % уверены, что новый конкурент не переманит к себе вашего крупного клиента, значит, действительно есть 75-процентная вероятность того, что вам удастся удержать его.
Давайте проверим с помощью небольшого теста, насколько хорошо вам удается количественно выразить неопределенность. В таблице 5.1 приведены 10 вопросов, на которые нужно ответить с 90-процентной уверенностью, и 10 бинарных вопросов, предполагающих ответы типа «правильно» или «неправильно». Это вопросы из разных областей знания, и если только вы не чемпион по игре «Jeopardy», ответить на них со всей определенностью вряд ли удастся. Но некоторое представление об этих вопросах у вас все же должно быть. Аналогичные упражнения я предлагаю участникам своих семинаров. Разница только в том, что я даю тесты, в которых больше вопросов каждого вида, причем слушатели выполняют их подряд и после каждого я сообщаю о результатах. Обычно продолжительность семинара по калиброванию составляет половину рабочего дня.
Но даже при такой малой выборке удается получить информацию о ваших навыках. И, что важнее, это упражнение подтолкнет вас к осознанию того, что саму приблизительность ваших оценок можно определить количественно.
Упражнение «Калибровка»
Указание: в таблице 5.1 приведено по 10 вопросов двух видов.
Вопросы с 90-процентным доверительным интервалом. Отвечая на каждый вопрос, укажите нижнюю и верхнюю границы интервала. Помните: интервал должен быть таким широким, чтобы вы были на 90 % уверены, что правильный ответ попадает в него.
Бинарные вопросы. Ответьте «правильно» или «неправильно» на каждое из приведенных выше утверждений, а затем обведите кружком число, отражающее степень вашей уверенности в своем ответе. Например, если вы абсолютно уверены в своем выборе, то должны указать, что его вероятность составляет 100 %. Когда вы совсем не знаете темы, вероятность правильного ответа должна быть равна вероятности выпадения орла или решки при подбрасывании монеты (50 %). В противном случае (возможно, в большинстве случаев) эта вероятность должна составлять 50–100 %.
Конечно, легко подглядеть ответы на все эти вопросы, но ведь мы воспользовались данным упражнением, чтобы понять, насколько хорошо вы находите ответы, которые нельзя найти нигде (например, как точно вы оцениваете продажи следующего месяца или возможное повышение производительности труда в результате внедрения новой информационной системы).
Важная подсказка: вопросы различаются по сложности. Одни кажутся легкими, другие — слишком трудными. Но каким бы сложным ни выглядело задание, вы все равно сможете как-то его выполнить. Сосредоточьтесь на том, что знаете. А вы, в частности, знаете, какие границы интервала наверняка неправильны (например, всем точно известно, что Ньютон не был современником древних греков или нашим современником). Аналогично, отвечая на бинарный вопрос, вы представляете себе более правдоподобный вариант.
Покончив с этой работой, не торопитесь искать правильные ответы. Сначала проведите небольшой эксперимент: убедитесь, что указанные вами доверительные интервалы — действительно 90-процентные. Возьмите один из вопросов с таким доверительным интервалом, скажем, когда Ньютон опубликовал свою работу о всемирном законе тяготения? Допустим, я дал вам шанс выиграть 1000 дол. одним из двух следующих способов (см. рис. 5.1):
1) вы получите 1000 дол., если год публикации книги Ньютона окажется в пределах между верхней и нижней границами указанного вами интервала. Если границы выбраны неверно, то не выиграете ничего;
2) вы должны раскрутить круглый диск, разделенный на два неравных сектора, площади которых составляют 90 и 10 % соответственно. Если указатель остановится на большем секторе диска, то вы выиграете 1000 дол., если же на меньшем, то не выиграете ничего (то есть вероятность выигрыша — 90 %).
Какой из вариантов вы выберете? Во втором случае шанс выиграть составляет 90 %. Если вы такой же, как большинство (примерно 80 %) людей, то предпочтете вращать диск. Но почему? Единственным объяснением может служить ваша убежденность в том, что шансов выиграть, раскручивая диск, гораздо больше. Отсюда вывод: доверительный интервал с вероятностью 90 % на самом деле — неправильная оценка, сделанная вами. Эта вероятность, скорее, составляет 80, 65, а то и 50 %. С точки зрения статистики это называется чрезмерной уверенностью. Вы выразили неопределенность таким образом, который указывает на гораздо меньшее ее значение по сравнению с фактическим.
Так же нежелателен выбор варианта 1, в котором вы получите 1000 дол., если указанный год попадет в границы вашего интервала. Данный выбор демонстрирует, что на самом деле вы уверены в своем ответе более чем на 90 % (хотя и указали, что убеждены в нем именно на 90 %).
Правильный ответ в данном случае — сказать, что ни один из вариантов не является предпочтительным. Так вы покажете, что уверены в своем ответе именно на 90 % (а не на больше или меньше). Но для этого тем, кто слишком уверен в себе (то есть большинству из нас), пришлось бы предварительно расширить свой доверительный интервал.
То же проверочное упражнение можно проделать и с бинарными вопросами. Допустим, что вы на 80 % уверены в правильности своего ответа на вопрос о месте рождения Наполеона. Сделайте снова выбор между способами получения приза (1 или 2). Но пусть в этом случае вероятность выигрыша при вращении диска будет составлять только 80 %. Если вы предпочтете раскручивать диск, значит, уверены в своем ответе менее чем на 80 %. Пусть вероятность выигрыша при вращении диска сократится до 70 %. Если вы и в таком случае сделаете этот выбор, то действительно убеждены в своей правоте только на 70 %.
На тренингах по калибровке я называю такую процедуру проверкой с помощью эквивалентных ставок. Как видно из самого названия, она помогает установить, действительно ли вы на 90 % уверены в названном интервале значений, предлагая сделать другую ставку, представляющуюся эквивалентной. Исследования показывают: даже когда люди только воображают, что рискуют деньгами, это значительно улучшает их способность оценивать шансы[20]. На деле же выяснилось, что, реально рискуя деньгами, они оценивают шансы лишь ненамного точнее, чем когда рискуют ими понарошку (подробнее об этом в той части главы 13, где обсуждаются рынки предсказаний).
Методы, подобные проверке с помощью эквивалентных ставок, помогают людям точнее оценивать неопределенности. Тех, кто точно определяет степень своей уверенности (то есть тех, кто оказывается прав в 80 % случаев, когда говорит, что уверен на 80 %), называют калиброванными специалистами. Существуют и другие простые приемы подготовки калиброванных экспертов, но давайте сначала посмотрим, как вы справились с этим тестом. Ответы даны в приложении А.
Чтобы понять, насколько вы калиброваны, необходимо сравнить ожидаемые вами результаты с фактическими. Поскольку вас просили указать 90-процентный CI, вы, в сущности, полагаете, что 9 из 10 правильных ответов окажутся в названных вами интервалах значений. Однако если вы похожи на большинство людей, то процент «прямых попаданий», скорее всего, окажется меньше. Конечно, это очень малые выборки, не позволяющие точно оценить вашу калибровку, но примерное представление они дают. Если даже при такой малой выборке в ваши доверительные интервалы попали менее семи верных ответов, вы, скорее всего, страдаете преувеличенной уверенностью. А когда их оказывается менее пяти (как у большинства людей), вы чрезмерно самонадеянны.
Итак, отвечая на вопросы с 90-процентным доверительным интервалом, вы ожидали, что в предложенные вами границы попадут девять правильных ответов, но фактически их оказалось меньше. Теперь необходимо определить «ожидаемые» значения для бинарных вопросов. Вы указали, что уверены в своих ответах на каждый из них на 50, 60, 70, 80, 90 или 100 %. Переведите все обведенные вами кружочком проценты в десятичные дроби (0,5; 0,6… 1,0) и суммируйте их. Предположим, что вы были уверены в своих ответах на 1,0; 0,5; 0,9; 0,6; 0,7; 0,8; 0,8; 1,0; 0,9 и 0,7, тогда сумма этих показателей составляет 7,9. Таким образом, «ожидаемый» показатель равен 7,9. Конечно, 10 — тоже небольшая выборка, но если ваш фактический показатель составил, например, 2,5, то, скорее всего, вы слишком самонадеянны.
Дальнейшее повышение точности калибровки
Как показывают теоретические исследования, точность калибровки можно повысить путем обучения. Мы уже упоминали о проверке с помощью эквивалентных ставок, позволяющей человеку представить себя лично заинтересованным в точности оценок. Исследования (и мой опыт) также доказывают возможность повысить способность оценивать неопределенности методом повторения и обратной связи. Он состоит в том, что я задаю обучаемым ряд несложных вопросов, подобных тем, на которые вы только что отвечали. Слушатели дают свои варианты, затем я знакомлю их с истинными значениями, и они выполняют тест снова.
Однако не похоже, чтобы присущую большинству людей врожденную излишнюю уверенность можно было исправить каким-то одним способом. Поэтому я объединил несколько методов и обнаружил, что в большинстве случаев все вместе они позволяют добиться практически идеальной калибровки человека.
Кроме того, я обычно прошу своих слушателей привести аргументы «за» и «против» для обоснования сделанных ими оценок. Довод «за» — это причина, почему оценка разумна; довод «против» — основание, почему она может быть чрезмерно самоуверенной. Например, ваша оценка продаж нового продукта коррелирует с данными о продажах аналогичных новинок с такими же расходами на рекламу. Однако когда вы задумываетесь о неопределенности прогнозов неожиданных провалов или ошеломительных успехов других компаний наряду с неопределенностями, связанными с общими темпами роста рынка, часто приходится корректировать исходные доверительные интервалы. Исследования показали, что один только этот метод способен значительно повысить точность калибровки[21].
Наконец, я прошу экспертов, определяющих диапазон значений, отнестись к своей задаче так, как будто им задали отдельные бинарные вопросы о каждой границе диапазона. Доверительный интервал 90 % означает, что есть вероятность 5 % того, что истинное значение окажется выше верхней границы предлагаемого диапазона, и такая же вероятность того, что истинное значение окажется ниже нижней границы данного диапазона. Это означает, что эксперт должен быть на 95 % уверен, что истинное значение оцениваемой величины будет ниже верхней границы интервала. Если этой уверенности нет, ему придется повысить верхнюю границу интервала так, чтобы такая уверенность появилась. Похожую процедуру выполняют и с нижней границей. Похоже, что выполнение этого теста решает проблему зацикливания эксперта на каком-то значении. Зацикленность — сужение интервала значений оцениваемой величины до одного пришедшего вам в голову числа. Специалисты часто признаются: называя интервал значений величины, они обычно думают о каком-то одном числе, к которому просто добавляют или из которого вычитают погрешность оценки, чтобы получить границы этого интервала. Такой подход выглядит разумным, но на самом деле заставляет человека сужать диапазоны значений. Избежать подобного зацикливания можно, задавая себе бинарные вопросы типа: «Уверен ли я на 95 %, что правильное значение окажется выше или ниже данного значения?», касающиеся как верхней, так и нижней границ интервала.
Выполнив ряд калибрующих тестов и попрактиковавшись в использовании таких методов, как составление списка всех «за» и «против», проверка с помощью эквивалентных ставок и антизацикливание на одном числе, слушатели приобретают навык в точной настройке «чувства вероятности». Большинство людей становятся практически идеально калиброванными после тренинга продолжительностью всего половину рабочего дня. И, что еще важнее, несмотря на то, что обучение осуществляется на самых общеизвестных проблемах, полученные навыки позволяют проводить оценки в любой сфере деятельности.
В приложении приведены еще два калибрующих теста с вопросами двух видов — бинарными и на интервал значений оцениваемой величины. Попробуйте использовать перечисленные в таблице 5.2 методы для повышения точности своей калибровки.
Понятийные заблуждения, мешающие калибровке
Описанные только что методы оказываются бесполезными, когда у слушателя безотчетно сложились неправильные представления о калибровке или о вероятностях в целом. Хотя, по моим наблюдениям, большинство людей, по долгу службы принимающих важные решения, уже знакомы с теорией вероятности или вполне могут освоить ее, некоторые по-прежнему находятся в плену поразительных заблуждений. Вот, например, что мне доводилось слышать в ходе проведения занятий по калибровке или когда я по их окончании просил произвести калиброванные оценки:
• моя уверенность на 90 % вовсе не означает, что я прав в 90 % случаев, поскольку субъективная уверенность на 90 % — совсем не то же самое, что объективная;
• это мой 90-процентный доверительный интервал, хотя я понятия не имею, содержит ли он правильный ответ;
• оценить то, что вы просите, вообще невозможно — мы ведь ничего об этом не знаем;
• не зная точного ответа, нельзя подсчитать шансы.
Первое утверждение, сделанное инженером-химиком, свидетельствует о том, что поначалу у него были проблемы с калибровкой. До тех пор, пока человек считает, что субъективная вероятность в чем-то уступает объективной, он не может откалибровать свои оценки. Однако, выполнив ряд калибрующих упражнений, инженер убедился, что его субъективные оценки вероятности оказывались правильными. Другими словами, его 90-процентные доверительные интервалы содержали правильные значения в 90 % случаев.
Остальные возражения нам уже знакомы. Все они так или иначе основываются на идее, что тот, кто не знает точного значения какого-либо показателя, вообще ничего о нем не знает. Дама, заявившая, что «понятия не имеет» о том, содержал ли ее 90-процентный доверительный интервал правильное значение, имела в виду один из вопросов на экзамене по калибровке. Речь шла о размахе крыльев «Боинга-747» в футах. Ее ответ был 100–120 футов. Тогда между нами состоялся примерно следующий разговор.
Я: Уверены ли вы на 90 %, что правильное значение больше 100 и меньше 120 футов?
Участница семинара: Понятия не имею. Это не более чем догадка.
Я: Но интервал 100–120 футов означает, что вы достаточно уверены в своих знаниях. Данный интервал слишком узок для человека, утверждающего, что он не имеет о предмете ни малейшего представления.
Участница семинара: О’кей. Я не очень уверена в предложенном интервале.
Я: Это означает только, что ваш реальный 90-процентный доверительный интервал значений размаха крыльев самолета должен быть шире. Не кажется ли вам, что размах крыльев может составлять, например, 20 футов?
Участница семинара: Нет, думаю, он не может быть таким маленьким.
Я: Хорошо, тогда, наверное, менее 50 футов?
Участница семинара: Маловероятно. Я бы приняла это за нижнюю границу.
Я: Что ж, мы делаем прогресс. А может ли размах крыльев превышать 500 футов?
Участница семинара (после паузы): Нет, не думаю, чтобы он был так велик.
Я: О’кей. А может ли он превышать размер футбольного поля — 300 футов?
Участница семинара (которая, кажется, поняла, куда я клоню): Ну, хорошо, думаю, что моей верхней границей будет 250 футов.
Я: Значит, вы на 90 % уверены, что размах крыльев «Боинга-747» составляет от 50 до 250 футов?
Участница семинара: Да.
Я: Значит, на самом деле ваш 90-процентный доверительный интервал значений размаха крыльев составляет 50–250, а не 100–120 футов.
В ходе нашей беседы эта слушательница скорректировала границы первоначально указанного неправдоподобно узкого интервала значений и определила реальный 90-процентный доверительный интервал, безусловно, улучшив результат. Теперь она уже не могла сказать, что «понятия не имеет», попадает ли в него правильный ответ, так как новый диапазон действительно отражал ее знания.
Этот пример объясняет также, почему я стараюсь не использовать в своем анализе слово «допущение». Допущение предполагает, что в целях доказательства мы считаем некий факт верным независимо от того, так ли это на самом деле. Допущения необходимы, если вы используете детерминистские методы расчета с точными значениями в качестве величин. Точно знать данные значения вы не можете, поэтому каждое такое значение обязано быть допущением. Но если возможно моделировать неопределенность через интервалы значений и вероятности, то пропадает необходимость утверждать что-то, чего вы не знаете наверняка. Когда вы «понятия не имеете», правилен ли этот узкий диапазон, просто расширяйте его до тех пор, пока он не будет отражать ваши знания.
Очень легко потеряться в неизвестном о предмете изучения и забыть, что какие-то факты вы все-таки знаете. А там, где границы нашего объекта — плюс-минус бесконечность, вряд ли вообще потребуется что-либо измерять.
Следующий пример несколько отличается от предыдущего диалога с дамой, предложившей нереально узкий диапазон оценки. Разговор состоялся со специалистом по безопасности Управления по делам ветеранов. Сначала он вообще не дал никакого интервала значений, настаивая на том, что объект оценить невозможно. Все началось с утверждения, что он ничего не знает о величине, но впоследствии оказалось, что некоторые границы ее значений не вызывают у него сомнений.
Я: Если в ваши программы проникает компьютерный вирус, то сколько времени в среднем продолжается сбой в работе? Как всегда, все, что мне нужно, — это 90-процентный доверительный интервал.
Специалист по безопасности: Это определить невозможно. Иногда сбой бывает короткий, а иногда продолжается очень долго. На самом деле мы за этим особенно и не следим, поскольку главная задача — восстановить нормальную работу, а не задокументировать происходящее.
Я: Конечно, точно вы знать не можете. Вот почему мы стремимся определить диапазон, а не точное число. А как долго продолжался самый длительный из случавшихся у вас простоев?
Специалист по безопасности: Не знаю, в разных случаях по-разному.
Я: Было ли когда-нибудь так, чтобы вы не работали целых два рабочих дня подряд?
Специалист по безопасности: Нет, никогда.
Я: А более одного дня?
Специалист по безопасности: Не уверен. Возможно.
Я: Мы хотим определить 90-процентный доверительный интервал для средней продолжительности сбоя. Если вспомнить обо всех сбоях, связанных с вирусами, то могла бы средняя продолжительность перерыва превысить один день?
Специалист по безопасности: Я понял, что вы имеете в виду. Я бы сказал, что среднее значение составляет менее одного рабочего дня.
Я: Так что вашей верхней границей для среднего простоя будет..?
Специалист по безопасности: О’кей. Думаю так: очень маловероятно, чтобы средняя продолжительность сбоя превышала 10 часов.
Я: Давайте теперь подумаем о нижней границе. Какой она может быть?
Специалист по безопасности: Некоторые повреждения устраняются за пару часов, на исправление других уходит намного больше времени.
Я: Отлично, но как вы думаете, могла бы средняя продолжительность сбоев составлять два часа?
Специалист по безопасности: Нет, не думаю, чтобы она была так мала. Думаю, что не менее шести часов.
Я: Хорошо. Итак, ваш 90-процентный доверительный интервал для средней продолжительности сбоев составляет 6–10 часов?
Специалист по безопасности: Я ведь выполнял ваши калибрующие тесты. Дайте мне подумать. Думаю, этот диапазон составляет 4–12 часов.
Такие разговоры совсем не редкость, когда нужно определить величины, характеризуемые высокими неопределенностями. Сначала эксперты вообще отказываются давать интервалы значений — ведь, наверное, все они усвоили в своих компаниях, что отсутствие точного числа равносильно полному незнанию, или это связано с тем, что обычно они несут ответственность за точные данные. Но на самом деле отсутствие точного числа вовсе не означает полной неосведомленности. Специалист по безопасности знал, что средняя продолжительность вирусной атаки и устранения последствий никак не может составлять 24 часа (три полных рабочих дня). Кроме того, было известно, что сбой не может составлять один час. Таким образом, кое-какой информацией эксперт обладал, а приблизительность его знаний можно было выразить количественно. Диапазон 6–10 часов говорит о меньшей неопределенности, чем диапазон 2–20 часов. В любом случае эта степень неопределенности интересует нас сама по себе.
Я называю метод, использованный мной в двух приведенных выше диалогах, проверкой на абсурдность и применяю его всякий раз, как слышу, что «этого мы знать не можем» или «я предлагаю диапазон значений, но это только догадка». Какими бы скудными ни считал эксперт свои знания о каком-либо объекте, всегда оказывается, что он четко представляет значения этой величины, невозможные в исследуемых условиях. То значение, которое эксперт считает уже не абсурдным, а лишь маловероятным, и определяет границу его доверительного интервала. А напоследок я предлагаю слушателям сделать эквивалентную ставку и убедиться, что полученный ими в результате доверительный интервал оценки — действительно 90-процентный.
Эффект калибровки
Я занимаюсь такого рода консалтингом с 1995 г., поэтому имею возможность сделать определенные выводы о том, как мои простые тесты и калибровка помогают людям оценивать неопределенность, возникающую в реальных жизненных обстоятельствах.
До 2001 г. мои методы калибровки и тесты постоянно совершенствовались, но с тех пор остаются практически неизменными. За этот период обучение по моей методике прошли в общей сложности 142 человека. Все они выполняли на семинарах продолжительностью половину рабочего дня по несколько тестов подряд, а я сравнивал их ожидаемые и фактические результаты. Будучи хорошо знаком с данными исследований в этой области, я представлял, что слушатели добьются значительных, пусть и не идеальных, успехов. В чем я был меньше уверен, так это в том, какого прогресса добьются разные люди. В теоретических работах обычно приводятся общие результаты всех участников, так что мы видим лишь средний показатель по труппе. Когда я рассчитываю такой параметр для слушателей своих семинаров, то получаю итог, весьма похожий на информацию других исследователей. Но поскольку у меня были данные и по отдельным участникам, я обнаружил очень интересный феномен.
Рисунок 5.2 демонстрирует обобщенные ответы всех 142 слушателей на вопросы, связанные с доверительными интервалами, во всех предложенных на семинаре тестах. Те, кто быстро учился давать калиброванные оценки, освобождались от выполнения последующих заданий (и это оказалось очень хорошим стимулом). В рамке под графиком приведен процент участников, освобожденных от дальнейшего тестирования после выполнения теста под данным номером. Вертикальные линии показывают результаты выполнения каждого теста 90 % средних участников, а черные ромбы — среднее значение для группы. Цель слушателей, конечно, заключалась в том, чтобы оказаться на жирной горизонтальной линии, показывающей, что 90 % их ответов попадают в указанные 90-процентные доверительные интервалы.
На первый взгляд, график иллюстрирует значительное улучшение результатов выполнения первых трех заданий и последующую стабилизацию на уровне, далеком от идеальной калибровки. Даже принимая во внимание то, что тесты 4 и 5 выполняли только отстающие, участниками семинаров по калибровке заданий на 90-процентные доверительные интервалы складывается впечатление: три-четыре часа интенсивного тренинга еще не позволяют достичь желаемого уровня.
Но взяв данные о каждом слушателе, я обнаружил, что большинство из них добились к концу тренинга большого прогресса, а средние показатели снижаются за счет нескольких отстающих. Статистически мы допускаем, что даже идеально калиброванный эксперт в своих оценках может отклоняться от цели. С учетом одной этой погрешности при тестировании семинар помогает стать идеально калиброванным оценщиком не менее 70 % его участников. Больше они не страдают ни излишней самонадеянностью, ни недостатком уверенности в себе. Если эти люди указывают 90-процентный CI, то вероятность попадания правильного ответа именно в этот интервал значений действительно составляет 90 %. Еще 20 % участников достигают заметного прогресса, но не состояния идеальной калибровки. И только 10 % слушателей, похоже, вообще не повышают свой уровень. Так что же, для одного из десятка этот тренинг проходит бесполезно? Нет, это не так. Все, на кого мы когда-либо полагались в фактических оценках, попали в две первые группы и почти все — в группу идеально калиброванных экспертов. А те, кто на первый взгляд вообще не поддался калибровке, еще до тестирования не считались хорошими специалистами в своих областях или людьми, принимающими решения. Возможно, они не были мотивированы в достаточной мере, зная, что их мнения ни на что не влияют. А, возможно, те, кто не склонен к подобным задачам, не стремятся дорасти до уровня экспертов, услугами которых пользуются для проведения оценок. В любом случае это уже вопрос дальнейших исследований.
Мы видим, что большинству занятия идут на пользу. Но свидетельствуют ли успехи на семинарах о способности оценивать шансы в реальной жизни? На этот вопрос можно ответить только утвердительно. У меня было немало возможностей наблюдать, как ведут себя хорошо калиброванные специалисты в жизненных ситуациях, но особенно мне запомнился один управляемый эксперимент. В 1997 г. меня попросили провести курс занятий по оценке вероятности будущего наступления недостоверных событий для аналитиков Giga International Group, компании, занимавшейся консалтингом в области ИТ (впоследствии поглощенной Forrester Research, Inc.). Giga первой из подобных фирм стала продавать результаты своих исследований другим компаниям — своим постоянным подписчикам. Она приняла некий метод определения вероятности событий, наступление которых прогнозировала для своих клиентов, и хотела удостовериться в его корректности.
Я обучил 16 аналитиков Giga использованию описанных выше приемов. В конце занятий я попросил их высказать свое согласие или несогласие с 20 конкретными прогнозами, касавшимися индустрии информационных технологий, и указать степень уверенности в своих оценках. Это задание они выполняли в январе 1997 г., а во всех прогнозах речь шла о событиях, которые могли произойти до 1 июня того же года (например, участники должны были указать, верно или неверно предположение, что Intel выпустит до 1 июня свой процессор Pentium 300 МГц и т. д.). В качестве контрольного эксперимента я познакомил с этими предсказаниями 16 руководителей информационных служб различных организаций. После 1 июня мы могли уже определить, какие прогнозы сбылись, а какие нет. О полученных результатах я рассказал на крупном симпозиуме Giga World (см. рис. 5.3).
По горизонтали отложены указанные участниками занятий вероятности правильной оценки прогноза, по вертикали — процент сбывшихся прогнозов. Результаты идеально калиброванного эксперта представлены пунктиром. Такой специалист оказывается прав в 70 % случаев, если уверен в своих предсказаниях на 70 %; в 80 % случаев, если уверен в своих предсказаниях на 80 %, и т. д. Вы видите, что результаты аналитиков Giga (обозначенные квадратиками) в пределах допустимой погрешности были очень близки к идеальной уверенности. Сильнее всего эти результаты отклоняются от «идеальной калибровки» в нижней части шкалы, но и здесь это отклонение не превышает допустимой ошибки (в левой части графика интервал допустимой ошибки шире, а в правой он сужается до нуля). Участники оказались правыми в 65 % всех случаев, когда они указали, что уверены на 50 %. Это означает, что они знали больше, чем полагали, и что были недостаточно уверены в себе (только в этой части шкалы). Но это отклонение невелико и вполне могло объясняться случайностью. Имеется вероятность 1 % того, что не менее 44 человек из 68 угадают ответ, просто подбросив монету. В другой части шкалы это отклонение более значительно, по крайней мере статистически, если не визуально. Случайностью могло бы объясняться несколько меньшее отклонение от ожидаемого, поэтому в этой части шкалы слушатели несколько самоувереннее. Но в целом они очень хорошо калиброваны.
Для сравнения, результаты клиентов Giga (обозначенные треугольниками), не прошедших тренинга по калибровке, показали их чрезмерную самонадеянность в прогнозировании. Цифры рядом с результатами калибровки означают, например: тот или иной клиент 58 раз указывал, что уверен в правильности данного прогноза на 90 %. Однако сбылось только 60 % таких предположений. Клиенты (21 %), заявившие, что убеждены в правильности прогноза на 100 %, угадали только в 67 % случаев.
Не менее интересен тот факт, что у аналитиков Giga правильных ответов оказалось не больше (вопросы были составлены по отрасли в целом, а не по узким направлениям специализации аналитиков). Просто они проявили большую (но не чрезмерную) осторожность, указывая процент уверенности в своей оценке прогноза. Однако до участия в занятиях аналитики, отвечая на вопросы общего характера, так же плохо оценивали неопределенность, как и клиенты, оценивавшие достоверность прогнозов реальных событий. Вывод очевиден: разница в точности определяется только занятиями по калибровке способности слушателей оценивать шансы, весьма действенной в реальных жизненных ситуациях.
Хотя у некоторых участников занятий и возникали трудности с калибровкой, большинство воспринимают ее с готовностью и считают способность оценивать шансы важнейшим навыком, необходимым для проведения измерений. Пат Планкетт, менеджер по оценке эффективности информационных технологий Министерства жилищного строительства и городского развития (Department of Housing and Urban Development), пожалуй, лучше всех в американском правительстве разбирается в использовании показателей эффективности. Он знаком со многими специалистами различных учреждений, прошедшими калибровку с 2000 г. Планкетт в 2000 г. еще работал в Управлении служб общего назначения (General Service Administration, GSA), и именно он стоял за экспериментом Совета директоров по информационным технологиям при федеральном правительстве США и рекомендовал Управлению по делам ветеранов внедрить эти методы. Планкетт считает калибровку серьезным шагом вперед в решении проблемы неопределенности. Он сказал: «Калибровка открыла нам глаза. Многие, включая меня самого, обнаружили, что излишне оптимистичны, делая оценки. Калибровка делает вас другим человеком. Вы приобретаете обостренную способность оценивать степень неопределенности».
Возможно, единственный сотрудник правительственного учреждения США, повидавший больше прошедших калибровку людей, чем Планкетт, — это Арт Койнз, старший консультант по политике Агентства по защите окружающей среды, десятки специалистов которого прослушали мои семинары. Как и Планкетт, он был удивлен отношением обучаемых к калибровке: «Люди высидели до конца все занятия и поняли их ценность. Их явное желание научиться делать калиброванные оценки стало для меня большим сюрпризом — я ожидал, что они вообще откажутся отвечать на вопросы о таких неопределенных вещах».
Навык в калибровке очень пригодился и команде Управления по делам ветеранов, оценивавшей проект повышения надежности информационной технологии. Команде нужно было понять, что она уже знает, а что остается неизвестным, и выяснить неопределенность, связанную с надежностью. Первоначальные оценки (все интервалы значений и приписанные им вероятности) отражают приблизительность имеющихся данных о рассматриваемых величинах. Эта неопределенность служит основой для следующих этапов: использования вероятностей в модели принятия решений и расчета стоимости информации.
Теперь, научившись вычислять калиброванные вероятности, вы знаете, как количественно рассчитать текущую неопределенность. Умение правильно оценивать калиброванные вероятности крайне важно на следующих этапах измерения. Из глав 6 и 7 вы узнаете, как использовать калиброванные оценки вероятности для определения риска и стоимости информации.
Глава 6. Оценка риска: введение в моделирование методом Монте-Карло
Лучше быть приблизительно правым, чем точно неправым.
Уоррен Баффетт
Мы установили различие между неопределенностью и риском. Первоначально оценка неопределенности величины сводится к присвоению нами неизвестным переменным калиброванных интервалов значений или вероятностей. При последовательных измерениях чего бы то ни было одновременно оценивается и неопределенность, при этом каждое следующее измерение все больше снижает ее.
Риск — это просто состояние неопределенности, которое влечет за собой возможный ущерб любого рода. Как правило, подразумевается, что этот ущерб довольно значителен. Владение методами калибровки позволяет точно рассчитывать первоначальную неопределенность с помощью диапазонов и вероятностей. То же можно сказать и о применении этих методов для оценки риска.
Приемы, которыми многие организации «измеряют» риск, нельзя назвать достаточно информативными. Методы оценки риска, о которых я собираюсь рассказать, хорошо знакомы актуариям, статистикам и финансовым аналитикам. Но некоторые наиболее популярные способы даже отдаленно не напоминают страховую статистику. Многие организации просто характеризуют риск как «высокий», «средний» и «низкий» или же оценивают его по пятибалльной шкале. Обнаруживая, что дело обстоит именно так, я иногда спрашиваю, насколько «средним» является данный риск. Вероятность 5 % понести убытки, превышающие 5 млн дол., — это какой риск: низкий, средний или высокий? Никто не знает. Что лучше — среднерисковые инвестиции с доходностью 15 % или высокорисковый вклад с доходностью 50 %? Опять никто не знает.
Чтобы доказать, почему подобные классификации не так полезны, как могли быть, я предлагаю участникам своих семинаров в следующий раз при оплате чеком (или через Интернет) страхового взноса за новую автомашину или дом написать в графе «сумма» вместо числа в долларах слово «средняя» и посмотреть, что из этого выйдет. Тем самым они сообщат своим страховщикам, что желают снизить риск до среднего значения. Скажет ли это страховщику что-нибудь конкретное и разумное? Думаю, что ничего, как и любому другому человеку.
Количественное выражение неопределенности с помощью интервалов, а не точных значений, определить которые невозможно, очевидно, имеет свои преимущества. При использовании интервалов значений и вероятностей не нужно делать допущения, в которых вы не уверены. Но точные значения имеют то преимущество, что их легко суммировать, вычитать, умножать и делить в электронной таблице. А можно ли выполнить подобные действия в электронной таблице, если вместо точных чисел есть только диапазоны? К счастью, это можно достаточно просто осуществить методом Монте-Карло, используя разнообразные компьютерные модели, разработанные специально для таких целей.
Наш учитель измерения Энрико Ферми одним из первых применил на практике то, что впоследствии было названо моделированием по методу Монте-Карло. Метод позволяет генерировать на компьютере большое число сценариев на основе вероятностных исходных данных. Для каждого сценария наугад выбираются конкретные значения каждой неизвестной переменной. Затем их подставляют в формулу для расчета исхода данного сценария. Обычно такие расчеты выполняют для тысяч сценариев.
Ферми использовал метод Монте-Карло для того, чтобы рассчитать поведение большого числа нейтронов. В 1930 г., начиная работу над данной проблемой, он осознавал, что ее нельзя решить обычными методами интегрального исчисления. Однако можно было присвоить некие вероятности определенным результатам при заданных условиях. Ученый понял, что можно взять наугад несколько таких ситуаций и выяснить, как будет себя вести большое число нейтронов в системе. В 1940-х и 1950-х годах несколько математиков продолжили работу над аналогичными проблемами ядерной физики и начали использовать компьютеры для составления случайных сценариев. Наибольшую известность получили труды Станислава Улама, Джона фон Нейманна и Николаса Метрополиса. Сначала они работали над созданием атомной бомбы (Манхэттенский проект), а позднее — водородной бомбы в Лос-Аламосе. По предложению Метрополиса Улам назвал свой метод компьютерного генерирования случайных сценариев методом Монте-Карло в честь своего дяди — азартного игрока[22].
То, что начал Ферми и в последствии продолжили Улам, фон Нейманн и Метрополис, сегодня широко используется в бизнесе, государственном управлении и научных исследованиях. Этот метод применяется, в частности, для определения доходности инвестиций в случае, когда точные затраты и выгоды не известны. Как-то руководитель информационной службы одной чикагской инвестиционной компании советовалась со мной по поводу того, как определять ценность информационной технологии. Она сказала: «Мы очень неплохо научились оценивать риски, но даже не представляем себе, как можно рассчитать выгоды».