Как измерить все, что угодно. Оценка стоимости нематериального в бизнесе Хаббард Дуглас
Упомянутые в главе 8 отклонения — лишь отдельные разновидности ошибок измерения. Отклонения связаны с погрешностями наблюдения, возникающими при проведении случайной выборки или управляемого эксперимента. Но когда измерение пытаются осуществить с привлечением экспертов-оценщиков, то возникает другая проблема — проблема когнитивного искажения. Мы уже видели пример такого искажения, когда говорили о присущей экспертам излишней самоуверенности, но есть и другие — некоторые из них перечислены ниже.
• Зацикленность. Это когнитивное искажение, уже обсуждавшееся в главе 5 по калибровке, но заслуживающее более детального рассмотрения. Оказывается, что если просто думать о какой-то цифре, пусть и не имеющей отношения к вопросу, то это может повлиять на ваш ответ. В одном эксперименте Амос Тверски и лауреат Нобелевской премии по экономике 2002 г. Дэниел Канеман спросили у испытуемых, какой процент стран — членов ООН составляют африканские государства. Одну группу респондентов спросили, превышает ли этот показатель 10 %, а вторую — 65 %. И тем и другим сообщили, что число, предложенное в вопросе, было выбрано наугад (хотя на самом деле это было не так). Затем каждую группу попросили дать свой ответ. Представители первой (10 %) в среднем дали ответ 25 %, а члены второй группы (65 %) — 45 %. Несмотря на уверенность респондентов в случайности предложенных им значений, эти числа все же повлияли на ответы. В своем более позднем эксперименте Канеман показал, что число, на котором зацикливаются участники, может не иметь к делу вообще никакого отношения. Он попросил каждого испытуемого написать на бумаге четыре последние цифры номера своего полиса социального страхования, а затем оценить количество врачей в Нью-Йорке. Как ни странно, Канеман обнаружил корреляцию в 0,4 между оценкой числа врачей и цифрами полиса социального страхования. Эта корреляция была умеренной, но намного превышала объясняемую чистой случайностью.
• Эффекты ореола. Если люди сначала замечают некий факт, который настраивает их за или против какого-то варианта решения, то, получив в дальнейшем новую информацию, каким бы ни было ее содержание, они обычно воспринимают ее как аргумент в пользу сделанного ими первого заключения. Например, если при первом контакте у вас сразу же сложилось положительное мнение о человеке, то вы, скорее всего, истолкуете в позитивном свете и любые новые сведения, которые получите о нем позже (эффект ореола святости). А в случае отрицательного впечатления истолкуете эти сведения негативно (эффект дурной славы). Подобные эффекты возникают даже тогда, когда первоначальное ощущение, казалось бы, не должно влиять на оценки, сделанные впоследствии. В эксперименте, проведенном Робертом Капланом из Университета штата Сан-Диего, привлекательная внешность авторов статей заставляла рецензентов давать об их работах лучшие отзывы[41]. Испытуемых просили оценить статьи, написанные студентами, причем к каждому экземпляру прилагалась фотография автора. Присвоенные работам оценки сильно коррелировали с баллами внешней привлекательности, определенными особой группой экспертов. Интересно, что всем испытуемым предложили на рецензию статью, написанную одним и тем же человеком, но с приложением разных фотографий.
• Стадный эффект, или эффект группового давления. Оказывается, что если вы хотите выяснить мнение экспертов, то лучше опрашивать их по отдельности, а не всех вместе, поскольку в последнем случае возникает дополнительная погрешность. В 1951 г. психолог Соломон Эш предложил группе испытуемых (студентов) проверить их зрение (см. рис. 12.1). Когда он спрашивал каждого в отдельности, длина какой линии ближе всего к контрольному отрезку, то правильный выбор (отрезок С) сделали 99 % испытуемых. Одновременно Эш провел опыт: в комнате находились несколько человек, и каждого из них по очереди просили сделать этот выбор. Однако испытуемые не знали, что несколько первых опрашиваемых сами были участниками эксперимента и их проинструктировали выбрать линию А вместо С. После первого, заведомо неверного, ответа наступала очередь реального испытуемого. Если он слышал перед этим один ложный ответ, то только в 97 % случаев делал правильный выбор. Когда перед испытуемым ложный ответ давали двое или трое, действительные участники делали правильный выбор в 87 и 67 % случаев соответственно. Если же к неверным первым ответам добавлялось некое групповое поощрение (усиливая тем самым давление к проявлению конформизма) на случай, что все участники ответят правильно, только 53 % реальных респондентов выбирали нужную линию С.
• Изменение предпочтений. Как только люди начинают склоняться к одному варианту, они фактически меняют свои предпочтения по поводу дополнительной информации. Они настраиваются на те сведения, которые поддерживают их первоначальное решение. Это похоже на эффекты ореола святости и дурной славы, но в данном случае связано со сменой предпочтений в процессе принятия решения. Например, если менеджеры решили предпочесть проект А проекту В, а вы скажете им после того, как этот выбор сделан, что первый проект менее рискован, но на его реализацию уйдет больше времени, чем на второй, то вам ответят, что снизить риск для них всегда было важнее, чем сократить сроки реализации. А если вы доложите, что проект А более рискован, но на его реализацию уйдет меньше времени, то получите реплику: всегда считалось, что сократить сроки реализации важнее, чем снизить риск.
К счастью, подобные иррациональные эффекты человеческой способности к оценке всегда можно как-то нейтрализовать. Ряд решений этой проблемы предложил ведущий специалист по когнитивному искажению Джей Эдвард Руссо из Корнелльского университета. Например, для устранения эффекта изменения предпочтений Руссо предложил простую форму слепого перебора: прежде, чем приступить к оценке предлагаемых вариантов, эксперты должны были сформулировать и ранжировать свои предпочтения. Тогда никто уже не смог бы сказать позже, что всегда считал какой-то критерий важнейшим только для того, чтобы не менять свое первое решение.
Как и в случаях уже обсуждавшихся ранее ошибок эксперимента и смещений выборок, первое, что необходимо сделать, — признать само существование проблемы. Только подумайте о том, как перечисленные выше эффекты могут сказаться на экспертных оценках затрат на реализацию проекта, объемов будущих продаж, возможного роста производительности труда и т. п. Специалисты обычно не ощущают, что на их мнение повлияла не имеющая к делу информация, — ведь люди вообще редко осознают, что повинны в искажении. Всем нам хотелось бы думать, что мы не так интеллектуально лабильны, как объекты этих исследований, но лично я обнаружил, что наиболее внушаемы как раз те, кто уверен в непоколебимости своих суждений.
Значение систематизации: пример оценки эффективности деятельности
Казалось бы, декан факультета информатики и принятия решений Университета штата Иллинойс (Чикаго) должен предпочитать сложные количественные методы для оценки буквально любого объекта. И все же когда доктору Аркалгуду Рамапрасаду потребовалось измерить эффективность деятельности преподавателей факультета, он придумал довольно простой подход. «Раньше аттестационные комиссии копались в кучах бумаг, — говорит доктор Рам (он предпочитает, чтобы его называли так). — Члены комиссии усаживались за столом, заваленным личными делами преподавателей, и обсуждали их работу». Публикации, полученные гранты, сделанные каждым сотрудником предложения, присвоение профессиональных званий и степеней обсуждались в произвольном порядке и оценивались по пятибалльной шкале. Подобный бессистемный подход использовался для принятия таких важных решений, как повышение заработной платы профессорско-преподавательскому составу.
Доктор Рам понимал, что главным недостатком этой процедуры является неупорядоченность представляемой информации и что любое усовершенствование данного процесса, даже простая систематизация данных, может дать большой положительный эффект. Чтобы исправить положение, он проанализировал подаваемые на аттестацию сведения о работе преподавателей и представил их в виде большой матрицы. Каждая ее строка содержала данные об одном преподавателе, а каждый столбец показывал отдельную категорию профессиональных достижений (публикации, награды и т. д.).
Ученый даже не пытался далее формализовать анализ этих данных, он по-прежнему пользовался пятибалльной шкалой. Оценки эффективности в баллах основаны на консенсусе мнений членов аттестационной комиссии, а новый метод просто гарантирует, что они изучают одни и те же сведения. Мне этот метод показался слишком простым, и когда я предложил рассчитывать на основе этих данных какие-нибудь показатели, Рам ответил: «Когда информация представлена в таком явном виде, люди сразу обращают внимание на разницу между собой и своими коллегами, а это совсем не одно и то же, что попытка разобраться в неких условных показателях. Комиссия спорит о присваиваемых баллах, но не о предложенных к рассмотрению данных». Когда ранее ее членам приходилось анализировать разнородную информацию, в их оценки вкрадывалось больше ошибок.
Это еще один полезный пример конструктивного разностороннего подхода к измерению. Наверное, нашлись бы возражения против самой идеи оценивать результаты деятельности преподавателей на основании того, что новый метод принесет с собой новые ошибки и не решит проблему исключений. Не менее вероятно и то, что на самом деле критиков данного подхода беспокоит вероятность оказаться на последнем месте в случае использования подобного подхода. Но доктор Рам знает, что при всех своих недостатках новый метод измерения все же лучше того, что делалось до сих пор. Ведь неопределенность снижается, а значит, то, что он делает, — это измерение. Сегодня доктор Рам в соответствии с таксономией Стивенса (см. главу 3) может, по крайней мере, с определенной уверенностью сказать, что преподаватель А работает лучше преподавателя В. А если учесть, что эти оценки используются для принятия решений о продвижении по службе или повышении зарплаты, то большего и не требуется.
Моя единственная претензия к этому подходу — возможность (и это было бы нетрудно) использовать более аналитический метод расчета и тем самым усовершенствовать процедуру оценки. Доктор Рам не решил ни одну из обсуждавшихся нами проблем когнитивного искажения; он только устранил потенциальный информационный «шум» и погрешность, связанную с анализом разнородной информации о преподавателях. Вот почему я считаю, что систематизация данных — всего лишь необходимое условие применения других способов решения этих проблем.
На удивление простые линейные модели
Существует еще один метод, не самый теоретически обоснованный и даже не самый эффективный, но простой. Когда приходится формулировать суждения по аналогичным вопросам, рассчитывают взвешенные значения. Если сравнивают «деловые возможности», например варианты инвестиций в недвижимость, то можно определить несколько наиболее важных для вас факторов, оценить эти факторы для каждого варианта в баллах и объединить полученные результаты в некую агрегированную величину. Для инвестиций в недвижимость такими критериями могут быть желательное местоположение, затраты, возможный рост спроса на этот вид недвижимости, наличие залогов и т. д. Затем следует «взвесить» каждый фактор путем умножения его баллов на определенный весовой коэффициент и суммировать все результаты, чтобы получить общее значение.
Одно время я категорически отрицал ценность метода взвешенных коэффициентов, уподобляя его астрологии. Однако последующие исследования убедили меня, что он все-таки имеет определенные преимущества. К сожалению, методы, обладающие, на первый взгляд, некими преимуществами, не относятся к тем, которые обычно выбирают компании.
По мнению исследователя в области науки о принятии решений и автора ряда работ Джея Эдварда Руссо, эффективность метода взвешенных коэффициентов «зависит от того, что вы делаете. Людям обычно нужно зайти слишком далеко в своих усилиях, чтобы понять: и простые методы дают хорошие результаты». На самом деле, даже расчет простейших взвешенных коэффициентов, похоже, облегчает процесс принятия решений. В 1979 г. Робин Доуз из Мичиганского университета опубликовал статью под названием «Robust Beauty of Improper Linear Models» («Строгая красота неправильных линейных моделей»)[42], в которой писал: «Весовые параметры в этих моделях нередко не имеют значения. Главное — знать, что измерить, а затем сложить».
Здесь необходимо сделать два уточнения. Во-первых, опыт доктора Рама в области оценки эффективности преподавателей вполне согласуется с тем, что говорят Руссо и Доуз. Ранее использовавшиеся в университете методы давали такую погрешность, что одна только систематизация исходных данных уже способствовала улучшению измерений. Кроме того, когда Доуз говорит о коэффициенте, он на самом деле говорит о нормированном z-показателе, а не о балле какой-то условной шкалы. Он берет значения одного параметра для всех оцениваемых вариантов и строит их нормированное распределение так, что его среднее значение равно нулю, а каждая величина преобразовывается в ряд средних квадратичных отклонений от среднего в ту или иную сторону (например, — 1,7, +0,5 и т. д.). Доуз может, например, взять из матрицы доктора Рама число публикаций преподавателя и проделать с этими данными следующие процедуры:
1. Всем значениям столбцов в матрице оцениваемых альтернатив присвоить баллы по какой-либо порядковой или количественной (метрической) шкале. Заметьте, что предпочтительнее использовать количественные шкалы с вещественными единицами измерения (например, доллары, месяцы).
2. Рассчитать среднее значение для всех величин каждого столбца.
3. Использовать формулу Excel =stdevp(.) расчета среднего квадратичного отклонения для генеральной совокупности каждого столбца.
4. Рассчитать z-показатель, соответствующий каждому значению в столбце, по формуле:
5. В результате получаем средний балл, равный 0, нижнюю границу в пределах —2 или —3, а верхнюю границу — +2 или +3.
Причиной работоспособности данного подхода является то, что он следит за правильностью выбора весовых коэффициентов. Если не пересчитывать присваемый балл в z-показатель, то вы можете использовать для одного фактора более высокое значение, чем для другого, а это окажет такой же эффект, как если бы вы изменили их относительные веса. Предположим, например, что вы оцениваете проекты инвестирования в недвижимость и оцениваете каждый фактор по десятибалльной условной шкале. Однако один из оцениваемых факторов (желаемое местонахождение) довольно сильно варьирует и вы склонны присвоить ему 7 или 8 баллов, в то время как критерию возможного роста спроса на недвижимость дали 4 или 5 баллов. В результате, даже если вы считаете, что рост спроса важнее, желательное местонахождение перевесит. Предложенное Доузом преобразование баллов в z-показателе решает проблему неизбежного искажения при взвешивании.
Хотя этот простой метод и не решает напрямую ни одну из перечисленных нами проблем когнитивного искажения, исследования Доуза и Руссо показали, что принимать решения с его помощью становится легче, пусть и ненамного. Похоже, что данный подход обеспечивает, по крайней мере, некоторое снижение неопределенности и улучшение качества принимаемых решений. Однако для принятия серьезных и рискованных решений, когда стоимость информации очень высока, мы можем и должны использовать гораздо более сложные приемы, чем банальная систематизация данных и расчет взвешенных коэффициентов.
Как стандартизировать любую оценку: модели Раша
Выбирая из огромного разнообразия имеющихся статистических методов те, о которых следовало бы рассказать в этой книге, я старался не ограничиваться уже ранее знакомыми мне. В частности, для меня новинкой стали приемы дидактического тестирования (educational testing), практически неизвестные специалистам по измерению, работающим в других областях. Именно таким приемам посвящена книга с многозначительным названием «Objective Measurement» («Объективное измерение»). Подобная публикация могла быть всесторонним исследованием проблем измерения, одинаково интересным для астронома, инженера-химика и программиста, но в ней говорится лишь об оценке способностей человека и дидактическом тестировании. Это все равно, как если бы вы увидели старую карту с названием «Карта мира», на которой на самом деле изображен богом забытый островок в Тихом океане и которая была составлена людьми, не знавшими, что населяют лишь крошечную часть огромной планеты. Один специалист по дидактическому тестированию как-то рассказал мне об «инвариантном сравнении» — характерной черте измерения, которая, по его словам, «настолько фундаментальна, что ее можно считать на 10 % основой статистики». Другой эксперт в этой же области уверял, что это суть физики. Из всех физиков и статистиков, которых я позднее спрашивал об «инвариантном сравнении», что-то слышал о нем только один. По всей видимости, то, что специалисты по дидактическому тестированию считают общей для всех фундаментальной основой, на самом деле имеет значение только для них. Справедливости ради отмечу, что, наверное, кто-то скажет то же самое и о книге, претендующей научить читателя измерять все, что угодно.
Но вообще говоря, у специалистов по дидактическому тестированию есть чему поучиться. Ведь им приходится решать все проблемы по оценке возможностей человека — большую группу задач измерения того, что многие компании считают неизмеряемым. Концепция инвариантного сравнения имеет отношение к ключевой проблеме проведения многих тестов на определение способностей человека, например теста на IQ. Принцип инвариантного сравнения гласит, что если один инструмент измерения говорит, что А больше, чем В, то и другой инструмент должен продемонстрировать то же самое. Иными словами, результаты сравнения А и В должны быть одинаковыми, какие бы инструменты измерения ни использовались. Для физика это очевидно настолько, что даже не заслуживает упоминания. Казалось бы, если на одних весах А весит больше, чем В, то и другие весы должны показывать то же самое, даже если первые весы пружинные, а вторые — цифровые. Аналогичные результаты должны наблюдаться с IQ-тестами или любыми другими тестами, оценивающими человеческую эффективность. Однако при проведении таких испытаний может произойти нечто совсем иное: результаты теста на IQ с одним набором вопросов могут сильно отличаться в выводах от результатов аналогичного теста с другим набором вопросов. Поэтому один тест может показать, что Боб умнее Шерри, а второй — что Шерри умнее Боба.
Другое проявление той же проблемы наблюдается, когда разным экспертам приходится оценивать способности больших коллективов. Если аттестуемых слишком много, то и их делят на группы, и каждый человек имеет дело с разным составом судей. Возможно, один эксперт оценивает одно качество одного аттестуемого, а другой обращает внимание совсем на другое или же разным людям даются задачи разной степени сложности. Предположим, например, что вы хотите оценить квалификацию менеджеров проекта по тому, как они справятся с порученными им программами. Если таких менеджеров несколько, то вам потребуется не один судья. Экспертами могут стать непосредственные начальники аттестуемых менеджеров как люди, наиболее знакомые с их работой. Отметим, что проекты могут различаться по сложности. Предположим далее, что все менеджеры, независимо от того, какие проекты им поручены и кому они подчиняются, должны конкурировать за один фонд бонусов или за одни и те же карьерные места. Те, кого будет оценивать строгий судья или кому поручены более сложные проекты, окажутся в невыгодном положении по сравнению с другими. Сравнение разных менеджеров не будет инвариантным (то есть независимым от того, кто его проводит и по каким критериям). На самом деле, доминирующими решающими факторами, определяющими рейтинг проект-менеджеров, могут оказаться условия, не контролируемые ими.
Решение этой проблемы в 1961 г. предложил датский статистик Георг Раш[43]. Он разработал метод предсказания вероятности того, что испытуемый правильно ответит на вопрос бинарного типа «верно/неверно» на основе 1) процента в генеральной совокупности других респондентов, ответивших на этот вопрос правильно, и 2) процента других вопросов, на которые данный испытуемый уже ответил правильно. Выполнение тестов человеком, не знакомым с предлагаемым набором вопросов, можно предсказать с погрешностью, поддающейся вычислению, даже если давать испытуемым разные тесты.
Во-первых, Раш рассчитал вероятность того, что случайно выбранный из группы человек ответит на вопрос правильно. Она просто равна доле тех, кто дал верный ответ, в общем числе ответивших на данный вопрос. Этот показатель называется у Раша уровнем трудности задания (item difficulty). Затем Раш рассчитал логарифм отношения вероятностей — натуральный логарифм отношения вероятностей правильного и неправильного ответов. Если трудность задания была 65 %, то это означает, что 35 % респондентов ответили правильно, а 65 % — неправильно. Отношение вероятности ответить правильно к вероятности ответить неправильно — 0,548, а натуральный логарифм 0,548 составляет —0,619. При желании можно записать следующую формулу в программе Excel:
=ln (A1/(1 — A1)),
где А1 — вероятность ответить правильно.
Затем Раш проделал ту же процедуру с вероятностью, что этот человек ответит правильно на любой вопрос. Поскольку данный респондент давал правильные ответы в 82 % случаев, соответствующий логарифм составил ln(0,82/0,18), или 1,52. Наконец, Раш сложил значения двух логарифмов и получил: (-0,619) + 1,52 = 0,9. Чтобы снова преобразовать это в вероятность, можно записать следующую формулу в Excel:
= 1/(1/exp(0,9) + 1).
В результате получится 71 %. Это означает, что есть 71-процентная вероятность того, что данное лицо ответит на этот вопрос верно, учитывая трудность задания и правильность его ответов на другие вопросы. При большом числе вопросов и (или) большом числе испытуемых мы обнаружим следующее: когда вероятность получить правильный ответ (уровень трудности задания) 70 %, около 70 % людей ответят на этот вопрос верно; когда вероятность получить правильный ответ (уровень трудности задания) 80 %, около 80 % людей ответят на данный вопрос верно, и т. д. Таким образом, модели Раша — просто еще один способ калибровки вероятностей.
Мэри Лунц из чикагской компании Measurement Research Associates Inc. применила модели Раша к решению важной задачи в области общественного здравоохранения, порученной ей Американским обществом клинической патологии (American Society of Clinical Pathology). Использовавшийся этим обществом ранее порядок сертификации патологов давал большую погрешность, которую необходимо было уменьшить. Каждый кандидат должен был разобраться в одном или двух случаях, и каждый его ответ оценивался одним или несколькими экспертами. Практически невозможно одному эксперту оценить все задания, как невозможно гарантировать, что все они будут одинаковой сложности. Раньше получение кандидатом сертификата почти целиком зависело от того, какой экзаменатор ему попадется и какой случай придется разбирать на экзамене. Иными словами, снисходительные экзаменаторы могли пропустить некомпетентных кандидатов. Лунц рассчитала стандартные очки Раша для каждого эксперта, экзаменационного задания, а также кандидата для всех уровней квалификации.
В результате появилась возможность предсказать, пройдет ли кандидат экзамен у среднего экзаменатора при случае средней сложности, или у снисходительного эксперта при легком случае, или, наоборот, у строгого экзаменатора при очень сложном случае. И теперь (наверняка не слишком скоро для самих кандидатов) наконец появилась возможность полностью устранить при сертификации отклонения, связанные с характером экзаменатора или сложностью задания.
Интересное направление применения статистики Раша — оценка сложности прочтения того или иного текста. Доктор Джек Стеннер, президент и основатель компании MetaMetrics, Inc., использовал модели Раша для разработки схемы «Lexile» — способа оценки умения читать и писать, а также анализа сложности текста для восприятия. Система «Lexile» позволяет оценивать навыки чтения, письма, выполненные тесты, тексты и способности студентов, впервые сделав возможным сравнение наиболее распространенных языков. Располагая персоналом всего в 56 человек, компания MetaMetrics добилась в этой сфере гораздо больше, чем любая другая государственная или частная организация. Так:
• баллы «Lexile» используются во всех основных тестах на умение читать. Свои показатели «Lexile» знают около 20 млн американских учащихся;
• система «Lexile» использована для классификации по сложности восприятия около 100 тыс. книг и десятков миллионов журнальных статей;
• программы обучения чтению по учебникам некоторых авторов основаны на системе «Lexile»;
• на систему «Lexile» переходят все новые учебные заведения штатов и местные учебные заведения.
Показатель 100 баллов по системе «Lexile» означает текст первого уровня сложности, а 1700 — это уровень сложности текста решений Верховного суда, научных журналов и т. п. Компания MetaMetrics считает, что читатель, набравший 600 баллов, сумеет на 75 % понять содержание текста, уровень сложности которого составляет также 600 баллов.
Устранение непоследовательности людских суждений: модель линзы
В 1950-х годах психолог по имени Эгон Брунсвик захотел статистически измерить принимаемые экспертами решения[44]. Большинство его коллег интересовались тем скрытым процессом принятия решений, через который обычно проходят такие эксперты. А Брунсвику хотелось описать те решения, которые они принимали в реальности. О себе и других специалистах по психологии принятия решений он говорил: «Мы должны быть не столько геологами, сколько картографами». Иными словами, свою задачу он видел в простом описании того, что можно наблюдать, а не в анализе внутренних процессов. В связи с этим Брунсвик начал свои эксперименты, в которых экспертам предлагалось принять какое-то решение (скажем, о приеме выпускника в аспирантуру или о статусе опухоли) на основании определенной предоставленной информации. Затем Брунсвик подобрал наиболее подходящую регрессионную модель для большого числа собранных экспертных оценок (сейчас это можно легко проделать с помощью инструмента «Regression» в программе Excel, как показано в главе 9). В результате он вывел нечто вроде формулы с набором неявных весов, осознанно или неосознанно использованных экспертами при вынесении оценок.
Удивительно, что он также обнаружил, что эта «формула», хотя в ней использовались вовсе не объективные данные прошлых периодов, а экспертные суждения, позволяет получить более точные оценки, чем сделанные специалистами. Например, эта формула, получившая известность под названием «модель линзы», лучше эксперта определяет, кто будет хорошо учиться в аспирантуре или какая опухоль является злокачественной.
Модель линзы применяется в самых разных целях, например для составления медицинских прогнозов, идентификации самолетов операторами корабельных радаров и расчета вероятности краха компании по ее финансовым показателям. В каждом случае результаты, полученные с помощью модели, ничем не хуже, а в большинстве случаев и значительно лучше, чем оценки экспертов.
Это происходит потому, что модель линзы устраняет непоследовательность в суждениях. Обычно экспертные оценки различаются даже в одинаковых ситуациях. Однако линейная модель экспертной оценки позволяет получать не противоречащие друг другу величины.
Более того, поскольку модель линзы — математическое выражение, элементами которого являются известные исходные данные, можно компьютеризировать и обрабатывать такие объемы информации, которые люди не смогли бы проанализировать по очереди.
Сама семиэтапная процедура расчетов довольно проста. Я слегка изменил ее, чтобы учесть и другие методы (например, калибровку вероятностей), ставшие известными после того, как Брунсвик разработал свой способ (см. рис. 12.3).
1. Выберите экспертов, которые будут участвовать в процессе.
2. Если им придется оценивать вероятность или интервал значений, то калибруйте их.
3. Попросите экспертов составить список (не более чем из 10 пунктов) факторов, требующих учета при вынесении оценки (например, «продолжительность реализации проекта разработки программного обеспечения повышает риск неудачи» или «уровень доходов лица, обращающегося за ссудой, влияет на вероятность погашения им взятого кредита»).
4. Разработайте ряд сценариев с разными сочетаниями значений каждого из выявленных факторов воздействия. За основу можно взять и реальные, и чисто гипотетические примеры. Составьте по 30–50 сценариев для каждого эксперта.
5. Попросите экспертов дать оценку каждого сценария.
6. Проведите регрессионный анализ, следуя указаниям, изложенным в главе 9. Независимые переменные «Х» — предоставленные экспертам исходные данные. Зависимая переменная «Y» — оценка, которую должен был дать эксперт.
7. Программа Excel создаст таблицу результатов, в которой вы найдете коэффициент для всех столбцов данных из ваших сценариев. Найдите коэффициент, соответствующий каждой переменной, умножьте ее на этот коэффициент, а затем суммируйте все полученные таким образом произведения. Это и есть величина, которую вы пытаетесь измерить.
Результатом процедуры, описанной выше, является таблица с весами для всех переменных, входящих в модель. Поскольку данная модель внутренне непротиворечива, мы знаем, что уменьшили ошибку, по крайней мере частично.
Быстро выяснить, насколько модель линзы снижает неопределенность, можно, оценив непоследовательность экспертных суждений. Для этого нужно предложить экспертам дублирующие друг друга сценарии, что должно остаться для них в тайне. Иными словами, седьмой и двадцать девятый сценарии в списке могут быть одинаковыми. Изучив два десятка сценариев, люди забудут, что уже знакомы с этой ситуацией, и вполне могут дать отличающийся ответ. Вдумчивые эксперты обычно последовательны в своих суждениях о сценариях. Тем не менее именно непоследовательностью объясняется 10–20 % ошибок большинства экспертных оценок, их полностью устраняет метод линзы.
Поборник простых, неоптимизированных линейных моделей Робин Доуз согласен с тем, что Брунсвик добился значительного улучшения по сравнению с обычными суждениями экспертов. Вместе с тем он утверждает, что такой результат вовсе не связан с определением «оптимальных» весов при помощи регрессии. В своей статье Доуз на четырех конкретных примерах показал, что модель линзы дает лишь небольшое улучшение по сравнению с моделями, которые он назвал «неправильными», где веса факторов не выводятся из регрессии, а считаются одинаковыми или, как это ни странно, приписываются случайным образом[45].
Доуз пришел к выводу, что главная ценность экспертов заключается в том, что они определяют подлежащие учету факторы и относят их к «хорошим» или «плохим» (то есть решают, будут ли их веса иметь знак «плюс» или «минус») и что рассчитывать точные значения этих весов с помощью регрессии вовсе не обязательно.
Приведенные Доузом примеры, возможно, и не позволяют судить об эффективности модели линзы как инструмента решения задач, возникающих в бизнесе[46], но его выводы все равно полезны. Во-первых, собственные данные Доуза доказывают определенное преимущество, пусть и небольшое, оптимальных линейных моделей над «неправильными» моделями. Во-вторых, его выводы подтверждают ту мысль, что некая непротиворечивая модель (с оптимизированными весами или без них) лучше, чем единственно человеческое суждение эксперта. И все же я думаю, что усилия по созданию оптимальных моделей, особенно когда нужно принять действительно важное решение, вполне оправдывают даже то небольшое улучшение, которое они обеспечивают по сравнению с более простыми моделями.
Однако я убежден, что мы часто добиваемся лучших результатов, чем даже «оптимальные» линейные модели. Регрессионные модели, используемые мной для бизнеса, обычно подчиняются нескольким правилам, например такому: «Продолжительность реализации проекта является фактором дифференциации, только если она превышает год. Все проекты, реализуемые в течение года и менее, одинаково рискованны». В этом смысле такие модели не вполне линейны, но позволяют выявлять более тесную корреляцию, чем строго линейные модели линзы. Все модели, о которых Доуз упоминает в своей статье, строго линейны, но, как правило, дают более низкие значения корреляции, чем те, что я получаю с помощью нелинейных моделей.
Одним правилам меня научили эксперты, другие я сформулировал сам, проанализировав их оценки. Например, если специалист, анализирующий вероятность существенного расширения содержания разрабатываемого программного обеспечения, говорит мне, что не проводит грань между проектами, продолжительность которых составит менее года, то я просто не использую в качестве переменной исходную «продолжительность проекта». Взамен я так изменяю эту функцию, чтобы любое значение продолжительности до 12 месяцев было равно 1, 13 месяцев — 2, 14 месяцев — 3 и т. д. Но если эксперт мне этого и не скажет, то я догадаюсь обо всем по его оценкам. Предположим, что мы нанесли экспертные оценки на график зависимости вероятности значительного (требующего, скажем, увеличения объема работ более чем на 25 %) изменения спецификаций от продолжительности реализации проекта (в месяцах). Получим следующую картину (см. рис. 12.4).
Если вам кажется, что геометрическим местом этих точек служит, скорее, пунктир, то вы не одиноки в своем мнении. Оценивая проект, на реализацию которого уйдет больше года, придется учесть другой набор факторов. Возможно, с точки зрения эксперта, одни переменные больше или меньше зависят от продолжительности проекта. Модель линзы, учитывающая эти нелинейные зависимости, не только лучше соответствует мнениям специалистов; еще важнее, что она лучше коррелирует с фактическими результатами.
Бывает также, что удачный выбор переменной требует использования еще более сложных правил. Иногда существует тесная корреляция зависимой переменной не с самой независимой функцией, а с ее логарифмом, с обратной к ней величиной или с ее отношением к произведению других независимых переменных. Эксперименты в этой области только приветствуются. Как правило, я пробую несколько вариантов линейных переменных для одних и тех же исходных данных и обычно обнаруживаю, что один из них явно выигрывает на фоне других.
Оказывается, что вы можете пользоваться моделями взвешенных оценок разной степени сложности. Если не боитесь экспериментировать с нелинейными методами, то вам подойдут именно они. Если это для вас слишком сложно, но вы разбираетесь в линейной регрессии, то применяйте ее. Если вы не знакомы с регрессионным анализом, то в вашем распоряжении z-показатели Доуза с одинаковыми весами. Каждый из этих методов эффективнее другого, более простого, и все они эффективнее, чем обычная оценка эксперта.
Панацея или плацебо? Сомнительные методы измерения
Самое главное — никогда не используйте метод, способный увеличить ошибку первоначальной оценки.
Кое-кто из читателей может подумать: до сих пор автор пытался снизить планку требований к измерениям настолько, что одно только это сделает измеримым любой объект или явление. Ведь я с самого начала заявил: измерением может считаться все, что снижает неопределенность. Разнообразные ошибки наблюдения — вовсе не препятствие, если только неопределенность после измерения ниже, чем до него. Даже методы анализа того, что обычно считается «субъективным» (например, модель Раша и модель линзы), — тоже измерение, если есть убедительные доказательства, что они действительно позволяют получать более точные оценки. Вместе с тем существуют такие способы, которые я не могу считать измерением даже при этих отнюдь не жестких критериях. Поэтому сейчас, прежде чем перейти к описанию новых методов количественной оценки, я хочу благоразумно притормозить и сделать ряд оговорок.
Раз не нужно больше заботиться о точности измерения, наше определение его как «снижение неопределенности», безусловно, делает выполнимой оценку чуть ли не всего, что угодно. Но это определение предполагает и строгое ограничение. Если какой-то метод на самом деле не уменьшает неопределенность или, более того, ее увеличивает, то это нельзя считать измерением и его ценность для принимающих решение равна нулю. В подобном духе запоздалого измеренческого скепсиса мы должны обсудить два весьма распространенных метода измерения: анализ «затраты/выгоды» и метод субъективных взвешенных показателей.
Только приступив к написанию этой книги, я попросил своих многочисленных знакомых сообщать мне об интересных решениях в области измерений, которые я смог бы использовать в качестве примеров из практики. Я сказал, что ищу «интересные примеры удачного решения трудных или даже казавшихся неразрешимыми задач измерения, при этом желательно, чтобы результаты оказались поразительными и заставили изменить первоначальное решение». Недостатка в предложениях не было, и я обсудил по телефону намного больше практических примеров, чем в конце концов включил в свою книгу. Однако я заметил, что многие аналитики, консультанты и бизнесмены, похоже, ставят знак равенства между проведением измерений и обоснованием проекта. Они не приводили примеров интересного использования результатов наблюдений для снижения неопределенности в связи с каким-то неизвестным показателем. Вместо этого они объясняли мне, как готовили обоснование своего любимого проекта.
Справедливости ради скажу, что анализ «затраты/выгоды» вполне может считаться разновидностью разложения на составляющие, о котором мы говорили в главе 8, и сам по себе способен снизить неопределенность без дальнейших измерений. В процессе обоснования проекта проблему разлагают на составляющие точно так же, как в свое время Ферми это делал своими вопросами. При этом не являясь сам по себе измерением, основанным на наблюдениях, процесс все же позволяет узнать что-то новое о том, с чем мы уже были знакомы. Но, как я отмечал ранее, согласно моему многолетнему опыту, при высокой стоимости информации об изучаемых переменных одно только разложение на составляющие достаточно снижает неопределенность всего в 25 % случаев. А чаще всего, если стоимость информации оправдывает усилия по снижению неопределенности, все равно требуются определенные эмпирические наблюдения.
Между тем, похоже, что единственный прием измерения, которым пользуются многие компании, — это разложение на составляющие (например, при обосновании проекта); применять эмпирические методы они даже не пытаются. Каждая переменная при этом представляет собой просто первоначальную оценку (одного эксперта либо целой рабочей группы) и всегда выражается конкретным значением, а не диапазоном, свидетельствующим о том, что точная ее величина неизвестна. Никакие опросы и эксперименты не проводятся; не применяются и методы, позволяющие уточнить субъективные суждения. Те, кто с таким энтузиазмом рассказывал мне об обосновании проекта как о примере проведения измерений, не смогли, сколько я ни просил об этом, назвать хотя бы один показатель, который использовался ими при анализе «затрат/выгод» и который был бы рассчитан в результате наблюдений реального мира.
Совсем иное поведение наблюдается, когда задача состоит в том, чтобы на этапе обоснования проекта определить точные значения, особенно когда эксперт участвует в нем и заинтересован в результате. Оно отличается от действий калиброванного эксперта, указывающего первоначальный 90-процентный доверительный интервал. Один или несколько собравшихся для анализа проекта специалистов рассматривают со всех точек зрения каждую оценку. Вынуждаемые обстоятельствами выбрать точные значения, несмотря на всю имеющуюся неопределенность и условность ситуации, они задаются вопросом: «Каким должно оказаться это значение, чтобы оно стало приемлемым для других и в то же время подтверждало правоту моей прежней точки зрения?» Это почти то же самое, как если бы мы использовали термины «консенсус» и «факт». Обсуждавшийся ранее эксперимент Эша со стадным эффектом — лишь один из недостатков подобного подхода.
Еще одна настораживающая тенденция в принятии решений менеджерами компаний — использование взвешенных показателей такого типа, когда и сами показатели, и присвоенные им веса — субъективные, произвольные величины, а не использовавшиеся Доузом z-значения. Как и обсуждавшиеся ранее простые линейные модели, такие методы могут поставить перед менеджером портфеля проектов задачу ранжировать их по категориям типа «организационный риск» или «стратегическое соответствие» и т. д.
Подобные методы в большинстве своем предполагают использование от 4 до 12 категорий оценки, а некоторые — больше 100. Обсуждаемому проекту обычно присваивают балл, например по пятибалльной шкале, для каждой категории. Сумму баллов затем умножают на весовой коэффициент (иногда тоже составляющий от 1 до 5), отражающий относительное значение данной категории. Обычно в компаниях используемые весовые коэффициенты стандартизируют, чтобы можно было оценивать проекты по сопоставимым критериям. Скорректированные на весовые коэффициенты баллы затем суммируют и получают общий показатель обсуждаемой программы.
Присваивание баллов — способ выражения сравнительного значения, предпочтительности и т. д. без помощи реальных единиц измерения. Хотя подсчет баллов справедливо считают разновидностью порядкового измерения, обсуждавшегося в главе 3, я всегда считал, что он в определенном смысле предполагает подмену действительного желаемым, что вносит дополнительные ошибки по следующим четырем причинам.
1. Нередко баллы используют в ситуациях, где вполне оправдано использование обычных количественных показателей, которые были бы намного информативнее (например, иногда в баллы пересчитывают доходность инвестиций или риск вместо того, чтобы использовать эти параметры, как это сделал бы актуарий или финансовый аналитик).
2. Баллы привносят свой собственный тип ошибки в процесс оценки, так как зачастую показатели, определенные по разным шкалам, несопоставимы и неоднозначны. Рассмотрим, например, число звезд, которое кинокритик может присвоить кинофильму или ресторанный обозреватель — ресторану (в первом случае обычно используют шкалу четыре звезды, а во втором — пять звезд). В данной ситуации две звезды не означают, что продукт или услуга в два раза лучше, чем то же, но с одной звездой, а посещение четырех однозвездочных кинофильмов совсем не равнозначно просмотру одного четырехзвездочного.
3. Баллы бывают информативными, если являются элементами опроса большой группы людей (например, при проведении исследования по определению степени удовлетворенности потребителей). Однако они существенно теряют информативность, если используются индивидуумами для оценки возможностей, стратегий, инвестиций и т. п.: людей редко удивляют те баллы, которые они присваивают сами.
4. Баллы лишь отражают порядковый номер, но многие пользователи увеличивают ошибку тем, что расценивают их как реальные величины. Как уже говорилось, более высокое порядковое число означает «больше», но не показывает, насколько больше. Умножение и суммирование порядковых чисел иногда дает результаты, о которых пользователь и не догадывается. Вот почему этот метод может привести к непредвиденным последствиям.
Стоит подробнее остановиться на том, чем такие баллы отличаются от z-показателей, использованных Робином Доузом, а веса — от весов, получаемых с помощью модели линзы. Во-первых, в «неправильных» линейных моделях Доуза и оптимизированных моделях линзы Брунсвика применяются исходные данные, выраженные в реальных единицах измерения (например, продолжительность реализации ИТ-проекта в месяцах или средний балл поступающего в аспирантуру), а вовсе не баллы, присвоенные экспертами по некоей произвольно выбранной шкале. Во-вторых, такими баллами не были и веса, использовавшиеся Доузом и Брунсвиком. Психология применения произвольных шкал гораздо сложнее, чем кажется. Когда эксперты выбирают веса по пятибалльной шкале, они вовсе не имеют в виду, что балл 4 вдвое важнее балла 2. Из-за этой неоднозначности пятибалльная (семибалльная или какая угодно другая) шкала только добавляет ошибку к процессу оценки.
На мой взгляд, единственное наблюдаемое достоинство систем условных взвешенных коэффициентов то, что менеджерам обычно хватает здравого смысла игнорировать полученные таким образом результаты. Я обнаружил, что лица, принимающие решения, отвергают итоги подобных расчетов очень часто, и мне не удалось найти ни одного доказательства того, что эти баллы когда-либо способствовали принятию совершенно иного или даже просто более удачного решения. И это притом что менеджеры нередко тратят массу времени и сил на разработку и применение своих условных шкал.
Один из таких методов иногда используется в информационных технологиях под ошибочным названием прикладной информационной экономики[47]. Его представляют как объективный, систематизированный и формализованный подход, однако, фактически, он не основан ни на одной общепризнанной экономической модели и на самом деле не может считаться относящимся к экономике. При ближайшем рассмотрении его название оказывается совершенно неправильным. Гораздо точнее выглядит термин «метод расчета субъективных нескорректированных взвешенных коэффициентов для области ИТ».
Полученный этим методом итоговый показатель для оцениваемого ИТ-проекта не имеет смысла и с точки зрения финансов. Описательное определение баллов в каждой категории и весовые коэффициенты, приписываемые этим категорям, никак не привязаны к научным подходам — ни к теоретическим, ни к эмпирическим. На самом деле это всего лишь еще один метод исключительно субъективной оценки, не предполагающий, в отличие от метода Раша или модели линзы, корректировку ошибки. Многие из тех, кто рассчитывает взвешенные коэффициенты для информационных технологий, утверждают, что метод имеет свои преимущества, но доказательств этому пока нет.
Любопытно, что прикладная информационная экономика предполагает преобразование полезных и имеющих экономический смысл величин (например, ROI) в баллы. Этот процесс происходит следующим образом: отрицательной или нулевой ROI присваивается балл 0, ROI, составляющей от 0,1 до 299 % — балл 1, ROI от 300 до 499 % — 2 и т. д. Иными словами, скромная 5-процентная ROI обозначается таким же баллом, как 200-процентная. В более количественных методах определения приоритетности инвестиционных проектов подобная разница в доходности означала бы, что один проект намного предпочтительнее другого. А здесь два проекта, существенно и очевидно различающихся по доходности инвестиций, попадают в одну категорию. «Чистый эффект» от такой процедуры — «уничтожение» информации.
Того же мнения придерживается специалист по управлению информационными технологиями Барбара Макнарлин. Она проанализировала 25 разных способов оценки преимуществ, в том числе несколько методов взвешенных коэффициентов[48]. Макнарлин охарактеризовала эти методы как бесполезные, причем ни в одном из них не нашла научно-теоретической основы.
Пожалуй, лучше всего это сформулировал Пол Грей, книжный обозреватель «Journal of Information Systems Management». В своей рецензии на книгу «Information Economics: Linking Business Performance to Information Technology» («Информационная экономика: влияние информационной технологии на эффективность компании»), одну из важнейших работ по методу прикладной информационной экономики, Грей написал: «Не обращайте внимания на слово „экономика“ в названии. Все, что в этой книге есть экономического, — это приложение о графиках затрат»[49]. Желая похвалить, Грей на самом деле указал на основной недостаток данного подхода: он не имеет никакого отношения к экономике.
Еще один распространенный вариант метода расчета условных взвешенных коэффициентов называется методом анализа иерархий (analytical hierarchy process, АНР). От других аналогичных методов он отличается в двух отношениях. Во-первых, АНР основан на ряде попарных сравнений, а не на прямом присваивании баллов каким-либо характеристикам. При этом экспертов спрашивают, является ли один критерий «намного более предпочтительным», «чуть более предпочтительным» и т. д. по сравнению с другим, и таким же образом разные варианты выбора сравниваются между собой по одному критерию. Например, возникает вопрос: что предпочтительнее — «стратегические преимущества» нового товара А или «стратегические преимущества» нового товара В? Следом идет другой: что предпочтительнее — «риск, связанный с разработкой» товара А или «риск, связанный с разработкой» товара В? Наконец, требуется найти ответ, что важнее — «стратегические преимущества» или «риск, связанный с разработкой нового товара». Таким образом, сначала эксперты сравнивают проекты по одному критерию, а затем сопоставляются сами критерии. Попарные сравнения не требуют разработки условных шкал, что можно считать преимуществом данного метода. Однако, как ни странно, при использовании АНР результаты сравнений конвертируются в условные баллы.
Второе отличие метода анализа иерархий от других способов расчета условных взвешенных коэффициентов — определение «коэффициента согласованности». Он показывает, насколько ответы не противоречат друг другу. Например, если вы предпочитаете а) возможность получить стратегическое преимущество низкому риску разработки новой продукции и б) низкий риск, связанный с разработкой новой продукции, возможности использовать существующие каналы сбыта, то тогда вы не должны отдавать приоритет возможности использовать существующие каналы сбыта возможности получить стратегическое преимущество. Если таких несоответствий много, то коэффициент согласованности низок. Если ни один ответ не противоречит другому, то коэффициент согласованности равняется 1.
Расчет коэффициента согласованности базируется на одном методе из матричной алгебры — нахождении собственных значений, — применяемом для решения целого ряда математических задач. Поэтому метод АНР нередко называют «теоретически обоснованным», или «математически доказанным». Если бы критерием теоретической обоснованности было просто использование на каком-то этапе математического инструмента (пусть и такого мощного, как нахождение собственных значений матрицы), то тогда доказать правоту новой теории или эффективность нового метода было бы гораздо легче, чем на самом деле. Кто-нибудь нашел бы способ использовать нахождение собственных значений матрицы в астрологии или дифференциальные уравнения в хиромантии. Но ни в том, ни в другом случае ценность самого метода не повысилась бы только потому, что был применен математический прием, доказавший свою эффективность в других условиях.
На самом деле АНР — просто еще один метод расчета взвешенных коэффициентов, особенностью которого является возможность снижения уровня информационного шума за счет выявления противоречащих друг другу ответов. Однако это вряд ли делает его результаты «доказанными», как часто утверждается. Проблема в том, что сравнение таких критериев, как стратегическая согласованность и риск, связанный с разработкой новой продукции, обычно не имеет смысла. Если бы я спросил, что вы предпочитаете — новую машину или деньги, то вы, прежде всего, спросили бы меня, о какой машине и о каких деньгах я говорю. Если бы речь шла о малогабаритном автомобиле среднего класса с пятнадцатилетней историей и миллионе долларов, то вы, наверное, дали бы один ответ, а если бы о новом «роллс-ройсе» и ста долларах, то другой. Тем не менее, по моим наблюдениям, когда группа людей применяет АНР, никто не спрашивает, о какой степени риска разработки новой продукции и о каких объемах затрат идет речь. Как ни странно, они просто дают ответ, как если бы сравнение было очевидно. Такой подход привносит опасность, что одни люди просто представляют себе совсем иные связи между затратами и риском, чем другие, а значит, уровень шума только повышается.
Последний, особенно странный недостаток анализа иерархий — возможность обратного порядка предпочтений[50]. Допустим, вы про-ранжировали с помощью АНР варианты А, B и C так, что самым предпочтительным оказался вариант А. Предположим, что вы откажетесь от варианта С; изменится ли в результате положение вариантов А и В в списке так, что лучшим станет В, а худшим — А? Нелепо, не правда ли? Как ни странно, применение метода анализа иерархий может привести именно к этому.
Существует только один ограничивающий критерий, позволяющий с уверенностью сказать, являются ли методы анализа «затрат/выгод» или расчета взвешенных коэффициентов способами измерения: результатом должно стать повышение предыдущего уровня знания. Если использованный метод только увеличивает прежнюю ошибку, то это не измерение. Если его считают формализованным и систематизированным, но без научных доказательств уменьшения ошибки и принятия более удачных решений, это не измерение. На проведение псевдоизмерений организации нередко тратят больше времени и сил, чем потребовалось бы на применение способов, гарантированно снижающих неопределенность. Зачем же тогда, спрашивается, даже думать об использовании методов, которые фактически не уменьшают неопределенность?
Сравнение методов
В конечном счете, человеческое суждение — совсем не плохой инструмент измерения. Если вы регулярно принимаете большое число аналогичных решений, то модели Раша и линзы, несомненно, помогут вам снизить неопределенность, устранив отдельные типы ошибок, присущие экспертам. Даже простой z-показатель Доуза выглядит, похоже, как определенный шаг вперед по сравнению с мнением эксперта.
Расскажем для сравнения о еще одном подходе, как будто более эффективном, чем все перечисленные методы, — объективной оптимизированной линейной модели. В отличие от других обсуждавшихся в этой главе способов, он никак не зависит от человеческих суждений и поэтому обычно дает намного лучшие результаты. Обычно мы предпочитаем его, но во многих случаях, когда приходится количественно оценивать то, что «не поддается измерению», необходимые для этого подробные, объективные данные за прошлые периоды получить невозможно. Отсюда возникает потребность в таких методах, как модели линзы, Раша и т. д.
В главе 9 мы обсуждали способы проведения регрессионного анализа, нужные, чтобы выделить и оценить эффекты от многочисленных переменных. Имей мы больше данных за прошедшие периоды по некоей периодически возникающей проблеме, полную документацию по каждому фактору, выраженному в реальных единицах измерения (а не в баллах условной шкалы), и возможность зарегистрировать фактические результаты, можно было бы построить «объективную» линейную модель.
Если модель линзы выявляет корреляцию между исходными переменными и экспертными оценками, то объективная модель находит связь между этими переменными и фактическими результатами прошлых периодов. Во всех случаях применения модели линзы, перечисленных в рисунке 12.2, на основе прошлой информации была построена регрессионная модель. Например, врачам были предоставлены медицинские данные о больных раком, а затем на основе оценок их ожидаемой продолжительности жизни была построена модель линзы. Но помимо этого за пациентами продолжали наблюдать и определять их фактическую продолжительность жизни. И если погрешность результата, полученного с помощью модели линзы, оказалась всего на 2 % меньше человеческого суждения, то ошибка оценки на базе объективной модели была меньше уже на 12 %. Средняя погрешность оценок, полученных во всех случаях применения модели линзы (см. рис. 12.2), была на 5 % меньше ошибки мнений экспертов, а средняя ошибка объективной модели — на 30 %. Конечно, даже объективные линейные модели не являются панацеей от всех бед. Как мы говорили в предыдущих главах, обычно дальнейшее разложение задачи на составляющие позволяет снизить неопределенность еще больше. Если бы мы расположили все эти методы в определенном порядке, так, чтобы на одном конце спектра оказались простые экспертные оценки, а на другом — объективная линейная модель, то получили бы следующую картину (см. рис. 12.5).
Несмотря на свои недостатки, описанные ранее методы оценки всегда эффективнее простых экспертных мнений. Такие методы, как модели Раша и линзы, устраняют основные погрешности человеческих суждений и превращают эксперта в гибкий, калиброванный и очень мощный инструмент измерения. По мнению многих специалистов по психологии принятия решений, оспаривать эффективность этих методов все равно, что стегать мертвую лошадь. Лучше всего это сформулировал Пол Мил, профессор психологии Университета штата Миннесота:
Нет ничего странного в том, что в социологии постоянно появляется столько качественно разных исследований, которые ведут к одному заключению. Когда вы проводите 90 исследований [теперь их уже около 150][51] с целью предсказания всего, что угодно, начиная от результатов футбольных матчей до диагноза заболевания печени, и когда вы вряд ли можете назвать хотя бы полдюжины работ, доказывающих, что экспертные оценки лучше, то уже пора сделать практические выводы[52].
Глава 13. Новые инструменты измерения для менеджмента
Интересно, что удалось бы измерить таким светлым головам, как Эратосфен, Энрико и Эмили, имей они в своем распоряжении обсуждавшиеся в данной книге методы. Не сомневаюсь, что много всего. Но, к сожалению, эти инструменты используются совсем не так часто, как могли бы, что, конечно, сказывается на качестве многих принимаемых важных и рискованных решений.
Говоря об инструментах измерения, я опять имею в виду не просто приборы, используемые для научных наблюдений. Я говорю о вещах, существование которых вам давно известно, но которые вы наверняка не считаете инструментами измерения. Сюда входят в том числе новые беспроводные устройства и даже Интернет.
Маркеры XXI века: в ногу с техническим прогрессом
Один из обсуждавшихся нами методов наблюдения — использование специальных средств слежения за тем, что ранее не определяли. Добавив что-либо в наблюдаемое явление, вы могли бы сделать его более легким для наблюдения. Чтобы получить представление о процессах, происходящих в верхних слоях атмосферы, мой отец, сотрудник Национальной службы погоды США, запускал при сильном ветре шары-зонды с радиопередатчиками и простейшими метеорологическими приборами. В нашем примере с измерением численности популяции рыбы в озеро была выпущена меченая рыба. Когда объект трудно наблюдать в его естественном виде, используют многочисленные приемы: установку на нем датчика, нанесение на него метки или использование маркера.
Массу возможностей создают не столько сами эти инструменты, сколько дешевизна их использования. Например, простая технология радиочастотной идентификации (radio frequency ID, RFID) революционизировала измерения в определенных видах бизнеса, но может применяться еще шире. RFID-метка — крохотное устройство, отражающее радиосигнал и посылающее в отраженном сигнале уникальный идентификационный код. Одна RFID-метка стоит сегодня всего 10–20 центов, а используются они главным образом для облегчения инвентаризации товарно-материальных запасов.
Когда я спросил известного физика и автора книг Фримена Дайсона о самом, по его мнению, важном и интересном достижении в области измерений, он без колебания ответил: «Самое яркое — GPS (Global Positioning System — глобальная система определения местоположения, или глобальная навигационная система). Она изменила абсолютно все». Вообще-то я ожидал другого ответа. Наверно, думал я, он вспомнит о том, как занимался анализом боевых операций ВВС Великобритании в период Второй мировой войны, но GPS — безусловно, хороший пример, поскольку система действительно является революционным инструментом измерения и сама по себе измерение. Экономически GPS доступна практически всем и предлагается в комплекте с различными программными средствами и услугами. Тем не менее, перечисляя новые используемые бизнесом средства измерения, многие и не вспоминают об этой системе, отчасти из-за ее повсеместного использования. Но если такой человек, как Дайсон, считает ее новым словом в измерении, то к его мнению стоит прислушаться.
Предоставляемыми технологией GPS возможностями по измерению пользуются большинство отраслей транспорта. Одна из фирм, помогающих транспортным компаниям полностью использовать GPS, — базирующаяся в Скоттсдейле (штат Аризона) GPS Insight (GPSI). Она поставляет устанавливаемые в транспортных средствах GPS-навигаторы, подключенные к беспроводной сети, в которую можно войти с веб-сайта компании. GPSI показывает местонахождение машин на картах, доступных на Google Earth. Как известно всем знакомым с сайтом Google Earth, в данную систему входят спутниковые фотографии Земли, информация о дорогах, компаниях и прочие самые разнообразные сведения Географической информационной системы (Geographic Information System, GIS), введенные в единую программу. Каждый может бесплатно скачать Google Earth и увидеть спутниковую фотографию своей улицы или любого другого интересующего его места.
Изображения в Google Earth отражают вид местности не в режиме реального времени: иногда снимкам исполняется уже два года (так, на фото моего микрорайона видна стройка, закончившаяся более двух лет назад); однако дорожная и прочая информация обычно более свежая. Одни районы охвачены системой хуже, чем другие. На снимках многих районов можно с легкостью различить машины, но разрешение фото крохотного городка Йеля (штат Южная Дакота), в котором я жил в детстве, такое низкое, что вы с трудом различаете дороги. Со временем полнота охвата, разрешение и актуальность снимков, конечно, улучшатся.
Высококачественные аэрофотоснимки выкладывают в Интернет разные компании, однако GPS Insight обычно предоставляет их клиентам в виде изображений, наложенных на снимки Google Earth. Цена чаще всего колеблется от 1 до 10 дол. за квадратную милю.
Каждое из этих технических средств могло бы само по себе служить разумному пользователю инструментом измерения. Но, используя одновременно возможности GPS, беспроводных сетей, Интернета и Google Earth, компания GPS Insight в состоянии предоставить такую информацию о местонахождении машин, действиях водителей и их манере вождения, получить которую раньше было практически невозможно. В ее сообщениях кратко указываются время движения, продолжительность стоянки, а также их средние значения и дисперсии, что помогает понять, где «копать дальше». А если «копать дальше», то можно определить точное место, срок и действие, например то, что машина уже два часа стоит на углу 43-й улицы и Центрального парка. Выбрав в Google Earth «бары и рестораны», можно даже узнать, у какого именно ресторана она стоит.
Прочие виды сообщений информируют о том, кто превышает скорость на дороге, как долго разные машины эксплуатируются в течение дня по сравнению с оплаченными часами, используются ли они по окончании рабочего дня, двигаются ли предписанными маршрутами, сколько часов или миль они едут по территории каждого штата (что нужно знать для уплаты налога на горюче-смазочные материалы). Поскольку данная система снижает неопределенность относительно такого числа экономических показателей, она может считаться очень полезным инструментом измерения.
Достижения технического прогресса используются и для оценки интенсивности общения людей в бизнесе. Джордж Эберштадт — один из основателей nTag, компании, разработавшей электронное устройство, способное определять, кто с кем общается. Оно весит не более 150 г и использует одноранговую беспроводную сеть радиосвязи для идентификации каждого, кто носит такое же устройство, когда он оказывается в пределах доступности. Когда люди разговаривают, система nTag выявляет участников общения, используя инфракрасный строб-импульс для того, чтобы протестировать все имеющиеся в помещении устройства. Эти устройства позволяют определить, кто с кем и как долго разговаривает. Данные передаются без проводов в сеть радиодоступа, а затем в центральную базу данных.
Подход именных электронных значков решает ключевую проблему отношения потребителей к подобным устройствам. Эберштадт говорит: «В то время как большинству людей не нравится носить электронные приборы слежения, устройство nTag — это удостоверение личности, и им никто не отказывается пользоваться». Он называет это устройство обоюдовыгодным — вы соглашаетесь им пользоваться потому, что это дает вам преимущества. «Люди соглашаются предоставлять о себе информацию, если получают что-то взамен».
Решив оценить «интенсивность общения» на различных мероприятиях, вы наверняка получите очень полезную информацию. Если бы вы председательствовали на конференции и обнаружили, что представители некоторых групп в аудитории активно общаются между собой, оставляя без внимания других, то смогли бы найти способ преодолеть коммуникационные барьеры. Устройства nTag предназначены прежде всего для проведения конференций, но компания надеется, что они найдут и более широкое применение. Эберштадт говорит: «Обычно основными целями проведения любого совещания люди считают сотрудничество, обучение и мотивацию. Чтобы определить ценность совещания, нужно измерить степень достижения этих целей». Устройства nTag позволяют установить, кто с кем разговаривает и как долго, благодаря чему компания может определить, выполняет ли мероприятие свою функцию развития сотрудничества.
Если Эратосфен сумел определить длину окружности Земли по длинам теней, то, интересно, какие измерения в области экономики, политики или психологии он смог бы провести с помощью GPS? Если Энрико Ферми установил мощность атомной бомбы с помощью десятка обрывков бумаги, то, интересно, что бы он сделал с десяткой RFID-меток? Если Эмили смогла разоблачить метод бесконтактного массажа, проведя простой эксперимент с картонным экраном, интересно, что бы она измерила сегодня, располагай чуть большим бюджетом и парой новых инструментов?
Интернет как инструмент измерения мира
Писатель Уильям Гибсон написал несколько романов в жанре научной фантастики, которыми может заслуженно гордиться. Именно он ввел в обращение термин «киберпространство» как прообраз Интернета, пользователи которого не только применяли клавиатуру и мышь, но и запросто «входили» в виртуальную реальность. Кое-кто из его персонажей летал над полями данных, чтобы выявить закономерности, например неэффективность рынка, и быстро на них заработать.
Как и многие другие научные фантасты, в некоторых отношениях Гибсон мыслил совершенно нереалистично. Лично я не вижу особого смысла в том, чтобы летать над полями данных в киберпространстве, хотя, наверное, это и было бы забавно. Думаю, что получаю больше полезной информации и делаю это быстрее с помощью старых добрых поисковиков Google и Yahoo. Но мысль Гибсона о том, что киберпространство не просто хранилище данных, но своего рода зеркало того, что в реальном времени происходит на планете, совсем не далека от истины. Мы действительно в любой момент можем получить доступ к целому океану данных. Даже не летая над ними в киберпространстве, мы можем выявлять закономерности и принимать благодаря этому удачные решения.
Восхваление чудесных возможностей Интернета уже давно стало привычным делом. Но одно направление его использования, похоже, пока недооценивается. Интернет — возможно, самый удивительный инструмент измерения, с которым большинству из нас суждено столкнуться за всю свою жизнь. Совсем несложно с помощью поисковой машины найти научную статью о том, что вы хотите оценить. Но есть и другие аспекты применения Интернета как инструмента измерения, объясняющие, почему Всемирная паутина сегодня быстро становится ответом на вопрос о том, как измерить все, что угодно.
Особого упоминания заслуживают несколько новых веб-технологий. Одна из них — метод сбора данных из самого Интернета, а другая — метод использования Сети для получения сведений от других.
В Интернете содержится масса информации, и она очень быстро меняется. Воспользовавшись обычной поисковой машиной, вы получите список веб-сайтов, но и только. Но предположим, что вместо этого необходимо определить, сколько раз название вашей компании упоминается на некоторых новостных сайтах или активно ли ваша новая продукции обсуждается в блогах. Возможно, вам даже нужно использовать эти данные вместе с другими, существующими в систематизированном виде на других сайтах, например с экономическими показателями, публикуемыми правительственными учреждениями.
Программы-анализаторы («screen-scrapers») позволяют регулярно собирать всю эту информацию, не нанимая для этого специалистов и не заставляя их работать круглосуточно. Президент и основатель сайта www.screen-scraper.com Тодд Уилсон говорит: «Есть такие сайты, на которых все меняется каждые 3–4 секунды. Наш инструмент очень подходит для отслеживания изменений, происходящих в Сети со временем». Благодаря таким «экранным шпионам» вы можете сравнить цены на ваши новый и проверенный рынком продукты на сайте www.ebay.com, определить зависимость продаж вашей сети магазинов в разных городах от местной погоды или даже час за часом следить за тем, сколько раз название вашей фирмы находят с помощью различных поисковиков (хотя если вы хотите только получать оповещения о новых записях, а не создаете базу данных, то можете просто подписаться на Google Alerts).
Как показывает поиск в Интернете, существует несколько «мэш-апов»[53], которые собирают данные из многочисленных источников и представляют их в виде, позволяющем взглянуть на них по-новому. Сегодня многие мэшапы наносят сведения о компаниях, недвижимости, движении транспорта и т. п. на карты таких сайтов, как MapQuest или Google Earth. Я обнаружил на сайте www.housingmaps.com мэшап данных Google Earth и данных о недвижимости, который позволяет вам увидеть на карте цены недавно проданных домов. Еще один мэшап на сайте www.socaltech.com показывает карту расположения компаний, в которые недавно был вложен венчурный капитал. Сначала может показаться, что эти сайты предназначены для тех, кто хочет купить дом или найти работу в новой компании. Но разве их нельзя использовать при проведении исследований для какой-нибудь строительной компании или при прогнозировании темпов роста новой отрасли? Здесь все зависит только от нашей изобретательности.
Можно представить себе практически неограниченное число комбинаций направлений анализа с созданием мэшапов таких сайтов, как MySpace и (или) YouTube, для оценки культурных тенденций или выявления общественного мнения. EBay дает массу бесплатной информации о поведении покупателей и продавцов и о том, что продается и покупается, при этом существует несколько мощных аналитических инструментов, позволяющих обобщить всю имеющуюся на этом сайте информацию. Реплики и отзывы на отдельные товары, выкладываемые на сайтах Sears, Wal-Mart, Target и Overstock.com, служат источниками бесплатной информации, если только у нас хватит сообразительности ее использовать. Информации столько, что голова может пойти кругом.
Или же, вместо того чтобы добывать в Интернете информацию с помощью «экранных шпионов» и мэшапов, вы можете использовать Всемирную сеть для проведения прямых опросов потребителей, работников и т. д. Существует, например, такая интернет-компания по проведению опросов, как Key Survey (www.keysurvey.com). Подобные фирмы предлагают услуги по проведению статистического анализа.
Некоторые придерживаются «рационального», или адаптивного, подхода к проведению опросов, когда задаваемые в его ходе вопросы варьируют в зависимости от того, как респонденты ответили на предыдущие задания. Хотя подобные возможности могут быть очень полезными, многие клиенты интернет-служб по проведению опросов находят, что использование таких методов измерения оправдывается уже одним снижением затрат.
Приведем пример. Проведение интернет-опроса фермеров, состоявшего из 40–50 вопросов, обычно обходилось журналу «Farm Journal» в среднем по 4–5 дол. на каждого респондента. Теперь, когда журнал пользуется услугами Key Survey, эти затраты сократились до 25 центов, и у него появилась возможность опрашивать сразу по полмиллиона человек.
Первый уровень — мерить все, что легко поддается измерению. Этот подход не вызывает возражений. Второй — отбросить то, что трудно измеряется, или приписать ему произвольное количественное значение — искусственный, уводящий в сторону путь. Третий уровень — предположить, что все трудноизмеримое не имеет значения. Это страусиная политика. Четвертый этап — сказать, что измеряемое с трудом вообще не существует. Это самоубийство.
Еще один клиент Key Survey — National Leisure Group (NLG), крупная круизная компания с годовым доходом около 700 млн дол.
Джуллианна Хейл — директор National Leisure Group по человеческим ресурсам и внутренним коммуникациям. сначала она пользовалась услугами Key Survey только для решения задач, стоявших перед отделом человеческих ресурсов, в частности для оценки удовлетворенности сотрудников, результатов работы коучей и эффективности тренингов, но позже она увидела возможность оценить и удовлетворенность туристов. Она говорит: «Работающим в туризме каждый пенни дается с боем. Норма прибыли в нашей отрасли очень низка». В этих условиях было особенно важно определить, насколько положительным является имидж NLG в глазах клиентов. «У нас была масса турагентов, но клиенты редко снова приходили к нам, — объясняет Хейл. — Поэтому мы создали отдел по изучению впечатлений клиентов и начали оценивать их удовлетворенность. Убедить руководство в необходимости таких измерений удалось не сразу. Пришлось выдержать настоящий бой».
Каждые шесть — восемь месяцев Key Survey проводила опросы клиентов, обслуживаемых разными отделами NLG. Желая сэкономить время потребителей, компания старалась делать это эффективно. Хейл вспоминает: «Было несколько вариантов опроса потребителей, но в конце концов утвердили два». Одна группа вопросов автоматически отсылалась по электронной почте сразу после того, как клиент оформил заказ, а вторая — по возвращении из круиза. Хейл говорит: «Мы просто хотели посмотреть, какие результаты получим. На первый вариант опроса отвечали 4–5 % туристов, но на второй — уже 11,5 %». Такой процент отклика считается высоким. Разумно используя простые средства контроля, NLG сравнивает ответы на вопросы типа «Порекомендуете ли вы нас своим друзьям?» до и после того, как клиент побывает в круизе, чтобы определить, повысились ли баллы после путешествия.
Обнаружив, что после круиза удовлетворенность клиентов падает, NLG решила реализовать специальную программу обучения турагентов. Хейл говорит: «Нам нужно было научить их торговать по-новому и предлагать маршруты, более подходящие клиентам». Измерение помогло выявить проблему и уже поэтому оказалось успешным. Теперь компании необходимо оценить эффект реализации новой программы.
Рынки предсказаний: проведение измерений с эффективностью Уолл-стрит
Интернет сделал возможным новый динамичный способ проведения измерений, объединяющий мнения по механизму, аналогичному фондовому рынку. Когда экономист говорит, что фондовый рынок «эффективен», он имеет в виду, что постоянно опережать рынок очень трудно. Курс любых акций в любой момент времени может с одинаковой вероятностью как упасть, так и повыситься. Будь это не так, участники рынка только продавали или только покупали бы эти акции до тех пор, пока равновесие не восстановится.
Результатом процесса сбора суждений является прогноз, более точный, чем индивидуальное мнение любого отдельного участника рынка. Преимущество данного процесса по сравнению с опросами общественного мнения заключается в том, что у участников есть стимул к тому, чтобы не только тщательно продумывать все вопросы, но даже (особенно, если на кону большие деньги) приобретать на собственные средства новую информацию об инвестициях, необходимую для анализа. У людей, которые ведут себя нерационально, быстро кончаются деньги, и они уходят с рынка. Именно они и создают «случайный шум», уравновешивая друг друга на крупном рынке, поскольку из-за своей нерациональности обычно либо переоценивают, либо недооценивают акции. А поскольку рынок поощряет активное участие, новости об изменении стоимости компании быстро находят отражение в курсе ее акций.
Именно такой механизм пытаются использовать новые «рынки предсказаний». По данным исследований, они появились еще в начале 1990-х годов, но широкую известность получили только в 2004 г. благодаря знаменитой книге Джеймса Шуровьески «Мудрость толпы. Почему вместе мы умнее, чем поодиночке, и как коллективный разум влияет на бизнес, экономику, общество и государство»[54]. Благодаря нескольким программным приложениям и открытым веб-сайтам появились «рынки» предсказаний того, кто, например, получит кинопремию «Оскар» за лучшую женскую роль или кто станет кандидатом в президенты от республиканцев. Примеры существующих рынков предсказаний приводятся в таблице 13.1.
Участники рынка предсказаний покупают или продают акции определенного прогноза, например предположения о том, кто будет кандидатом в президенты в США от республиканцев. Если предсказание сбывается, то держатель акции получает определенную сумму, чаще всего 1 дол. Можно сделать ставку на то, что прогноз осуществится, купив акцию «Да», или на то, что он не реализуется, купив акцию «Нет». То есть вы заработаете, если предсказание окажется верным и у вас будет акция «Да» или если предсказание окажется неверным и у вас на руках окажется акция «Нет». Когда решение о том, реализовался ли прогноз, уже принято и выигрыш выплачен, соответствующая акция выбывает из обращения.
Если у вас 100 акций «Да», вы сделали ставку на то, что кандидатом станет определенный человек и он действительно им станет, то вы заработаете 100 дол. Но при покупке этих акций у вас не было никакой уверенности, что ваш прогноз сбудется. За несколько месяцев до объявления кандидата в президенты акция может стоить всего 5 центов; после объявления кандидата ее стоимость возрастает; когда еще один претендент решит баллотироваться в президенты, курс акции несколько уменьшается, а потом подскакивает всякий раз, когда кто-нибудь из кандидатов выбывает из борьбы. Заработать деньги вы можете, просто сохранив акции до самого конца или же продав их в любой момент, когда вам покажется, что рынок их переоценивает.
Но участники рынков предсказаний прогнозируют не только результат выборов, лауреатов премии «Оскар» или нового Американского идола[55]. Они могут составить прогноз по любому интересующему вас вопросу, например объединятся ли две конкурирующие компании, какими будут продажи нового продукта, чем закончится какое-нибудь важное судебное разбирательство или даже останется ли данная компания на рынке. На рисунке 13.1 показана цена уже утратившего свою актуальность предсказания «К 2005 г. компания Apple прекратит свое существование», размещенного на веб-сайте Foresight Exchange (www.ideosphere.com). Прекрати компания Apple свое существование как самостоятельное юридическое лицо к 1 января 2005 г., каждая акция «Да» принесла бы своему владельцу один доллар. Точный смысл прогноза (то есть способ определения, перешла ли компания к другому владельцу, объединилась ли с другой фирмой, была ли реструктурирована в ходе банкротства и т. д.) разъясняется в подробном описании, а также в комментариях судьи — того человека, кому предстояло решить, реализовался ли прогноз. Как мы теперь знаем, Apple отнюдь не ушла с рынка и все обладатели акций «Да» обнаружили, что их акции обесценились. Но люди, которые сделали ставку против этого предсказания, купив акции «Нет», заработали по доллару на каждую акцию. Курс такой акции, как и любой другой ценной бумаги, в разные периоды времени отражал появлявшиеся на рынке новости (график показывает некоторые ключевые события истории Apple, произошедшие до того, как прогноз утратил свою актуальность). Однако, в отличие от курсов других акций, цена акций «Да» легко определялась на основе вероятности того, что компания уйдет с рынка. В январе 1999 г. одна акция «Да» стоила около 30 центов, что означало: по мнению рынка, существовала 30-процентная вероятность ухода Apple с рынка до 1 января 2005 г. В 2004 г. цена одной акции «Да» упала ниже 5 центов, поскольку уже было очевидно, что в начале следующего года Apple все еще останется в бизнесе.
Что интересно в рынках предсказаний, так это связь курсов акций с вероятностью правильности прогноза. Если проанализировать большое число уже утративших актуальность предсказаний, легко понять, насколько эффективно работают такие рынки. Чтобы определить, точно ли рассчитывается вероятность, мы, как и калиброванные эксперты, должны сравнить множество сделанных когда-то прогнозов с тем, что произошло на самом деле. Если метод расчета вероятности хорош, то когда он говорит, что вероятность каждого события из группы — 80 %, именно 80 % из них должны наступить. Аналогично из всех предсказаний, которые продаются по 40 центов, сбыться должны, в конечном счете, около 40 %. Рисунок 13.2 показывает, как это правило соблюдается на TradeSports, NewsFutures и Foresight Exchange.
Этот график показывает цены на сайтах TradeSports и NewsFutures для одной и той же серии из 208 игр Национальной футбольной лиги США (National Football League, NFL), приведенные в исследовании, опубликованном в журнале «Electronic Markets»[56]. Я наложил на эти данные результаты собственного анализа 353 прогнозов Foresight Exchange, отобранных из всех (а не только футбольных) источников, причем только тех, но которым было заключено много сделок.
Мы видим, что с ростом цены растет и вероятность наступления данного события. TradeSports, сайт игры на реальные деньги, — пример хорошей калибровки (вероятность события очень близка к цене соответствующей акции). NewsFutures — пример почти такой же хорошей калибровки, хотя используются не настоящие, а виртуальные деньги (лучшим игрокам разрешается покупать на свои «деньги» такие призы, как iPod).
В этом смысле Foresight Exchange сильно отличается от двух других сайтов. На этой электронной бирже в ходу только виртуальные деньги, и возможность купить приз игрокам не предоставляется. Игроки просто получают каждую неделю 50 виртуальных долларов. На эти деньги можно купить только акции прогнозов, а единственное вознаграждение удачливого игрока — репутация хорошего прогнозиста. Возможно, именно поэтому почти все на этом рынке переоценено (цены выше рассчитанных по вероятности наступления данного события). Другая причина — участвовать в качестве прогнозиста на Foresight Exchange может каждый желающий. Большинство предсказаний на этой бирже долгосрочные, многие из них довольно странные и сбываются только 23 % из них. Интересно, что переоценка — явление настолько постоянное для этого сайта, что для получения такой же вероятности, как на TradeSports и NewsFutures, нужно просто умножить рыночный курс на корректирующий коэффициент. Уже по окончании данного исследования TradeSports сделала из своего не имевшего отношения к спорту подразделения самостоятельную компанию, получившую название Intrade (www.intrade.com).
Некоторые компании, такие как General Electric (GE) и Dow Chemical, начинают присматриваться к рынкам предсказаний как к полезному инструменту оценки вероятности наступления в будущем определенных событий. Например, GE уже использовала их для оценки вероятности получения прибыли сотрудниками от внедрения предложенных ими нововведений. Рынки предсказаний можно применять и для определения пороговых значений. Если новый продукт — хорошее вложение средств только при условии, что выручка в первый же год составит 25 млн дол., то компания может сделать прогноз: доходы от продаж продукта X в первые 12 месяцев после выхода на рынок достигнут 25 млн дол.
Ясно, что рынки предсказаний — новый мощный инструмент измерения неизмеримых на первый взгляд объектов и явлений. Энтузиазм поклонников этих рынков столь велик, что они считают их альфой и омегой измерения практически всего, что угодно. По мнению некоторых, чтобы обосновать новый проект, достаточно просто составить прогноз по каждой отдельной переменной проекта и сделать его предметом обсуждения участников рынка. А после того, как вышла в свет книга Шуровьески, их пыл только увеличился.
Памятуя об этом, не стоит забывать и о другом. Рынок предсказаний — отнюдь не волшебная палочка. Это просто способ выяснить мнение группы людей и, особенно если используются реальные деньги, побудить их к анализу интересующего вас вопроса. Другие обсуждавшиеся нами методы также эффективны, и иногда лучше использовать именно их. В таблице 13.2 проводится сравнение всех описанных в нашей книге способов повышения точности оценок.
В 2001 г. служба информационного обеспечения Агентства передовых оборонных исследовательских проектов (Defense Advanced Research Projects Agency, DARPA) решила изучить возможность использования рынков предсказаний для целей выбора будущей политики. Решение было принято на основании результатов исследований, показавших, что прогнозы таких рынков по целому ряду вопросов оказываются более точными, чем прогнозы отдельных экспертов. И этому эксперименту было суждено вызвать бурную реакцию общественности.
В 2002 г. были созданы пробные рынки для предсказания распространения атипичной пневмонии и уровней угроз нарушения безопасности. Предполагалось, что эти рынки будут использоваться только правительственными учреждениями, но обеспокоенность тем, что трейдеров будет слишком мало, юридические проблемы с условным переводом денег между правительственными учреждениями привели к тому, что торги были открыты для всех желающих.
В одном отчете было приведено изображение дисплея с такими возможными предсказаниями, как убийство Ясира Арафата и ракетная атака со стороны Северной Кореи. Эти примеры не остались незамеченными. 28 июля 2003 г. сенаторы Рон Уайден от штата Орегон и Байрон Дорган от Северной Дакоты написали директору службы информационного обеспечения Джону Пойндекстеру следующее: «Примеры, которые вы приводите в своем отчете, могли бы заставить участников сделать ставку на то, что в следующем году террористы применят в Израиле биологическое оружие. Нет никакого сомнения, что противостоять такой угрозе необходимо путем сбора как можно более надежной разведывательной информации, а вовсе не постановкой вопросов перед людьми, делающими ставки на веб-сайте. Тратить деньги налогоплательщиков на создание букмекерских сайтов, принимающих ставки на терроризм, столь же расточительно, сколь и недостойно». Затем к этой критике присоединилась пресса.
Через два дня программа была заморожена, а Пойндекстер ушел в отставку. Робин Хансен из Университета Джорджа Мейсона, один из членов его команды и авторов идеи рынка предсказаний, по этому поводу сказал: «Никто из конгрессменов не спросил нас, справедливы ли эти обвинения и нельзя ли выбросить из проекта то, что задевает чьи-то чувства. Поддержки от DARPA мы тоже не дождались».
Сенаторы нашли эту программу аморальной и решили, что она не даст положительного эффекта. Также они почему-то предположили, что она заменит собой другие методы сбора разведывательной информации, хотя разведывательные службы, конечно, всегда пользуются сразу несколькими способами. Если их возмущение было вызвано опасением, что, используя этот рынок, террористы смогут обогатиться, то никаких оснований для него не было. Сенаторы не учли, что участники рынка могли заработать весьма небольшие деньги, так как сумма любой сделки не должна была превышать 100 дол. Хансен так резюмировал все это дело: «Они должны были высказать свою точку зрения о малознакомом для них проекте.
Как миллионный проект при триллионном бюджете, он был легкой мишенью». Конечным результатом этого морализирования и политиканства стал отказ от использования чрезвычайно эффективного с точки зрения затрат инструмента, способного существенно улучшить результаты анализа разведывательной информации.
Глава 14. Универсальный метод измерения: прикладная информационная экономика
В 1984 г. консалтинговая фирма The Diebold Group попросила главных исполнительных (CEO) и финансовых (CFO) директоров 10 крупных корпораций выступить в престижном Чикагского клубе перед своими коллегами из 30 крупнейших чикагских компаний. Представители таких компаний, как IBM, Mobile, AT&T и Citibank, рассказали о своих процессах принятия серьезных инвестиционных решений. Оказалось, что все они делают это одинаково и очень просто: если инвестиции признаются стратегическими, их финансируют. Рассчитывать доходность таких инвестиций никто и не пытается, что стало большим сюрпризом для некоторых присутствовавших на этой встрече представителей чикагского бизнеса.
Присутствовал на ней и Рей Эпич, многоуважаемый гуру в области ИТ, в то время консультант The Diebold Group, а ныне вице-президент RiverPoint Group LLC. Сомневаясь в разумности правила автоматического утверждения «стратегических» проектов, он мог привести немало примеров того, к чему приводит подобный подход к принятию решений. В частности, он рассказал о компании Mead Paper, которая «решила изменить состав бумаги и в результате выбросила на ветер 100 млн дол.».
Эпич также рассказал о своем разговоре с Бобом Прицкером из The Marmon Group — конгломерата, владельцы которого были в то время третьей богатейшей семьей Америки: «Я спросил его, как он планирует капиталовложения». Ответ Прицкера звучал примерно так: «Мои ребята мне звонят, а я говорю им „да“ или „нет“». Он добавил: «Я не могу себе позволить, чтобы такого рода эксперты рассчитывали ROI». С тех пор осознание значения простых расчетов и определенный здоровый скептицизм по поводу чутья высших руководителей, наверное, уже стали нормой — а впрочем, может быть, и нет.
Во всяком случае, именно таким был тот мир, в который я попал, когда в 1988 г. стал консультантом компании Coopers & Lybrand по управлению. Я работал над несколькими интересными количественными задачами. Даже если поначалу они и не считались количественными, я старался сформулировать их именно так, поскольку таким было и остается мое мировоззрение. Я никогда специально не планировал свою карьеру, но меня, тем не менее, все чаще привлекали к работе над крупными проектами разработки программного обеспечения сначала в качестве аналитика, а затем и руководителя.
Примерно в это время я впервые заметил, что в управлении информационными технологиями крайне редко или вообще не используются количественные методы, широко применяемые в других областях. То, что количественно оценивалось в других сферах деятельности, в ИТ нередко считалось не поддающимся измерению. Именно тогда я решил, что кто-то должен найти способ внедрить в эту область уже апробированные количественные методы.
К тому времени я уже работал в компании DHS & Associates, базировавшейся в Роузмонте, штат Иллинойс. Позднее эта фирма стала называться RiverPoint, и именно в ней сейчас работает Рей Эпич. Руководство DHS & Associates также видело необходимость использования в ИТ более количественно обоснованных решений, а культура этой компании предоставляла консультантам большую свободу в разработке новых идей.
В том же году я приступил к созданию метода, который назвал прикладной информационной экономикой (AIE). Я разрабатывал ее для области информационных технологий, но оказалось, что она позволяет решать задачи по измерению, возникающие в любой сфере.
Сводим все воедино
Основные составляющие прикладной информационной экономики — методы оценки неопределенности, риска и стоимости информации, обсуждавшиеся в части II. Словом, метод AIE отвечает на четыре вопроса:
1) как смоделировать текущее состояние неопределенности;
2) как рассчитать, что еще необходимо измерить;
3) как измерить это экономически оправданным способом;
4) как принять решение?
Чтобы глубже вникнуть в процессы прикладной информационной экономики, обратимся к рисунку 14.1. Вы видите, что AIE действительно не более чем обобщение всего, о чем мы говорили до сих пор.
Подход прикладной информационной экономики
С 1995 г. я измеряю с помощью прикладной информационной экономики всевозможные объекты, казавшиеся поначалу трудно или даже вовсе не поддающимися количественной оценке. Довольно длинное название этого подхода было выбрано потому, что я хотел придать ему описательный характер. Постоянно рассчитывая стоимость информации о каждой неизвестной переменной, подлежащей учету при принятии решения, и пересчитывая ее после каждого нового измерения, мы получаем возможность определить, что именно заслуживает измерения.
На начальном этапе постановки задачи метод AIE придает большое значение количественной оценке неопределенности и риска как необходимому условию расчета стоимости информации. А когда выясняется, что проведение измерений экономически оправданно, AIE предполагает использование только методов, гарантированно уменьшающих ошибку. Сложность заключалась в том, чтобы собрать все это в один внутренне непротиворечивый метод. После нескольких первых проектов стало очевидно, что процесс должен состоять из следующих этапов:
• Предварительные исследования. Чтобы понять характер проблемы, аналитик встречается с заинтересованными лицами и изучает результаты вторичных исследований и отчеты за прошлые периоды.
• Подбор экспертов. Обычно необходимо, чтобы свои оценки дали четыре-пять специалистов, но мне доводилось привлекать и по 20 экспертов, хотя я не рекомендую этого делать.
• Планирование заседаний рабочей группы. Вместе с отобранными экспертами составляется расписание четырех — шести заседаний рабочей группы продолжительностью в половину рабочего дня.
• Определение проблемы. На первом заседании рабочей группы эксперты определяют, какую конкретную задачу они на самом деле должны проанализировать. Например, что на самом деле они должны сделать: решить, стоит ли продолжать данный инвестиционный проект, или проблема в том, как его скорректировать? Если задача — одобрить или отвергнуть инвестиционный проект или другую программу, то тогда необходимо встретиться с лицами, принимающими решения, чтобы определить инвестиционную границу для этой организации.
• Детализация модели принятия решения. Ко дню проведения второго заседания рабочей группы составляется электронная таблица в программе Excel, учитывающая все факторы, влияющие на анализируемое решение, и их совокупное воздействие. Если принимается решение одобрить или отклонить какой-нибудь крупный проект, следует перечислить все затраты и выгоды, ввести их в общий денежный поток и рассчитать ROI (как это делается при обосновании любого проекта).
• Первоначальные калиброванные оценки. На оставшихся заседаниях рабочей группы мы калибруем экспертов и подставляем предложенные ими значения переменных в модель принятия решения. Эти значения не фиксированы (если только нам не известны точные числа), а являются калиброванными экспертными оценками. Все они представляют собой 90-процентные доверительные интервалы или другие распределения вероятностей.
• Анализ стоимости информации (value of information analysis, VIA). На этой стадии мы анализируем стоимость информации о каждой переменной, входящей в модель. В результате мы узнаем не только значение каждой неизвестной, но и его порог. Макрос, написанный мной в программе Excel, делает это быстро и точно, но и методы, обсуждавшиеся ранее в этой книге, тоже дают хорошие оценки.
• Предварительный выбор метода измерения. В ходе VIA выясняется, что мы обладаем достаточной информацией о большинстве переменных и что их дополнительной оценки, кроме калиброванной, не потребуется. Обычно высокой оказывается стоимость информации лишь о паре переменных (и нередко их выявление приносит сюрпризы). На основании полученных данных осуществляется выбор таких методов измерения, которые обязаны снизить неопределенность, не превышая ожидаемой стоимости полной информации. В ходе VIA также определяется порог измерения, в случае достижения которого приходится принимать иное решение. Наш метод измерения ориентирован на уменьшение неопределенности относительно этого порога.
• Применяемые методы измерения. Разложение на составляющие, случайная выборка, субъективно-байесовский способ, проведение контролируемых экспериментов, метод линзы (и т. д.) или любое их сочетание — все это может использоваться для снижения неопределенности переменных, определенных на предыдущем этапе.
• Усовершенствованные модели принятия решения. Результаты этих измерений используются для уточнения значений переменных в нашей модели. В модель вводятся величины, появившиеся в результате разложения первоначальной переменной на составляющие (например, неизвестный элемент затрат может быть разложен на более мелкие компоненты с присущими им 90-процентными доверительными интервалами).
• Конечная стоимость анализа затрат на информацию. Анализ и измерения (предыдущие четыре шага) часто проходят несколько повторений. До тех пор пока VIA показывает, что стоимость информации превышает затраты на проведение измерений, их можно продолжать. Однако обычно уже после одной-двух итераций, согласно VIA, проведение дальнейших измерений экономически нецелесообразно.
• Полный анализ соотношения «риск/доходность». Результатом моделирования методом Монте-Карло являются вероятности возможных исходов. Если необходимо принять решение о судьбе крупных инвестиций, проекта, серьезных обязательств или какой-либо другой программы (как это обычно и бывает), то следует сравнить риск и доходность с инвестиционной границей данной организации.
• Выбор способов отслеживания показателей. Нередко бывают такие переменные, рассчитывать которые вначале кажется нецелесообразным, поскольку ценность информации о них становится очевидной лишь впоследствии. Зачастую это величины, характеризующие ход выполнения проекта и внешние условия функционирования компании, например состояние всей экономики. Такие переменные необходимо отслеживать постоянно, так как их изменение может потребовать принятия корректирующих мер. В связи с этим следует ввести процедуры постоянного расчета подобных показателей.
• Оптимизация решения. Принимаемое на практике решение редко оказывается итогом простого процесса одобрения по типу «да — нет». А когда это так, существуют многочисленные способы улучшить уже принятое решение. Теперь, с детально разработанной моделью «риск/доходность», можно разработать стратегии уменьшения риска или попытаться повысить доходность инвестиций, проведя анализ по методу «что, если».
• Заключительный отчет и презентация. Заключительный отчет должен содержать описание модели принятия решения, результатов анализа стоимости информации, использованных методов измерения, положения на инвестиционной границе, а также всех показателей, требующих постоянного отслеживания, или методов оптимизации принятого решения.
Описанный процесс выглядит довольно сложным, но на самом деле это лишь резюме всего, о чем мы говорили в этой книге до сих пор. Рассмотрим теперь несколько примеров практического применения AIE для измерения в тех областях, которые многим участникам моего исследования казались совершенно неизмеряемыми.
Пример из практики: стоимость системы, следящей за качеством питьевой воды
В Агентстве по защите окружающей среды (ЕРА) функционирует информационная служба по безопасности питьевой воды (Safe Drinking Waters Information System, SDWIS) — главная система наблюдения за качеством питьевой воды в Соединенных Штатах, обеспечивающая быстрое реагирование на появление любых угроз здоровью населения. Когда отвечавшему за программу SDWIS руководителю филиала Джеффу Брайану потребовалось больше средств, перед ним встала задача подготовить убедительное обоснование проекта. Однако его беспокоило то, что все преимущества SDWIS были, в конечном счете, связаны с областью здоровья населения и он не знал, как их оценить экономически.
Заместитель руководителя информационной службы и главный специалист по технологии отдела экологической информации Марк Дей предложил Брайану рассчитать этот показатель методом прикладной информационной экономики. Дей, ставший инициатором большинства AIE-проектов в ЕРА, даже сказал, что его подразделение возьмет на себя часть расходов.
На нулевом этапе, фазе планирования, мы отобрали 12 человек, хорошо знакомых со SDWIS и понимавших ее значение. Мы наметили провести в течение трех недель пять заседаний рабочей группы продолжительностью в половину рабочего дня. Главным человеком в команде, способным привлечь других экспертов и решать возникающие вопросы, был признан Джефф Брайан.
На первом же заседании рабочей группы (посвященном определению стоявшей перед нами задачи) стало очевидно, что на самом деле, вопреки моим ожиданиям, речь идет вовсе не об анализе SDWIS целиком. Ведь эта система существовала уже несколько лет, и никто всерьез не собирался отказываться от нее или менять на другую. Необходимо было просто определить целесообразность трех направлений ее усовершенствования: модернизации системы обнаружения нарушений, обеспечения возможности доступа к информации разных штатов через Интернет и адаптации базы данных к современным требованиям. Три перечисленные программы требовали первоначальных вложений примерно 1, 2 и 0,5 млн дол. соответственно плюс текущие расходы. Мы должны были ответить на вопрос, целесообразны ли экономически данные улучшения, и, если это так, выбрать из них приоритетное.
Таким образом, электронная таблица должна была отразить три разных проекта предполагаемой модернизации SDWIS, каждый из которых имел свои преимущества. Наибольшие трудности вызывало сравнение затрат на реализацию проекта с ожидаемой пользой для здоровья населения. Служба управления и бюджета уже потребовала, чтобы ЕРА готовило экономические обоснования всех разрабатываемых им экологических правил. ЕРА приходилось рассчитывать издержки соблюдения предлагаемых норм и правил, а также выгоды для населения от введения каждого нового правила. Авторы нескольких исследований сумели оценить экономические последствия различных наиболее распространенных видов загрязнения питьевой воды. Зачастую в ЕРА использовали метод готовности платить за сохранение благоприятной экологической обстановки, но иногда рассчитывали убытки от загрязнения воды только по числу дней временной потери трудоспособности. Следующие два заседания рабочей группы были посвящены выяснению того, как SDWIS должна способствовать общественному здравоохранению. В результате нам удалось построить модель в виде электронной таблицы, координировавшую направления совершенствования SDWIS с оценкой стоимости выгод для здоровья населения. В модели, структура которой представлена на рисунке 14.2, было использовано 99 переменных.
На этой схеме каждый блок символизирует несколько переменных табличной модели. Например, для доступа штатов через Интернет мы оценивали временные затраты на разные виды деятельности, насколько сократятся эти затраты, а также насколько быстрее благодаря этому будут устраняться нарушения правил по безопасности питьевой воды.
На последних двух заседаниях рабочей группы этапа 1 мы провели тренинг по калибровке для экспертов и попросили их дать первоначальные оценки каждой переменной в модели. Результаты тренинга показали, что эксперты были хорошо калиброваны (то есть 90 % ответов оказались в пределах указанных 90-процентных CI). Каждая величина, введенная в модель, имела свой уровень неопределенности, иногда выражаемый довольно широким интервалом. Например, одной из ожидаемых выгод был рост процента нарушений, отражаемых в отчетности (дело в том, что обычно не все случаи загрязнения воды попадают в официальные отчеты). Неопределенность, связанная с этим ростом, была весьма высока, поэтому эксперты указали 90-процентный доверительный интервал 5–55 %.
Программа рассчитала доходность инвестиций для каждого из трех направлений модернизации SDWIS. На этом этапе мы уже имели детализированную модель, отражавшую исходное состояние неопределенности, оцененное экспертами.
На этапе 2 мы провели анализ стоимости информации. Хотя интервалы значений всех переменных оказались достаточно широкими, выяснилось, что измерения заслуживает лишь одна из них — среднее улучшение здоровья населения в результате введения новых норм безопасности питьевой воды. Система SDWIS предназначалась главным образом для того, чтобы следить за загрязнениями тщательнее и принимать корректирующие меры быстрее и эффективнее. Верхняя граница стоимости возможного улучшения здоровья населения в результате введения одного правила составляла 1 млрд дол. в год, но существовала вероятность и того, что она окажется меньше издержек соблюдения новой нормы. Иными словами, экономические преимущества от этих требований были настолько неопределенными, что имелась вероятность отрицательного конечного результата всех предпринятых усилий.