Главная
Диксит Авинаш
Стратегические игры. Доступный учебник по теории игр
Читать онлайн бесплатно

Стратегические игры. Доступный учебник по теории игр Диксит Авинаш

S3. В классическом фильме «Мэри Поппинс» дети четы Бэнкс ведут стратегическую игру с разными нянями. По мнению детей, все няни слишком суровы и подшучивать над ними — это очень весело. То есть, с точки зрения детей, они ведут игру, в которой няня ходит первой, показав себя как строгую или мягкую, а затем дети делают второй ход, выбирая либо хорошее, либо плохое поведение. Няня предпочитает присматривать за хорошими детьми, но по своей природе она сурова, поэтому максимальный выигрыш 4 ей обеспечивает сочетание стратегий «строгость» / «хорошее поведение», а минимальный — «мягкость» / «плохое поведение»; сочетание стратегий «мягкость» / «хорошее поведение» обеспечивает ей выигрыш 3, а «строгость» / «плохое поведение» — выигрыш 2. Дети, естественно, предпочли бы добрую няню и возможность озорничать; они получат самые высокие выигрыши, если няня применит стратегию «мягкость» (выигрыш 4 при выборе стратегии «плохое поведение» и 3 — «хорошее поведение»), и самые низкие, если няня предпочтет стратегию «строгость» (2 при выборе стратегии «плохое поведение» и 1 — «хорошее поведение»).

a) Постройте дерево этой игры и найдите совершенное равновесие подыгры при отсутствии стратегических ходов.

b) В фильме перед прибытием Мэри Поппинс дети пишут собственное объявление в газету о поисках няни, в котором заявляют: «Если вы не будете нас ругать и притеснять, мы не дадим вам повода нас ненавидеть; мы не будем прятать ваши очки, класть лягушек вам в постель или перец в чай». Используйте дерево игры из пункта а, для того чтобы доказать, что это объявление содержит обещание. Каким был бы исход игры, если бы дети его выполнили?

c) В чем состоит подразумеваемая угроза, которая содержится в обещании в пункте b? Подтверждается ли ее достоверность автоматически? Обоснуйте свой ответ.

d) Как дети могут обеспечить достоверность угрозы из пункта b?

e) Обещание из пункта b сдерживающее или принуждающее? Обоснуйте свой ответ, сославшись на статус-кво в этой игре, а именно что произошло бы при отсутствии данного стратегического хода.

S4. Ниже представлена интерпретация борьбы между Соединенными Штатами Америки и Советским Союзом за геополитическое влияние в 1970-х и 1980-х годах[157]. Каждая сторона располагает двумя возможными стратегиями: «агрессивная политика» и «сдержанная политика». Советский Союз стремится достичь мирового господства, поэтому «агрессивная политика» — его доминирующая стратегия. Соединенные Штаты хотят Советскому Союзу в этом помешать, поэтому будут отвечать на агрессию агрессией, а на сдержанность — сдержанностью. Таблица выигрышей в этой игре выглядит так:

В случае каждого игрока 4 — это максимальный, а 1 — минимальный выигрыш.

a) Проанализируйте эту игру в ситуации, когда обе страны ходят одновременно. Найдите в ней равновесие Нэша.

b) Далее проанализируйте три разных альтернативных способа ведения игры с последовательным выполнением ходов: 1) Соединенные Штаты ходят первыми, Советский Союз вторым; 2) Советский Союз ходит первым, США вторыми; 3) Советский Союз ходит первым, США вторыми, но у СССР есть дальнейший ход, который может изменить первый ход. Для каждого варианта постройте дерево игры и найдите совершенное равновесие подыгры.

c) Какие ключевые стратегические вопросы (обязательство, достоверность и т. д.) стоят перед двумя странами?

S5. Проанализируйте представленные ниже игры. В каждом случае выполните следующие задания: 1) определите, какой игрок может извлечь выгоду из выполнения стратегического хода; 2) установите характер стратегического хода, подходящего для достижения данной цели; 3) опишите концептуальные и практические трудности, которые могут возникнуть в процессе обеспечения достоверности этого стратегического хода; 4) объясните, преодолимы ли они и если да, то как.

a) Другие страны Европейского валютного союза (Франция, Германия и т. д.) хотели бы, чтобы Великобритания также присоединилась к единой валютной зоне и подчинялась правилам единого центрального банка.

b) Соединенные Штаты хотели бы, чтобы Северная Корея прекратила экспортировать ракеты и ракетные технологии в Иран и чтобы Китай присоединился к работе над достижением этой цели.

c) Профсоюз рабочих автомобильной промышленности США хотел бы, чтобы правительство США ограничило импорт автомобилей.

Упражнения без решений

U1. В одном из эпизодов фильма Manhattan Murder Mystery («Загадочное убийство в Манхэттене») герои Вуди Аллена и Дайан Китон находятся на хоккейном матче в Madison Square Garden. Героиня явно чувствует себя не в своей тарелке, но спутник говорит ей: «Не забывай о нашей сделке. Ты остаешься со мной до окончания матча, а на следующей неделе я иду с тобой в оперу и пробуду там до конца». Позже мы видим, как они выходят из театра Metropolitan Opera на безлюдную площадь Линкольн-центра, тогда как в театре все еще играет музыка. Героиня Китон расстроена: «Как же насчет сделки? Я посмотрела с тобой весь хоккейный матч, а ты обещал до конца оставаться в опере». Герой Аллена отвечает: «Видишь ли, я не могу долго слушать Вагнера. В конце первого акта я уже почувствовал желание захватить Польшу». На основании знаний теории стратегических ходов и обеспечения их достоверности прокомментируйте стратегический выбор, сделанный участниками этой игры.

U2. Рассмотрим игру между одним из родителей и ребенком. Ребенок может вести себя хорошо (Х) или плохо (П); родитель может наказать ребенка (Н) или воздержаться от наказания (В). Ребенок получает от плохого поведения удовольствие, имеющее для него ценность 1, но наказание наносит ему эмоциональную травму, ценность которой 2. Таким образом, если ребенок ведет себя хорошо и его не наказывают, он выигрывает 0, а если плохо и его наказывают, то 1 2 = 1 и т. д. Родитель получает выигрыш 2 от плохого поведения ребенка и 1, когда наказывает ребенка.

a) Сформулируйте эту игру как игру с одновременными ходами и найдите равновесие Нэша.

b) Предположим, сначала ребенок выбирает стратегию «хорошее поведение» или «плохое поведение», после чего родитель, исходя из выбора ребенка, применяет стратегию «наказать» или «воздержаться от наказания». Нарисуйте дерево игры и найдите совершенное равновесие подыгры.

c) Теперь допустим, что прежде чем ребенок начнет действовать, родитель берет на себя обязательство совершить определенный ход — например, применяет угрозу «Н, если П» («Если будешь вести себя плохо, я тебя накажу»). Сколько таких стратегий есть у родителя? Составьте таблицу этой игры. Найдите все равновесия Нэша в чистых стратегиях.

d) Чем отличаются ваши ответы в пунктах b и c? Объясните причину такого различия.

U3. Профессор Уильям Шаррон из Сент-Луисского университета описал общую стратегическую игру, представленную в труде Фукидида о Пелопоннесской войне, в терминах теории игр[158]. Афины создали большую империю, в которую вошли города на побережье Эгейского моря, воспользовавшись своей ролью лидера по защите греческих государств от персидских завоевателей. Спарта, опасаясь афинского влияния, замыслила войну против Афин. Но если бы Спарта решила ее не начинать, Афинам пришлось бы решать, сохранять свою власть в империи или отказаться от нее. К тому же Афины опасались, что, получив независимость, города могут присоединиться к Спарте и образовать более мощный союз против Афин, за что Спарта предоставила бы им весьма выгодные условия. Таким образом, в игре есть три игрока — Спарта, Афины и малые города; игроки делают ходы именно в таком порядке. В этой игре существует четыре исхода с выигрышами, представленными в следующей таблице (4 — самый высокий выигрыш):

a) Нарисуйте дерево игры и найдите равновесие обратных рассуждений. Есть ли в этой игре исход, более благоприятный для всех игроков?

b) Какой стратегический ход или ходы могли бы обеспечить более благоприятный исход? Проанализируйте достоверность таких ходов.

U4. Конфигурацию выигрышей в игре из упражнения S3 можно изменить так, чтобы сказанное в объявлении детей представляло собой угрозу, а не обещание.

a) Нарисуйте новое дерево игры из пункта а упражнения S3 и запишите выигрыши обоих игроков таким образом, чтобы объявление детей стало угрозой в сугубо формальном смысле.

b) Найдите в игре статус-кво, а также определите, будет ли угроза сдерживающей или принуждающей.

c) Объясните, почему достоверность этой угрозы не подтверждается автоматически, с учетом вашей структуры выигрышей.

d) Объясните, почему достоверность подразумеваемого обещания подтверждается автоматически.

e) Объясните, почему дети больше всего хотели бы выдвинуть угрозу, и предложите способ, позволяющий сделать ее достоверной.

U5. Ответьте на вопросы, сформулированные в упражнении S5, в контексте следующих ситуаций.

a) Студенты вашего университета или колледжа хотят помешать администрации повысить плату за обучение.

b) Большинство участников конфликтов, так же как и другие страны, хотят добиться прочного мира в Афганистане, Ираке, Израиле и Палестине.

c) Почти все страны мира хотят, чтобы Иран закрыл свою ядерную программу.

U6. Составьте краткое описание игры с вашим участием, в которой были сделаны такие стратегические ходы, как обязательство, угроза или обещание; уделите особое внимание важному аспекту этих ходов, а именно достоверности. По возможности проиллюстрируйте игру и объясните, почему она закончилась именно так, а не иначе. Опирались ли игроки на глубокое стратегическое мышление при принятии решений?

Глава 10. Дилемма заключенных и повторяющиеся игры

* * *

В этой главе мы продолжим изучать широкий класс игр и остановимся на концепции «дилемма заключенных». Пожалуй, это классический пример теории стратегии и ее последствий для прогнозирования поведения участников игры, и большинство людей, изучающих теорию игр, с ним знакомы. Даже те, кто не имеет никаких знаний в данной области, наверняка наслышан об этой концепции или как минимум о ее существовании. Дилемма заключенных — это игра, в которой у каждого игрока есть доминирующая стратегия, но равновесие, возникающее в результате применения всеми игроками своих доминирующих стратегий, обеспечивает каждому из них худший исход, чем при использовании доминируемых стратегий. Парадоксальность этого равновесия поднимает ряд более сложных вопросов о характере взаимодействия участников игры, ответить на которые можно только посредством тщательного анализа. Цель данной главы — предоставить вам дополнительные инструменты такого анализа.

В разделе 3 главы 4 мы уже сталкивались с дилеммой заключенных. Там же мы обратили внимание на любопытную природу равновесия, которое на самом деле «плохой» исход для игроков. «Заключенные» могут найти другой исход, более предпочтительный равновесному, но у них возникают трудности с выполнением этой задачи. В данной главе мы рассмотрим вероятность достижения такого исхода. Иными словами, проанализируем, могут ли (и каким образом) участники игры «дилемма заключенных» достичь и сохранить взаимовыгодный кооперативный исход, преодолев свою естественную заинтересованность в отказе от сотрудничества ради личной выгоды. Сначала разберем стандартную игру «дилемма заключенных», а затем сформулируем три категории решений. Первый и самый важный метод решения таких игр сводится к повторению стандартной однократной игры. Именно за разработку общей теории повторяющихся игр Роберт Ауманн (вместе с Томасом Шеллингом) в 2005 году получил Нобелевскую премию по экономике. Как обычно, на вводном этапе мы приведем несколько простых примеров этой общей теории, а затем проанализируем еще две категории возможных решений, в основе которых лежат схемы взыскания (или вознаграждения) и роль лидерства.

Глава заканчивается обзором некоторых экспериментальных данных, касающихся дилеммы заключенных, а также описанием примеров реальных дилемм в действии. Как правило, в ходе таких экспериментов игроки участвуют в различных вариантах дилеммы заключенных, при этом демонстрируют порой озадачивающее, а порой более предсказуемое поведение. Эксперименты, проведенные с использованием компьютерного моделирования, дали аналогичные результаты. Примеры реальных дилемм заключенных приведены для того, чтобы вы получили представление о разнообразии ситуаций, в которых они возникают, и увидели, что по крайней мере в одном случае игроки могут отыскать собственное решение такой дилеммы.

1. Исходная игра (обзор)

Прежде чем приступить к анализу методов, позволяющих избежать неблагоприятного исхода в дилемме заключенных, ознакомимся с кратким описанием основ этой игры, вспомнив пример из главы 4 о супругах, которых подозревают в убийстве. Мужа и жену допрашивают отдельно, при этом каждый из них может либо признаться в совершении преступления, либо полностью отрицать свою причастность к нему. Таблица выигрышей, которые они при этом получат, представлена на рис. 4.4 и воспроизведена на рис. 10.1. Выигрыши исчисляются в годах тюремного заключения; следовательно, низкие значения более выгодны обоим игрокам.

Рис. 10.1. Таблица выигрыше в стандартной игре «дилемма заключенных»

В этой игре у обоих игроков есть доминирующая стратегия. Каждому из них выгоднее сознаться независимо от того, что сделает другой. В случае равновесного исхода оба игрока принимают решение признать свою вину и каждый получает 10 лет тюрьмы. Однако если бы оба решили все отрицать, это бы обеспечило им более благоприятный исход — всего по 3 года тюремного заключения.

В любой игре «дилемма заключенных» обязательно есть стратегия сотрудничества и стратегия обмана, или стратегия отказа от сотрудничества. На рис. 10.1 «отрицать вину» — это стратегия сотрудничества; ее использование обоими игроками обеспечивает им самый благоприятный исход. «Признать вину» — стратегия обмана, или отказа от сотрудничества; игроки обычно применяют ее в надежде на получение личной выгоды за счет соперника. Таким образом, участников игры «дилемма заключенных» можно обозначить в соответствии с их выбором стратегии либо как игроков, которые отказываются от сотрудничества, либо как игроков, которые идут на сотрудничество. Мы будем использовать эту классификацию при анализе возможных решений дилеммы заключенных.

Обратите внимание, что хотя мы говорим о стратегии сотрудничества, дилемма заключенных относится к числу некооперативных игр в том смысле, о котором шла речь в главе 2, а именно — игроки принимают решения и реализуют их отдельно друг от друга. Если бы два игрока могли обсуждать, выбирать и применять свои стратегии (например, если бы они находились в одном помещении и совместно решали, как им лучше поступить), у них не возникло бы проблем с получением исхода, предпочтительного для обоих. По сути, вопросы о том, когда и как может быть решена дилемма заключенных, сводятся к преодолению проблемы достижения кооперативного (предпочтительного для обоих игроков) исхода посредством некооперативных (индивидуальных) действий.

2. Категория решений I: повторение

Наиболее известный и естественный механизм, позволяющий поддерживать сотрудничество в дилемме заключенных, — это повторяющаяся игра. Повторяющееся или постоянное взаимодействие между игроками подразумевает наличие особых характеристик игр, которые они ведут друг с другом. В дилемме заключенных это проявляется в опасении каждого игрока по поводу того, что один случай отказа от сотрудничества приведет к его прекращению в будущем. Если ценность будущего сотрудничества достаточно велика и превышает выгоду, получаемую от отказа от него в краткосрочной перспективе, то долгосрочные личные интересы игроков могут автоматически удержать их от обмана без какой-либо необходимости в дополнительных мерах наказания или давления со стороны третьих лиц.

Проанализируем дилемму заключенных в контексте представленной в главе 5 игры в ценообразование в двух ресторанах — Xavier’s Tapas и Yvonne’s Bistro. Для пущего эффекта мы решили ее упростить, оставив только два варианта цен: наилучшую цену (основанную на сговоре) для обоих ресторанов 26 долларов и цену 20 долларов в случае равновесия Нэша. Выигрыши (прибыль, выраженная в сотнях долларов в месяц; показаны на рис. 10.2) можно вычислить с помощью функций количества (спроса), приведенных в разделе 1.А главы 5. Как и в любой дилемме заключенных, у каждого ресторана есть доминирующая стратегия — обмануть конкурента и назначить меньшую цену 20 долларов, хотя оба ресторана предпочли бы исход, предполагающий сотрудничество и более высокую цену в размере 26 долларов за блюдо.

Рис. 10.2. Дилемма заключенных в контексте игры в ценообразование (в сотнях долларов в месяц)

Для начала предположим, что два ресторана сотрудничают друг с другом, установив более высокую цену 26 долларов. Если один из них (скажем, Xavier’s) отклонится от данной стратегии ценообразования, он увеличит месячную прибыль с 324 до 360 (с 32 400 до 36 000 долларов). Однако это означает обман, поэтому у ресторана Yvonne’s (конкурент Xavier’s) не будет причин для дальнейшего сотрудничества. Как только договоренности будут нарушены, прибыль Xavier’s составит 288 (28 800 долларов) в месяц, а не 324 (32 400 долларов), которые он мог бы иметь, если бы держал слово. Получив за один месяц на 36 (3600 долларов) больше благодаря обману, ресторан Xavier’s с этого момента начинает терять по 36 (3600 долларов) ежемесячно, разрушив сотрудничество с конкурентом. Даже если эти рестораны поддерживают отношения всего на протяжении трех месяцев, обман все равно не отвечает интересам Xavier’s. Аналогичные аргументы актуальны и для ресторана Yvonne’s. Таким образом, если бы они конкурировали друг с другом хотя бы три месяца, по всей вероятности, мы наблюдали бы их согласованные действия и высокие цены, а не обман и низкие цены, что прогнозирует теория в случае однократной игры.

А. Конечное повторение

На самом деле решение данной дилеммы не такое простое, как кажется. Что если взаимодействие между игроками длится ровно три месяца? Тогда стратегически мыслящие владельцы ресторанов захотят проанализировать полную трехмесячную игру и выбрать оптимальную стратегию ценообразования. С помощью анализа методом обратных рассуждений каждый из них определит, какую цену следует назначать в каждом месяце. Начав анализ с третьего месяца, они бы поняли, что на этом этапе нет будущего взаимодействия, требующего рассмотрения. И каждый ресторан пришел бы к выводу, что его доминирующая стратегия — «отказ от сотрудничества». Исходя из этого, в течение второго месяца фактически также отсутствует взаимодействие, требующее анализа, а значит, и здесь в качестве доминирующей выступает стратегия «отказ от сотрудничества». Та же аргументация применима и к первому месяцу. Поскольку оба ресторана выбирают стратегию «отказ от сотрудничества» во втором и третьем месяце, сотрудничество теряет для них ценность и в первый месяц. Иными словами, оба игрока изначально выбирают стратегию «отказ от сотрудничества», а это означает, что дилемма по-прежнему не решена.

Этот результат носит общий характер. Если отношения между участниками игры «дилемма заключенных» длятся фиксированный и известный промежуток времени, равновесие в доминирующих стратегиях «отказ от сотрудничества» должно преобладать на последнем этапе игры. Когда игроки приближаются к ее концу, взаимодействие теряет для них ценность, поэтому они и отказываются от него. Тогда анализ методом обратных рассуждений предсказывает такой отказ на протяжении всего пути игры, вплоть до ее начала. Тем не менее на практике участники конечно повторяющихся игр категории «дилемма заключенных» демонстрируют склонность к сотрудничеству, но мы поговорим об этом более подробно чуть позже.

Б. Бесконечное повторение

Анализ конечно повторяющейся дилеммы заключенных показывает, что даже повторение игры не может гарантировать игрокам решения их дилеммы. Но что произойдет, если взаимодействие между участниками игры не будет иметь заранее оговоренной продолжительности? Что если рестораны планируют конкурировать друг с другом в течение неопределенного времени? Тогда наш анализ должен учитывать этот новый аспект их взаимодействия и мы увидим, что стимулы игроков также изменятся.

В повторяющихся играх любого типа последовательный характер отношений между игроками означает, что они могут выбирать стратегии в зависимости от поведения в предыдущих раундах игры. Такие стратегии известны как условные стратегии, а ряд их конкретных примеров часто используется в теории повторяющихся игр. Большинство условных стратегий относятся к категории триггерных стратегий. Игрок, применяющий триггерную стратегию, поддерживает сотрудничество до тех пор, пока соперник (соперники) тоже это делает, но любой обман со стороны последнего «запускает» период наказания определенной продолжительности, на протяжении которого этот игрок отказывается от сотрудничества в ответ. Две наиболее известные триггерные стратегии — это стратегия бесповоротного наказания и стратегия равноценных ответных действий. Первая подразумевает взаимодействие с соперником вплоть до его отказа от него; как только соперник хотя бы раз выберет «отказ от сотрудничества», вы наказываете его, применяя стратегию «отказ от сотрудничества» в каждом очередном раунде игры до ее завершения[159]. Вторая, или стратегия «око за око», — не столь безжалостна и известна (или печально известна) своей способностью решать дилемму заключенных без необходимости применения бессрочного наказания. Стратегия «око за око» сводится к следующему: игрок выбирает сотрудничество в первом раунде игры, а затем в каждом очередном раунде выбирает действия, выбранные соперником в предыдущем раунде. Таким образом, в случае применения стратегии равноценных ответных действий вы взаимодействуете с соперником, если он тоже выбрал сотрудничество в предыдущем раунде игры, и отказываетесь от него (в качестве наказания), если соперник отказался. Вы вернетесь к сотрудничеству после того, как ваш соперник выберет его в предыдущем раунде игры.

Давайте посмотрим, как бы протекала повторяющаяся игра в ценообразование в ресторанах, если бы один из игроков использовал условную стратегию равноценных ответных действий. Мы уже видели, что если ресторан Xavier’s Tapas откажется от сотрудничества на протяжении одного месяца, это может увеличить его прибыль на 36 (то есть он получит выигрыш 360 вместо 324). Но если конкурент выберет стратегию «око за око», такой отказ приведет к тому, что в следующем месяце ресторан Yvonne’s Bistro накажет Xavier’s Tapas в качестве ответной меры. При этом у Xavier’s есть два варианта выбора. Первый — отказаться от сотрудничества, назначив цену 20 долларов, и подвергнуться наказанию со стороны ресторана Yvonne’s согласно стратегии «око за око»; в этом случае ресторан Xavier’s будет терять 36 (то есть его выигрыш составит 288 вместо 324) ежемесячно в обозримом будущем. Такой сценарий развития событий кажется весьма затратным. Но Xavier’s Tapas мог бы при желании восстановить сотрудничество. Вернувшись к кооперативной цене 26 долларов через месяц, ресторан Xavier’s подвергся бы наказанию со стороны ресторана Yvonne’s всего в течение одного месяца и понес бы за это время убытки в размере 108 (выигрыш 216 вместо 324, если бы не отказывался от сотрудничества). А на следующий месяц оба ресторана вернулись бы к кооперативной цене, которая приносила бы им ежемесячную прибыль 324. Такой одноразовый отказ от сотрудничества обеспечивает дополнительную прибыль в размере 36, но влечет за собой дополнительный убыток 108 на протяжении периода наказания. Очевидно, что это также весьма затратный вариант для ресторана Xavier’s Tapas.

Однако здесь важно понимать, что вследствие отказа от сотрудничества ресторан Xavier’s получает дополнительных 36 долларов на протяжении первого месяца, тогда как его убытки переносятся на будущее. Следовательно, относительная важность прибыли и убытков зависит от относительной важности настоящего по отношению к будущему. Поскольку в данном примере выигрыши исчисляются в долларах, можно выполнить объективное сравнение. Как правило, деньги (или прибыль), заработанные сегодня, лучше денег, заработанных завтра, потому что, если они вам какое-то время не понадобятся или у вас не будет желания их тратить, вы можете инвестировать их сейчас и получать на них доход до тех пор, пока они вам не понадобятся. В связи с этим Xavier’s Tapas должен определить, стоит ли отказываться от сотрудничества с конкурентом, воспользовавшись общей рентабельностью этой инвестиции (рассчитанной с учетом дохода от прироста капитала и (или) дивидендов и (или) процентов, в зависимости от типа инвестирования). Обозначим данный показатель доходности инвестиций символом r. Таким образом, один инвестированный доллар приносит r долларов в виде процентов и (или) дивидендов и (или) дохода от прироста капитала, или 100 долларов приносят 100r; поэтому иногда говорят, что норма прибыли составляет 100r процентов.

Обратите внимание, что мы можем определить, заинтересован ли ресторан Xavier’s в отказе от сотрудничества, благодаря тому, что его выигрыши выражены в денежных единицах, а не в обычных показателях степени важности исходов, как в некоторых играх, представленных в предыдущих главах книги (например, в главах 3–6). Это означает, что значения выигрышей в разных ячейках непосредственно сопоставимы: в данном примере выигрыш 4 (доллара) в два раза лучше выигрыша 2 (доллара), тогда как выигрыш 4 не всегда ровно в два раза лучше выигрыша 2 в любой игре два на два, в которой четыре возможных исхода имеют рейтинг от 1 (самый плохой исход) до 4 (самый лучший исход). Выигрыши участников игры, исчисляемые в единицах, поддающихся количественной оценке, позволяют определить, выбирать ли стратегию отказа от сотрудничества в дилемме заключенных.

I. Стоит ли один раз отказываться от сотрудничества в игре против соперника, выбирающего стратегию равноценных ответных действий? Один из вариантов выбора, имеющихся в распоряжении ресторана Xavier’s в повторяющейся игре против конкурента, использующего стратегию «око за око», — всего раз отказаться от кооперативного исхода, а затем вернуться к сотрудничеству. Это принесет ресторану прибыль 36 в первый месяц (при отказе от сотрудничества), но приведет к убыткам 108 во втором. На третий месяц сотрудничество возобновляется. Стоит ли отказываться от него всего на один месяц?

Мы не можем непосредственно сравнить прибыль 36 за первый месяц с убытком 108 за второй, поскольку в расчет необходимо включить дополнительную денежную стоимость времени. Иными словами, нам нужен способ, позволяющий определить, какую стоимость на протяжении первого месяца имеют 108 долларов убытка за второй месяц. Тогда мы сможем сопоставить полученное число с прибылью 36, чтобы решить, стоит ли отказываться от сотрудничества на один месяц. Величина, которую мы ищем, — это приведенная стоимость 108, или сумма прибыли, заработанной в текущем месяце (в настоящем), эквивалентная (имеющая такую же стоимость) 108, заработанным в следующем месяце. То есть нам необходимо вычислить, какая сумма, заработанная в текущем месяце, вместе с процентами составила бы 108 в следующем месяце. Мы называем это число приведенной стоимостью 108 (present value, PV).

Учитывая, что общая норма прибыли (за месяц) равна r, получение PV в этом месяце и инвестирование этой суммы до следующего месяца дает PV + rPV, где первый член — это основная сумма, возвращаемая инвестору, а второй — доход (в виде процентов, дивидендов или прироста капитала). Если общая сумма 108, тогда значение PV равно текущей стоимости 108. Равенство PV + rPV = 108 позволяет вычислить значение PV

Теперь при любом значении r мы можем определить точную сумму в долларах, которая, будучи заработанной в текущем месяце, будет иметь стоимость 108 в следующем месяце.

С точки зрения Xavier’s Tapas, вопрос о том, компенсирует ли прибыль 36 за текущий месяц убыток 108 в следующем месяце, остается открытым. Ответ зависит от значения PV. Ресторан Xavier’s должен сравнить прибыль 36 с приведенной стоимостью убытка 108. Отказаться от сотрудничества с конкурентом один раз (а затем возобновить его) целесообразно только если 36 > 108/(1 + r). Это равносильно утверждению о том, что однократный отказ от сотрудничества приносит пользу лишь в случае, если 36(1 + r) > 108, что позволяет сократить это выражение до r > 2. Стало быть, ресторан Xavier’s должен выбирать стратегию однократного отказа от сотрудничества в игре против конкурента, применяющего стратегию «око за око», только если общая норма прибыли за месяц больше 200 %. Такой исход весьма маловероятен; например, учетная ставка редко превышает 12 %. Это означает, что месячная процентная ставка составляет менее 1 % (и капитализируется один раз в год, а не ежемесячно), а это существенно меньше вычисленных нами 200 %. Таким образом, ресторану Xavier’s лучше продолжать сотрудничество с конкурентом, чем пытаться один раз отказаться от него из-за выбора рестораном Yvonne’s стратегии «око за око».

II. Стоит ли полностью отказываться от сотрудничества в игре против соперника, выбирающего стратегию равноценных ответных действий? А как насчет того, чтобы отказаться от сотрудничества раз и в дальнейшем продолжать делать это всегда? Этот вариант выбора сперва обеспечит ресторану Xavier’s прибыль 36, а затем ежемесячно начнет приносить убыток 36, если конкурент применит стратегию «око за око». Для того чтобы определить, отвечает ли такая стратегия интересам ресторана Xavier’s, снова необходимо вычислить приведенную стоимость понесенных убытков. Однако на этот раз они будут понесены за бесконечный интервал предстоящих месяцев конкуренции.

Бессрочный отказ ресторана Xavier’s от сотрудничества в игре с конкурентом, использующим стратегию «око за око», обеспечивает последовательность выигрышей (прибыли), эквивалентную тому, что получил бы этот ресторан при отказе сотрудничать в игре против конкурента, применившего триггерную стратегию бесповоротного наказания. А она требует, чтобы игроки наказывали любой отказ от сотрудничества ответным отказом на протяжении всех будущих периодов. В таком случае ресторану Xavier’s не стоит даже пытаться возобновлять взаимодействие после первого отказа, поскольку с этого момента конкурент неизменно будет выбирать отказ от сотрудничества в качестве наказания. Любой отказ от сотрудничества со стороны ресторана Xavier’s в этом случае приведет к получению им прибыли 36 за первый месяц и последующей ежемесячной потере 36 — точно такой же исход, как и при бессрочном отказе от сотрудничества в игре против конкурента, использующего стратегию равноценных ответных действий. Следовательно, представленный ниже анализ также позволяет выяснить, целесообразно ли вообще применять стратегию отказа от сотрудничества в игре против соперника, использующего стратегию строгого наказания.

Для того чтобы это определить, необходимо вычислить приведенную стоимость всех убытков 36, понесенных в предстоящие месяцы, суммировать эти значения и сопоставить полученную сумму с прибылью 36 за первый месяц отказа от сотрудничества. Приведенная стоимость убытка 36, понесенного за первый месяц наказания и продолжающегося отказа ресторана Xavier’s сотрудничать, равна 36 / (1 + r); расчеты идентичны используемым в разделе 2Б.I для вычисления того, что приведенная стоимость 108 равна 108/(1 + r). В следующем месяце значение PV должно представлять собой такую сумму в долларах за текущий месяц, которая вместе со сложными процентами за два месяца составила бы 36 через два месяца. Если PV инвестировать сейчас, то через месяц инвестор получит эту основную сумму плюс прибыль rPV, то есть в сумме PV + rPV, как и ранее. Если оставить эту общую сумму инвестированной на второй месяц, к концу двух месяцев инвестор получит инвестированную сумму в начале второго месяца (PV + rPV) плюс прибыль на эту сумму в размере r(PV + rPV). Значение PV убытка 36, понесенного через два месяца начиная с текущего момента, должно удовлетворять уравнению PV + rPV + r(PV + rPV) = 36. Из этой формулы мы можем вывести значение PV: PV(1 + r)² = 36, или PV = 36/(1 + r)². По всей вероятности, вы уже увидели закономерность. Значение PV убытка 36, понесенного за третий месяц бессрочного отказа от сотрудничества, составляет 36/(1 + r)³, а за четвертый — 36/(1 + r)⁴. В действительности значение PV убытка 36, понесенного за энный месяц бессрочного отказа от сотрудничества, составляет 36/(1 + r)ⁿ. Ресторан Xavier’s несет бесконечную сумму убытков 36, причем приведенная стоимость каждого такого убытка с каждым месяцем уменьшается.

Точнее говоря, при значениях n от n = 1 до n = (где n — месяцы бессрочного отказа от сотрудничества начиная с первого месяца, то есть месяца с номером 0) ресторан Xavier’s терпит убытки 36/(1 + r)ⁿ. В математическом виде это можно записать как сумму бесконечного количества членов[160]

Поскольку r — это норма прибыли, которая должна быть положительным числом, множитель 1/(1 + r) будет меньше 1. Как правило, его называют коэффициентом дисконтирования и обозначают греческой буквой . Математическое правило вычисления бесконечных сумм при = 1/(1+r)<1 гласит, что эта сумма сводится к конкретному значению, в данном случае к 36/r.

Теперь мы можем определить, решит ли Xavier’s Tapas навсегда отказаться от сотрудничества с конкурентом. Ресторан сравнит прибыль 36 с приведенной стоимостью всех убытков 36, то есть 36/r, и в итоге навсегда откажется от сотрудничества, только если 36 > 36/r, или r > 1. Иными словами, в данной игре отказ от сотрудничества принесет выгоду тогда, когда месячная норма прибыли превысит 100 %, что маловероятно. Следовательно, не стоит ожидать от ресторана Xavier’s отказа от взаимодействия в игре с сотрудничающим конкурентом, если оба используют стратегию «око за око». (То же самое касается ситуации, в которой оба разыгрывают стратегию бесповоротного наказания.) Когда оба ресторана применяют стратегию «око за око», кооперативный исход, при котором они устанавливают высокую цену, — и есть равновесие Нэша в этой игре. Выбор обоими игроками стратегии равноценных ответных действий создает равновесие Нэша, а значит, использование этой условной стратегии решает дилемму заключенных в игре между ресторанами.

Не забывайте о том, что стратегия равноценных ответных действий — лишь одна из многочисленных триггерных стратегий, применяемых игроками в повторяющихся дилеммах заключенных. И она одна из самых «мягких». Таким образом, если стратегия «око за око» подходит для решения дилеммы заключенных в игре между двумя ресторанами, значит, и другие, более жесткие стратегии, могут выполнить эту задачу. Как уже говорилось, стратегию бесповоротного наказания также можно использовать для поддержания сотрудничества как в этой бесконечно повторяющейся игре, так и в других играх.

В. Игры с неизвестной продолжительностью

В дополнение к анализу игр с конечной и бесконечной продолжительностью хотим предложить более сложный инструмент для решения игр с неизвестной продолжительностью. В некоторых повторяющихся играх участники могут не знать наверняка, сколько именно между ними будет длиться взаимодействие, но иметь определенное представление о вероятности того, что игра продлится еще один период. Например, наши рестораны могут считать, что их повторяющееся сотрудничество будет продолжаться только до тех пор, пока клиенты будут отдавать предпочтение комплексным обедам, но если в течение каждого месяца появляется вероятность того, что клиенты начнут выбирать блюда по меню, характер игры изменится.

Напоминаем, что приведенная стоимость убытка за следующий месяц уже равна произведению = 1/(1 + r) на заработанную сумму. Если в дополнение к этому существует только вероятность p (меньше 1) того, что игроки будут сотрудничать и в следующем месяце, то убыток за следующий месяц составит всего лишь произведение p на Для ресторана Xavier’s Tapas это означает, что PV убытка 36, понесенного при условии бессрочного отказа от сотрудничества, равно 36 [то же, что и 36 / (1 + r)], когда предполагается, что игра точно прдолжится, и всего 36 p , когда игра продолжится с вероятностью p. Включение в расчеты вероятности того, что игра может закончиться в следующем периоде, означает, что приведенная стоимость убытка 36 меньше (поскольку p < 1), чем в случае, когда игра точно будет продолжаться (то есть когда p предположительно равно 1).

Благодаря включению в расчеты вероятности p мы теперь дисконтируем будущие выигрыши на коэффициент p , а не . Мы называем эту величину фактическим коэффициентом дисконтирования R, где 1/(1 + R) = p ; при этом между R и p и существует следующая зависимость[161]:

Если фактическая норма прибыли на инвестиции составляет 5 % (r = 0,05, а значит, = 1/1,05 = 0,95), а вероятность того, что игра продолжится в следующем месяце, равна 50 % (p = 0,5), тогда R = [1 — (0,5)(0,95)] / [(0,5)(0,95)] = 1,1, или 110 %.

В этих примерах высокая норма прибыли, необходимая для расторжения сотрудничества, покажется более реалистичной, если назвать ее эффективной, а не фактической нормой прибыли. Теперь становится понятно, что бессрочный или даже однократный отказ от сотрудничества действительно может принести игроку выгоду при наличии достаточно большой вероятности того, что игра закончится в ближайшем будущем. Рассмотрим в качестве примера решение ресторана Xavier’s по поводу того, стоит ли навсегда отказываться от сотрудничества с конкурентом, использующим стратегию «око за око». Предыдущие расчеты показали, что бессрочный отказ от сотрудничества выгоден только тогда, когда r больше 1, или 100 %. Если фактическая норма прибыли ресторана Xavier’s составит 5 %, а вероятность того, что игра продолжится в следующем месяце, равна 50 %, как мы предположили выше, то норма прибыли в размере 110 % превышает критическое значение, необходимое для продолжения отказа от сотрудничества. Таким образом, кооперативное поведение, поддерживаемое стратегией «око за око», может оказаться под вопросом, если имеется довольно большая вероятность того, что повторяющаяся игра может закончиться к концу следующего раунда, а именно к моменту получения достаточно малого значения p.

Г. Общая теория

Мы можем без труда обобщить идеи в отношении целесообразности отказа от сотрудничества с соперниками, использующими стратегию «око за око», с тем чтобы вы могли применять их в любой дилемме заключенных. Для этого мы используем таблицу (рис. 10.3) с общими выигрышами (выраженными в надлежащих единицах), которые соответствуют стандартной структуре выигрышей в дилемме заключенных. Эти выигрыши должны удовлетворять условию B > K > О > H, где К — кооперативный исход; О — отказ обоих игроков от сотрудничества; В — высокий выигрыш, получаемый игроком, отказавшимся от сотрудничества, в случае если другой игрок продолжает сотрудничать; и Н — низкий выигрыш, получаемый проигравшим (игрок, продолжающий сотрудничать) в той же ситуации.

В этой общей версии дилеммы заключенных разовая прибыль игрока, полученная за счет отказа от сотрудничества, составляет (B — K). Убыток за один период, понесенный в связи с наказанием, когда вы возобновляете сотрудничество, равен (K — H), а убыток за каждый очередной период в случае бессрочного отказа от сотрудничества составляет (K — О). Для того чтобы максимально обобщить расчеты, примем во внимание ситуации, в которых существует вероятность p < 1 того, что игра продолжится и после окончания следующего периода; таким образом мы дисконтируем выигрыши с помощью фактической нормы прибыли R за каждый период. Если p = 1 (как в случае гарантированного продолжения игры), то R = r, простая процентная ставка, используемая нами в предыдущих вычислениях. Заменив r на R, мы увидим, что полученные ранее результаты обобщаются буквально сразу же.

Мы уже пришли к выводу, что игрок отказывается от сотрудничества ровно один раз в игре против соперника, использующего стратегию равноценных ответных действий, если разовая прибыль (B — K), полученная в результате, превышает приведенную стоимость убытка за один период, понесенного в связи с наказанием (приведенная стоимость K — H). В общей игре это означает, что игрок один раз отказывается от сотрудничества с соперником, применяющим стратегию равноценных ответных действий, только когда (B — K) > (K — H) / (1 + R), или (1 + R)(B — K) > K — H, или

Аналогичным образом мы выявили, что игрок навсегда отказывается от сотрудничества с соперником, использующим стратегию «око за око», только если полученная в результате разовая прибыль превышает приведенную стоимость бесконечной суммы убытков за отдельные периоды, понесенных в связи с бессрочным отказом от сотрудничества (где убыток за период составляет K — О). В общей версии игры игрок навсегда отказывается от сотрудничества с соперником, использующим стратегию «око за око» или стратегию бесповоротного наказания, только если (B — K) > (K — О) / R или

Как следует из этих двух формул, существует три важных аспекта принятия игроком решения об отказе от сотрудничества: непосредственная прибыль от такого отказа (B — K); будущие убытки, понесенные в связи с наказанием (K — H или K — О за период наказания), и значение фактической нормы прибыли (R, которая отражает важность настоящего по сравнению с будущим). При каких условиях по этим трем значениям игроки заинтересованы в отказе от сотрудничества?

Во-первых, предположим, что значения прибыли и убытков, связанных с отказом от сотрудничества, фиксированы. От изменения значения R зависит, откажется ли игрок от сотрудничества, причем чем больше значение R, тем выше вероятность отказа. Большие значения R связаны с малыми значениями p и (а также более высокими значениями r), поэтому вероятность отказа сотрудничать повышается при наличии незначительной перспективы продолжения или низкого коэффициента дисконтирования (или высокой процентной ставки). Об этом можно еще сказать так: отказ от сотрудничества более вероятен, когда настоящее важнее будущего или когда будущего не так много, чтобы его можно было принимать в расчет. Иными словами, отказ от сотрудничества более вероятен, если игроки нетерпеливы или считают, что игра быстро закончится.

Во-вторых, проанализируем ситуацию, когда фактическая норма прибыли будет фиксированной, как в случае прибыли за один период, полученной за счет отказа от сотрудничества. В такой ситуации целесообразность отказа от сотрудничества зависит от изменения величины убытков за каждый период, понесенных в связи с наказанием. Здесь именно меньшие значения К — Н или К — Н стимулируют отказ от сотрудничества, то есть он более вероятен, когда наказание не слишком суровое[162].

И наконец, допустим, что фактическая норма прибыли и убытки за каждый период, понесенные в связи с наказанием, — постоянные величины. Теперь игроки, скорее всего, откажутся от сотрудничества при высоком значении прибыли B — K. Эта ситуация более вероятна, когда отказ от сотрудничества обеспечивает игроку явные преимущества в ближайшем будущем.

Данный анализ также подчеркивает важность обнаружения случаев прекращения взаимодействия. Принятие решений о его продолжении зависит от того, как долго такой отказ не будет обнаружен, насколько точно он будет выявлен и сколько может длиться наказание, прежде чем будет предпринята попытка возобновить сотрудничество. Наша модель не учитывает всех этих факторов в явной форме, но позволяет сделать следующий вывод: если отказ от сотрудничества поддается быстрому и точному обнаружению, его преимущества не будут иметь долгосрочного эффекта,но впоследствии придется понести определенные издержки. Таким образом, эффективность любой триггерной стратегии в решении повторяющейся дилеммы заключенных зависит от того, насколько филигранно (как в плане оперативности, так и точности) игроки смогут обнаружить отказ от сотрудничества. Это одна из причин, почему стратегию равноценных ответных действий часто считают опасной: малейшая ошибка в выполнении действий или в их восприятии способна повлечь за собой бесконечный цикл наказания, вырваться из которого не удастся до тех пор, пока не будет совершена хотя бы малейшая ошибка противоположного типа.

Вы можете использовать все эти идеи для того, чтобы определить, когда ожидать более тесного сотрудничества между соперниками, а когда отказа от него, а то и более жестких действий. Например, в плохие времена, когда целая отрасль оказывается на грани краха и компании чувствуют, что у них нет будущего, конкурентная борьба может существенно ожесточиться (реже может наблюдаться кооперативное поведение). Даже когда временно наступает хороший период, но никто не рассчитывает на его длительность, компании могут воспользоваться этим, чтобы заработать быструю прибыль, поэтому кооперативное поведение может снова игнорироваться. Точно так же в отрасли, сформировавшейся под влиянием моды, крах которой неминуем, когда мода изменится, проявляется меньше склонности к сотрудничеству. Так, конкретный морской курорт может стать любимым местом отдыха туристов, но все местные отели должны знать, что такая ситуация вряд ли продлится вечно, поэтому они не могут себе позволить сговор по поводу ценообразования. С другой стороны, когда меняется мода на продукты, выпускаемые неизменной группой компаний, поддерживающих долгосрочные отношения, партнерство сохраняется. Например, даже если всех детей будут интересовать плюшевые мишки в течение одного года и боты-спасатели из «Трансформеров» в течение следующего года, сговор относительно ценообразования может иметь место только в случае, если одна и та же небольшая группа производителей выпускает оба продукта.

В главе 11 мы более подробно проанализируем дилемму заключенных, возникающую в играх со многими участниками, и исследуем, когда и как игроки могут преодолеть эту дилемму и обеспечить более благоприятный для всех игроков исход.