Искусственный интеллект. Этапы. Угрозы. Стратегии Бостром Ник

Защититься от тотального наступления мальтузианских условий, скорее всего, поможет частная собственность. Рассмотрим простую модель, в которой некие кланы (или закрытые сообщества, или страны) начинают с различного количества собственности и независимо друг от друга принимают различные стратегические решения относительно рождаемости и инвестиций. Некоторые кланы не думают о будущем и растрачивают свое состояние, в результате чего их обедневшие члены вливаются в ряды мирового пролетариата (или умирают, если не в состоянии прокормить себя). Другие кланы инвестируют часть своих финансовых средств и принимают политику неограниченной рождаемости — в результате они становятся все более многолюдными, пока не складываются мальтузианские условия, при которых население беднеет настолько, что смертность почти совпадает с рождаемостью, и с этого момента рост населения сравнивается с ростом имеющихся в его распоряжении ресурсов. При этом другие кланы могут ограничить у себя рождаемость до уровня, не превышающего темпы роста своего капитала, такие кланы могли бы медленно увеличивать количество своих членов, притом что их доходы на душу населения также росли бы.

Если богатство перераспределяется от состоятельных кланов к быстро размножающимся и быстро растрачивающим свои ресурсы (чьи отпрыски, хотя и не по своей вине, появились в мире, где недостаточно капитала для выживания и процветания), тогда складываются классические мальтузианские условия. В предельном случае все члены всех кланов получают доход на уровне прожиточного минимума и все равны в своей бедности.

Если собственность не перераспределяется, у предусмотрительных кланов может сохраняться некоторая часть капитала, и их богатство способно расти в абсолютном выражении. Однако неясно, в состоянии ли люди обеспечить такую же доходность своего капитала, как машинный интеллект, поскольку может возникать синергия между трудом и капиталом: агент, имеющий и то и другое (например, предприниматель или инвестор, обладающий высоким интеллектом и большим состоянием), получит более высокий доход от своих вложений, чем в среднем по рынку получат агенты, обладающие сравнимыми финансовыми, но не интеллектуальными ресурсами. Поскольку люди будут уступать в интеллекте машинам, их капитал станет расти медленнее — если, конечно, не удастся окончательно решить проблему контроля, потому что тогда доходность человеческого капитала сравняется с доходностью машинного, ведь принципал-человек может поручить агенту-машине управлять своими сбережениями, причем делать это бесплатно и без конфликта интересов; но и в этом случае доля экономики, которой владеют машины, будет асимптотически приближаться к ста процентам.

Однако сценарий, в котором доля экономики, принадлежащей машинам, асимптотически приближается к ста процентам, не единственный вариант снижения человеческого влияния. Если экономика растет быстрыми темпами, тогда даже ее доля, уменьшающаяся относительно, может увеличиваться в абсолютном выражении. Это сравнительно неплохая новость для человечества: в многополярном сценарии с защищенными правами частной собственности общая величина богатства, принадлежащего людям, может расти даже в случае их неспособности решить проблему контроля. Конечно, данный эффект никак не устраняет возможность роста населения до такого уровня, на котором доход на душу упадет до прожиточного минимума, а также возможность обнищания людей, сбрасывающих будущее со счетов.

В долгосрочной перспективе в экономике начнут сильнее доминировать кланы с наиболее высокой нормой сбережений — скряги, владеющие половиной города и живущие под мостом. Наиболее процветающие из них станут проедать свои сбережения только том в случае, когда все возможности для инвестиций будут исчерпаны[412]. Однако если защита прав собственности окажется неидеальной — например, когда наиболее эффективные машины смогут всеми правдами и неправдами скопить у себя ресурсы, принадлежавшие людям, — тогда капиталистам-людям, возможно, придется тратить свое состояние гораздо быстрее, пока оно совсем не растает в результате действий машин (или вследствие расходов на защиту от них). Если все это будет происходить с цифровой, а не биологической, скоростью, то люди оглянуться не успеют, как уже окажутся лишенными собственности[413].

Жизнь в цифровом мире

В переходный период образ жизни человека, живущего при мальтузианских условиях, не обязательно будет походить на одну из знакомых нам моделей (скажем, на образ жизни охотника, собирателя, фермера или офисного работника). Скорее всего, большинство людей будут влачить жалкое существование наподобие бездельника-рантье, которому сбережений едва хватает на жизнь впроголодь[414]. Люди будут жить очень бедно, фактически на одни проценты или государственные пособия. Но при этом они будут жить в мире инновационных технологий — в мире не только сверхразумных машин, но и препаратов против старения и препаратов, доставляющих удовольствие; в мире виртуальной реальности и различных техник самосовершенствования. И вряд ли все это будет доступно большинству. Скорее всего, реальную медицину заменят лекарства для остановки роста и замедления метаболизма с целью экономии, поскольку для массы людей активная жизнь окажется невозможной (если учитывать постоянное снижение их и так минимальных доходов). По мере роста населения и снижения доходов люди могут регрессировать до состояния, минимально удовлетворяющего требованиям для выплаты пенсии, — возможно, это будет мозг с едва брезжущим сознанием, погруженный в контейнер и подключенный к снабжению кислородом и питательными жидкостями, который обслуживают машины и который способен накопить немного денег на воспроизводство путем клонирования себя специальным роботом-техником[415].

Еще большая бережливость будет обеспечиваться за счет моделирования мозга, поскольку физически оптимизированный вычислительный субстрат, созданный сверхразумом, может оказаться эффективнее, чем биологический мозг. Однако миграция в цифровую реальность будет замедляться тем, что имитационные модели не смогут считаться людьми или гражданами и соответственно не получат право на пенсию или на не облагаемый налогами сберегательный счет. В этом случае ниша для людей сохранится, наряду со все более крупной популяцией имитационных моделей и систем искусственного интеллекта.

Пока что все внимание было сосредоточено на судьбе наших потомков, чью жизнь могут поддерживать сбережения, пособия или заработная плата, получаемая за счет тех, кто нанимает работников-людей. Теперь переключим внимание на те сущности, которые мы до сих пор относили к капиталу: на машины, всегда принадлежавшие людям, — машины, сконструированные с целью выполнять те или иные функции и способные заменить человека в очень широком диапазоне задач. Каким будет положение этих рабочих лошадок новой экономики?

Обсуждать было бы нечего, если все эти машины остались бы автоматами, простыми устройствами вроде парового двигателя или часового механизма — такого добра в постпереходной экономике будет много, но, похоже, вряд ли кто-то заинтересуется этим бездушным набором комплектующих. Однако если у машин будет сознание — если они будут сконструированы так, что смогут осознавать свою исключительность (или им по иным причинам будет приписан моральный статус), — тогда важно включать их в мировую систему. Благополучие работников-машин окажется наиболее важным аспектом постпереходного периода, поскольку они будут доминировать количественно.

Добровольное рабство, случайная смерть

Первый напрашивающийся вопрос: работниками-машинами будут владеть как капиталом (рабами) или их станут нанимать за заработную плату? Однако при ближайшем рассмотрении возникают сомнения, что от ответа будет что-то зависеть. На то есть две причины. Во-первых, если свободный работник в мальтузианских условиях получает зарплату на уровне прожиточного минимума, в его распоряжении не остается средств после оплаты питания и других базовых потребностей. Если работник является рабом, то за его содержание платит хозяин, и все равно у раба не остается свободных средств. В обоих случаях работник получает лишь самое необходимое и ничего сверх того. Во-вторых, предположим, что свободный работник смог каким-то образом обеспечить себе доход выше прожиточного минимума (возможно, благодаря благоприятной системе регулирования). Как он потратит эту прибавку? Для инвесторов самым выгодным было бы создать виртуальных работников-«рабов», готовых трудиться за зарплату на уровне прожиточного минимума. Сделать это можно было бы, копируя тех работников, которые уже согласились на такие условия. Путем соответствующего отбора (и, возможно, некоторого изменения кода) инвесторы могли бы создать работников, которые не только предпочтут трудиться добровольно, но и решат пожертвовать своим работодателям все дополнительные доходы, если такие вдруг появятся. Однако после передачи денег работнику они по кругу вернутся к его владельцу или работодателю, даже если работник является свободным агентом, наделенным всеми юридическими правами.

Возможно, кто-то, возражая, заметит, насколько трудно создать машину, согласную добровольно выполнять любую работу или жертвующую свою зарплату своему же владельцу. Но у имитационных моделей должны быть особенно близкие людям мотивы. Обратите внимание, что если первоначальная проблема контроля, которую мы рассматривали в предыдущих главах, казалась трудновыполнимой, то сейчас мы говорим об условиях переходного периода — когда, видимо, методы выбора мотивации будут доведены до совершенства. Тем более если речь идет об имитационных моделях, то можно было бы добиться многого, просто отбирая нужные человеческие характеры. Наверное, проблема контроля будет в принципе упрощена, если предположить, что новый машинный интеллект включится в стабильную социоэкономическую матрицу, уже населенную другими законопослушными сверхразумными агентами.

Поэтому предлагаю остановиться на бедственном положении машин-работников, независимо от того, являются ли они рабами или свободными агентами. Вначале поговорим об эмуляторах, поскольку их представить легче всего.

Чтобы в мире появился новый работник-человек со своим профессиональным опытом и необходимыми навыками, потребуется от пятнадцати до тридцати лет. В течение всего этого времени человека нужно кормить, воспитывать, обучать, ему понадобится кров — все это большие расходы. Напротив, создать новую копию цифрового работника так же легко, как загрузить очередную программу в оперативную память. То есть жизнь становится дешевле. Компания может постоянно подстраивать свою рабочую силу под меняющиеся требования за счет создания новых копий — и уничтожения старых, чтобы освободить компьютерные ресурсы. Это может привести к чрезвычайно высокой смертности среди работников-машин. Жизнь многих из них будет ограничена одним субъективным днем.

Могут быть и другие причины помимо колебаний спроса, по которым работодатели или владельцы эмуляторов захотят часто убивать (отключать) своих работников[416]. Если для нормального функционирования эмулятору мозга, как и биологическому мозгу, требуются периоды отдыха и сна, может быть дешевле стирать изнуренную имитацию в конце дня и заменять ее записанным состоянием свежей и отдохнувшей имитации. Поскольку такая процедура приводила бы к ретроградной амнезии всего выученного за день, эмуляторы, занятые выполнением задач, которые требуют формирования длительных когнитивных цепочек, смогут избежать частых стираний. Трудно писать книгу, если каждое утро, садясь за стол, не помнишь ничего из созданного накануне. Но агентов, выполняющих не столь интеллектуальные виды работ, вполне можно перезапускать, и делать это довольно часто — от единожды обученного продавца или сотрудника, обслуживающего клиентов, потребуется «удерживать» нужную информацию не более двадцати минут.

Поскольку перезапуски не позволяют формироваться памяти и навыкам, некоторые эмуляторы могут быть помещены в специальную обучающую среду, в которой они будут пребывать непрерывно, в том числе в периоды отдыха и сна, даже если их работа и не требует длинных когнитивных цепочек. При таких оптимальных условиях могли бы работать в течение долгих лет некоторые агенты по обслуживанию клиентов — причем при поддержке тренеров и экспертов по оценке производительности. Лучших учеников можно было бы использовать в качестве «племенных жеребцов», то есть по их шаблону каждый день штамповали бы миллионы свежих копий. В эти шаблоны есть смысл вкладывать большие средств, поскольку даже небольшое приумножение их продуктивности обеспечивало бы заметный экономический эффект, будучи растиражированным миллионы раз.

Параллельно с задачей обучения работников-шаблонов выполнению определенных функций огромные усилия будут прилагаться с целью совершенствования технологии их эмуляции. Успехи в этом направлении были бы даже более ценными, чем успехи в обучении индивидуальных работников-шаблонов, поскольку улучшение технологии эмуляции применимо ко всем работникам-эмуляторам (и, потенциально, к другим имитационным моделям тоже), а не только к занятым в одной определенной области. Можно направить огромные ресурсы на поиск вычислительных коротких путей, позволяющих создавать эмуляторы более эффективно, а также разрабатывать нейроморфные и полностью синтетические архитектуры ИИ. Эти исследования, вероятно, проводились бы тоже эмуляторами, запущенными на очень быстрой аппаратной основе. В зависимости от стоимости вычислительной мощности могли бы круглосуточно работать миллионы, миллиарды или триллионы имитационных моделей мозга самых проницательных исследователей-людей (или их улученных версий), раздвигая границы машинного интеллекта; некоторые из них могли бы действовать на порядки быстрее, чем биологический мозг[417]. Это весомая причина полагать, что эра человекоподобных эмуляторов будет короткой — очень короткой по звездному времени — и что ей придет на смену неизмеримо превосходящий их искусственный интеллект.

Мы уже перечислили несколько причин, по которым работодатели эмуляторов могут периодически выбраковывать свои стада: колебания спроса на работников различного вида деятельности; экономия на времени отдыха и сна; появление новых усовершенствованных шаблонов. Еще одной причиной могут быть соображения безопасности. Чтобы имитации-работники не вынашивали враждебные планы и не плели заговоры, эмуляторы, занятые на особенно важных позициях, могли бы запускаться на ограниченное время с частым сбросом к исходному состоянию готовности[418].

Эти исходные состояния, к которым будут возвращать настройки эмуляторов, следует очень тщательно готовить и перепроверять. Типичный эмулятор с коротким жизненным циклом, которого оптимизировали с точки зрения его лояльности и производительности, мог бы чувствовать себя на следующее утро просто хорошо отдохнувшим. Он помнил бы, что после многих (субъективных) лет интенсивного обучения и отбора стал лучшим среди своих однокашников, что только что набрался сил в отпуске, выспался, прослушал воодушевляющую побудительную речь и бодрую музыку, и теперь ему не терпится сделать максимум возможного для своего работодателя. Его мало беспокоят мысли о неотвратимой смерти в конце рабочего дня. Эмуляторы, страдающие страхом смерти и прочими неврозами, менее продуктивны и потому не могут быть отобраны в качестве шаблона[419].

В высшей степени тяжелый труд как высшая степень счастья

Оценивая желательность подобных гипотетических ситуаций, важно принимать во внимание гедонистическое состояние среднего эмулятора[420]. Страдать или наслаждаться будет типичный работник-эмулятор, выполняя свою трудную работу?

Нам не следует поддаваться соблазну проецировать собственные чувства и ощущения на воображаемого цифрового работника. Вопрос не в том, были бы вы счастливы, если вам пришлось бы постоянно трудиться и не иметь возможности видеться со своими любимыми, — это ужасная судьба, спору нет.

Несколько правильнее было бы взять за основу гедонистический опыт современных людей в течение обычного рабочего дня. Во всем мире проводились исследования, в ходе которых респондентам задавали вопрос, насколько они счастливы, и большинство выбирало ответы от «довольно счастливы» до «очень счастливы» (средний балл 3,1 на шкале от 1 до 4)[421]. Исследования среднего эмоционального состояния, в которых у респондентов спрашивали, какие из положительных или отрицательных эмоций они испытывали недавно, как правило, дают аналогичные результаты (средний балл 0,52 по шкале от –1 до 1). Есть небольшая зависимость среднего субъективного благополучия от размера ВВП на душу населения страны[422]. Однако было бы ошибкой экстраполировать эти данные на гедонистическое состояние будущих работников-эмуляторов. Одна из причин заключается в том, что их условия будут совершенно другими: с одной стороны, они могут работать гораздо больше; с другой, они будут свободны от болезней, мышечной боли, голода, неприятных запахов и многого другого. Хотя такие соображения не говорят о главном. Гораздо важнее, что их ощущение наслаждения можно легко корректировать при помощи цифрового эквивалента лекарств или нейрохирургии. Это значит, что было бы ошибкой делать выводы о гедонистическом состоянии будущих эмуляторов на основании внешних условий их жизни, тем более представляя себя на их месте. Гедонистическое состояние — вопрос сознательного выбора. В модели, которую мы сейчас обсуждаем, этот выбор за своих работников делает владелец капитала, стремящийся максимизировать доходность своих инвестиций в тружеников-эмуляторов. Соответственно вопрос, насколько счастливы они будут, сводится к выяснению, какие гедонистические состояния наиболее продуктивны (для решения различных задач, которые будут поставлены перед этими имитационными моделями).

И снова прошу воздержаться от поспешных выводов. Если оказывается, что независимо от эпох, географии и рода занятий человек обычно бывает в меру счастлив, это может склонить в пользу того, что такое же положение сохранится и в постпереходный период. То есть речь не о том, что раз человеческий мозг предрасположен к восприятию счастья, то, вероятно, он будет «удовлетворен» и в новых условиях; скорее, мы имеем в виду, что раз определенный уровень счастья оказался достижимым для человеческого мозга в прошлом, то аналогичный уровень счастья, возможно, будет доступен имитационным моделям человеческого мозга в будущем. Хотя эта формулировка также показывает слабость умозаключения, а именно: психические состояния, характерные для гоминид, занимающихся охотой и собирательством в африканской саванне, не обязательно пригодны для модифицированных версий человеческого мозга, живущих в условиях постпереходной виртуальной реальности. Конечно, мы можем надеяться, что будущие работники-эмуляторы будут столь же счастливы или даже счастливее, чем работники-люди на протяжении всей своей человеческой истории; но нам придется поискать более убедительные причины для подтверждения этого предположения (в нашем сценарии мультиполярного мира, выстраиваемого по принципу laissez-faire[423]).

Предположим, что причина превалирования состояния счастья среди людей (в той степени, в которой оно преобладает) состоит в том, что эта положительная эмоция служила сигнальной функцией в условиях эволюционного приспособления. Создание у других членов социальной группы впечатления о собственном процветании: я здоров, отлично лажу с окружающими и уверен в своем благополучном будущем — могло повышать популярность индивидуума. Поэтому склонность к жизнерадостности могла быть критерием отбора, в результате чего биохимия мозга современного человека оказалась смещена в пользу более позитивного восприятия мира, чем то, которое было бы максимально эффективным в соответствии с более простым материалистическим критерием. Если это было бы так, то будущая joie de vivre[424] может зависеть от того, сохранит ли в постпереходном мире эмоция радости свою сигнальную функцию, играющую социальную роль. (К этому вопросу мы вскоре вернемся.)

Тратит ли человек радостный больше энергии, чем человек угрюмый? Может быть, счастливые люди больше склонны к творческим порывам и полетам фантазии — поведение, которое вряд ли будет приветствоваться будущими работодателями. Возможно, угрюмая и тревожная сосредоточенность на безошибочном выполнении конкретного задания станет самым желанным образом действий для большинства видов трудовой деятельности. Мы не считаем, что это так, мы лишь говорим, что не знаем, что это не так. И все же нам следует подумать, насколько плоха может быть ситуация, если одна из таких пессимистичных гипотез относительно будущих мальтузианских условий окажется истинной: не только из-за «цены выбора» в создании чего-то лучшего и даже грандиозного, но также потому, что это состояние может быть плохим само по себе, возможно, гораздо более плохим, чем мальтузианские условия.

Мы редко работаем в полную силу. Но когда мы так делаем, чувствуем, как это болезненно. Представьте, что вы бежите по беговой дорожке с уклоном вверх: сердце колотится, мышцы болят, легким не хватает воздуха. Короткий взгляд на таймер: следующий отдых ожидается через 49 лет, 3 месяца, 20 дней, 4 часа, 56 минут и 12 секунд — это же и момент вашей смерти. Впору пожалеть, что родился.

И снова речь не о том, что все будет именно так, — проблема в отсутствии уверенности, что все будет иначе. Конечно, можно представить и более оптимистичную картину. Например, нет очевидной причины, по которой эмуляторы должны страдать от физического недомогания и болезней, поскольку они будут лишены уязвимой физической оболочки — что было бы большим достижением по сравнению с нынешним положением дел. Более того, поскольку виртуальная реальность довольно дешевая, эмуляторы могут работать в роскошных условиях: в прекрасных дворцах на вершинах гор, на террасах, выходящих в цветущий весенний сад, на солнечных пляжах, омываемых лазурным океаном, — с правильными освещением и температурным режимом, пейзажем и декором; их не побеспокоят неприятные запахи, шумы, сила тяжести и жужжащие насекомые; они будут облачены в комфортную одежду, ощущать ясность мысли и сосредоточенность внимания, хорошо питаться. Еще более важно, что если у людей оптимальным психическим состоянием для максимальной продуктивности в большинстве видов работ является радостная жажда деятельности — видимо, так оно и есть, — то цифровая эпоха имитационных моделей может оказаться похожей на рай.

В любом случае было бы ценно организовать все так, чтобы у кого-то или чего-то была возможность вмешаться и все исправить в случае, если выбранная траектория окажется ведущей в антиутопию. Также было бы желательно оставить что-то вроде спасательного люка, который позволял бы сбежать в смерть и забвение в случае, если качество жизни постоянно оказывается ниже того уровня, когда исчезновение становится предпочтительнее продолжения существования.

Аутсорсеры, лишенные сознания?

В долгосрочной перспективе, когда эпоху эмуляторов сменит эпоха искусственного интеллекта (или если машинный интеллект появится сразу, минуя стадию имитационной модели головного мозга), в сценарии многополярного мира страдания и удовольствия могут исчезнуть совсем, поскольку гедонистический механизм вознаграждения окажется не самой эффективной системой стимуляции сложного искусственного агента, который, в отличие от человеческого мозга, не обременен наследием нервной системы животных. Возможно, более совершенная система мотивации будет основана на явном выражении функции полезности или на какой-то иной архитектуре, в которой отсутствуют прямые функциональные аналоги удовольствия и страданий.

Близким, но несколько более радикальным вариантом многополярного мира — в принципе, лишенного привычных нам систем ценностей — является такой сценарий, по которому мировой пролетариат полностью будет лишен сознания. Вероятность этого особенно велика в случае ИИ, который может быть структурирован совершенно не так, как человеческий интеллект. Но даже если машинный интеллект вначале возникнет в результате полной эмуляции головного мозга, дав старт появлению обладающих сознанием цифровых агентов, сохранение конкуренции в постпереходной экономике вполне способно привести к возникновению прогрессивных и менее нейроморфных форм машинного интеллекта — или в результате создания синтетического ИИ с нуля, или в результате последовательных модификаций и улучшений имитационных моделей, причем в процессе совершенствования эмуляторы начнут все больше терять человеческие характеристики.

Рассмотрим сценарий, по которому после появления технологии полной эмуляции головного мозга продолжающийся прогресс в нейробиологии и кибернетике (подстегиваемый наличием эмуляторов, работающих как в качестве исследователей, так и объектов экспериментов) сделал бы возможным изоляцию эмулированных индивидуальных когнитивных модулей и подключение их к аналогичным модулям, изолированным от других эмуляторов. Чтобы такие стандартные модули могли эффективно сотрудничать, им потребуется период обучения и притирки, после которого они будут в состоянии взаимодействовать быстрее. Это повысит их продуктивность и стимулирует дальнейшую стандартизацию.

После этого эмуляторы смогут начать передавать на аутсорсинг большую часть своего функционала. Зачем учиться складывать и умножать, если можно переслать задачу, требующую знания математики, в компанию Gauss Modules, Inc.? Зачем уметь говорить, если можно привлечь к переводу своих мыслей в слова агентство Coleridge Conversation? Зачем принимать решения о своей личной жизни, если существуют сертифицированные исполнительные модули, способные сканировать вашу систему ценностей и управлять вашими ресурсами так, что ваши замыслы удастся воплотить быстрее, чем если бы вы занимались этим сами? Некоторые эмуляторы могут предпочесть сохранить за собой большую часть собственного функционала и выполнять самостоятельно даже те задачи, с которыми более эффективно справились бы другие. Они будут похожи на любителей, с удовольствием разводящих овощи или вяжущих свитеры. Но эти эмуляторы-дилетанты так и не станут профессионалами, поэтому, если рабочий поток будет перенаправлен от малоэффективных игроков к более эффективным, — такие имитационные модели непременно окажутся в проигрыше.

Таким образом, бульонные кубики отдельных человекоподобных умов растворятся и превратятся в однородное алгоритмическое варево.

Можно предположить, что оптимальная эффективность будет обеспечена за счет группировки модулей, отвечающих за различные способности, в структуры, отдаленно напоминающие систему когнитивных функций человеческого мозга. Вполне возможно, например, что математический модуль должен быть связан с языковым, и оба они — с исполнительным, чтобы все три могли работать вместе. Тогда когнитивный аутсорсинг окажется практически бесполезным. Но пока тому нет убедительных подтверждений, мы должны считать, что человекоподобная когнитивная архитектура оптимальна только внутри ограничений, связанных именно с человеческой неврологией (а может быть, и вообще не оптимальна). Когда появятся перспективные архитектуры, которые не могут быть хорошо реализованы на биологических нейронных сетях, возникнет необходимость в качественно новых решениях, и наиболее удачные из них уже почти не будут напоминать знакомые нам типы психики. Тогда человекоподобные когнитивные схемы начнут терять свою конкурентоспособность в новых экономических и экосистемных условиях постпереходной эпохи[425].

То есть вполне могут существовать свои ниши для разумных систем: менее сложных — таких как индивидуальные модули; более сложных — таких как огромные кластеры модулей; сравнимых по сложности с человеческим мозгом, но с радикально иной архитектурой. Будут ли таким системам присущи хоть какие-то ценности? Следует ли нам приветствовать рождение мира, в котором эти чужеродные системы заменят человеческий мозг?

Ответ на этот вопрос может зависеть от конкретной природы таких систем. В современном мире существует много уровней организации. Есть очень сложные структуры высокого уровня, например государства и транснациональные корпорации, состоящие из множества людей, но за этими структурами мы обычно признаем лишь инструментальную ценность. Государства и корпорации (как принято считать) не обладают сознанием сверх сознания людей, составляющих их: они не в состоянии почувствовать страдание, удовольствие или испытать какие-либо иные чувства. Мы ценим их лишь постольку, поскольку они обслуживают потребности людей, а когда они не справляются со своей задачей, мы «убиваем» их без малейшего раскаяния. Есть структуры более низкого уровня, также обычно лишенные морального статуса. Мы не видим никакого вреда в том, чтобы удалить приложение из смартфона, мы не считаем, будто нейрохирург вредит человеку, страдающему эпилепсией, когда удаляет у него неправильно функционирующий отдел мозга. Большинство людей признает моральный статус сложных систем уровня человеческого мозга только в случае, если они будут способны получать сознательный опыт[426].

В крайнем случае можно представить высокоразвитое с технологической точки зрения общество, состоящее из множества сложных систем, в том числе гораздо более сложных и интеллектуальных, чем все, что существует на планете сегодня, — общество, совершенно лишенное кого-либо, кто обладал бы сознанием или чье благополучие имело бы какое-либо моральное значение. В некотором смысле это было бы необитаемое общество. Общество экономических и технологических чудес, никому не приносящих пользы. Диснейленд без детей.

Эволюция — путь наверх или не обязательно?

Слово эволюция часто используется в качестве синонима слова прогресс, что, возможно, отражает общепринятое некритическое восприятие эволюции как доброй силы. Необоснованная вера в изначальную благотворность эволюционного процесса может уступить место беспристрастной оценке целесообразности многополярного исхода, в котором будущее разумной жизни определяется конкурентной динамикой. Любая такая оценка должна быть основана на некотором (хотя бы подразумеваемом) представлении о распределении вероятности различных фенотипов, которые смогут приспособиться к цифровой жизни постпереходного периода. Даже в самых благоприятных обстоятельствах было бы трудно извлечь четкий и правильный ответ из опутывающей эту тему паутины неизбежной неопределенности — тем более если мы еще внесем свой вклад и добавим изрядное количество наивного оптимизма.

Возможным источником веры в поступательное движение эволюции является восходящая динамика эволюционного процесса в прошлом. Начав с простейших делящихся клеток, эволюция порождала все более «развитые» организмы, в том числе существа, наделенные мозгом, сознанием, языком и мышлением. Позднее именно те культурные и технологические процессы, которые имеют отдаленное сходство с эволюционными, позволили человечеству развиваться ускоренными темпами. И на геологической, и на исторической шкале превалирует тенденция к повышению уровня сложности, знаний, сознания и скоординированной организации в достижении целей — тенденция, которую, если не стремиться к чрезмерной точности определений, можно было бы назвать прогрессом[427].

Во-первых, в нашем представлении эволюция как процесс, стабильно приносящий благо, с трудом совмещается со страданим, которое мы видим как в мире людей, так и в мире природы. Кто приветствует достижения эволюции, делают это скорее с эстетической, чем с этической стороны. Хотя в первую очередь нас должен волновать вопрос не о том будущем, которое мы для себя откроем в новом научно-фантастический романе или фильме, а о будущем, в котором всем нам было бы хорошо жить, — между тем и другим лежит огромная разница.

Во-вторых, у нас нет причин думать, что даже прогресс, имевший место в прошлом, был неизбежен. Многое можно отнести на счет удачи. Это соображение основано на том, что благодаря эффекту выбора наблюдателя нам доступны лишь свидетельства об успешном ходе собственной эволюции[428].

Предположим, что с вероятностью 99,9999 процента на всех планетах, где возникла жизнь, она погибла прежде, чем разумный наблюдатель мог начать размышлять о своем происхождении. Если это так, что мы могли бы ожидать увидеть? Вероятно, ровно то же самое, что видим сейчас. Гипотеза, что шансы разумной жизни появиться на той или иной планете малы, как раз и означает, что мы скорее окажемся не там, где жизнь существует лишь на начальной стадии, а там, где уже появилась разумная жизнь, даже если такие планеты представляют собой очень небольшую долю всех планет, на которых зародилась примитивная жизнь. Поэтому долгая история жизни на Земле не может служить надежным подкреплением, что была большая доля вероятности — не говоря уже о неизбежности — появления на нашей планете высокоразвитых организмов[429].

В-третьих, нет никаких гарантий, что эти идеи мелиоризма[430] собираются вместе с нами шагнуть в наше будущее — даже если нынешние условия были бы идеальными, даже если можно было бы показать неизбежность их возникновения из некоторых универсальных исходных условий. Это справедливо даже в том случае, если мы исключим катаклизмы, способные привести к гибели человечества, и даже в том случае, если предположим, что в результате эволюционного развития будут продолжать появляться все более и более сложные системы.

Ранее мы предположили, что интеллектуальные работники-машины, отобранные по критерию максимальной продуктивности, будут трудиться чрезвычайно много, но неизвестно, смогут ли они при этом чувствовать себя счастливыми. Мы даже допустили, что некоторые из них могут вообще не иметь сознания, но именно они будут лучше всех приспособлены к конкурентной гонке будущей цифровой жизни. После полной потери восприятия, а потом утраты сознания, они лишатся всех прочих качеств, которые большинством людей считаются необходимыми для нормальной жизни. Современный человек ценит музыку, шутку, любовь, искусство, игры, танцы, разговоры, философию, литературу, приключения, путешествия, еду, выпивку, дружбу, детей, спорт, природу, традиции, духовные ценности и множество других вещей. Нет никакой гарантии, что хоть один пункт из перечисленного останется в жизни тех, кто приспособится к новым условиям. Наверное, максимально увеличить шансы на выживание сможет лишь одно свойство — готовность безостановочно и интенсивно трудиться, выполняя скучную и монотонную работу, цель которой состоит в улучшении восьмого знака после запятой какого-то экономического показателя. В этом случае отобранные в ходе эволюции фенотипы будут лишены перечисленных выше качеств и в зависимости уже от вашей системы ценностей покажутся вам существами либо отвратительными, либо никчемными, либо всего лишь жалкими, — но в любом случае бесконечно далекими от той великой Утопии, которая все-таки стоит нашего доброго слова.

Невольно возникает вопрос: почему столь богатое прошлое и столь насыщенное настоящее — со всеми нашими чувствами, привязанностями, мыслями и пристрастиями — может породить столь убогое будущее? Как это согласовать друг с другом? И невольно возникает контрвопрос: если все человеческие увлечения и занятия действительно так «бессмысленны», то почему они сохранились и даже развились в ходе эволюционного процесса, сформировавшего наш вид? Современный человек с его эволюционным дисбалансом не может поставить их себе в вину: наши предки из эпохи плейстоцена тоже тратили на это свою энергию. Многие поведенческие стереотипы даже нельзя назвать уникальными, поскольку они свойственны не только Homo sapiens. Например, демонстративное поведение по типу «боевой раскраски» встречается в самом разном контексте: от брачных игр в животном мире до противостояния государств и народов[431].

Хотя в нашу задачу не входит подробное эволюционное объяснение таких моделей поведения, тем не менее считаю нужным заметить, что многие присущие им функции отпадут сами собой в будущем, при новых условиях существования искусственного интеллекта. Возьмем, например, игру — этот особый вид социального поведения, характерный лишь для некоторых видов живых организмов и распространенный в основном среди молодых особей, — во многом игра представляет способ приобретения личностных и социальных навыков, необходимых для полноценной жизни. Но в постпереходный период функции игрового поведения перестанут иметь сколь-нибудь значимый смысл, так как появится возможность или создавать сразу «взрослые» имитационные модели, уже владеющие некоторой суммой зрелых навыков, или импортировать непосредственно в систему одного ИИ знания и умения, достигнутые другим ИИ.

Многие образцы демонстративного поведения человека могли сложиться в ходе эволюционных попыток инсценировать иногда на первый взгляд неуловимые достоинства, такие как: физическая стойкость; психологическая и эмоциональная устойчивость; положение в обществе; чувство локтя; предприимчивость и находчивость; готовность и умение побеждать. Приведем классический случай, принадлежащий, правда, миру животных, — павлин со своим знаменитым хвостом. Только самец, абсолютно уверенный в собственном достоинстве, как правило физическом, может позволить себе иметь столь вызывающее оперение и умело пользоваться им, — самки хорошо усвоили этот эволюционный сигнал и считают такую экстравагантность крайне привлекательной. Поведенческие особенности в не меньшей степени, чем морфологические, способны сигнализировать о генетической приспособленности и иных социально значимых признаках[432].

Учитывая, что демонстративное поведение столь распространено и среди людей, и среди других биологических видов, возникает вопрос: не войдет ли оно и в репертуар усовершенствованных технологических форм существования. Допустим, в грядущем пространстве интеллектуальных информационных экосистем не останется места для проявления таких свойств, как веселость, игривость, музыкальность и даже сознание, — в смысле их практического применения. Но, может быть, эти качества все-таки окажутся полезными с эволюционной точки зрения и дадут некоторое преимущество их обладателям, которым будет проще сигнализировать о своей адаптивности к новым условиям?

Конечно, довольно трудно устанавливать заранее, насколько удастся в будущем согласовать сегодняшнюю систему ценностей с адаптивной системой цифровой экологии. Тем более что поводов для скептицизма хватает.

Во-первых, многие встречающиеся в природе стереотипы демонстративного поведения связаны с выбором полового партнера; причем эти проявления особенно яркие, а для человека еще и дорогостоящие[433]. Но практически бесполым технологическим формам существования вряд ли придется задумываться над проблемой полового отбора.

Во-вторых, у технологически оснащенных агентов отпадет необходимость в демонстративном поведении, поскольку в их распоряжении появятся новые надежные и незатратные способы передачи информации о себе. Даже сегодня профессиональные кредиторы при оценке платежеспособности предпочитают доверять документальным доказательствам, то есть свидетельствам о праве собственности и банковским выпискам, а не полагаться на роскошный внешний вид клиента — костюм из последней коллекции модного дизайнера и часы Rolex. В будущем для получения нужных данных смогут привлекать специальные аудиторские фирмы, которые станут выдавать своим клиентам справки о наличии тех или иных качеств агента на основе анализа его поведенческих характеристик, или изучения его действий в смоделированных условиях, или прямого считывания его исходного кода. Если агент даст согласие на проведение подобной проверки, то это будет достаточным свидетельством, что с требуемыми свойствами у него все в порядке, и даже более эффектным подтверждением, чем прямая их демонстрация. Подделывать признаки, выявленные опосредованным, но профессиональным путем, окажется слишком трудным и дорогостоящим занятием — что, между прочим, является основным доказательством их достоверности, — но в случае подлинности признаков будет намного легче и дешевле передавать их цифровым способом, а не демонстрировать естественным образом.

В-третьих, не все варианты демонстративного поведения имеют равную значимость и одинаково желательны с точки зрения общества. А некоторые просто абсурдны в своей расточительности. Например, публичное уничтожение большого количества накопленного имущества индейцами квакиутл во время демонстративного обмена дарами между племенами, когда происходило своего рода соревнование вождей за максимальное влияние и авторитет, только орудием борьбы выступало их богатство, — эта традиционная церемония называлась «потлач»[434]. Современными аналогами потлача можно считать рекордно высокие небоскребы, очень крупные и непомерно дорогие яхты, а также попытки строительства ракет для полета на Луну. И если мы абсолютно разделяем мнение, что музыка и хорошая шутка повышают качество человеческой жизни, то вряд ли то же самое относится к приобретению безумно дорогих модных аксессуаров и прочих статусных предметов роскоши. Хуже всего, когда безрассудное демонстративное поведение наносит непоправимый вред: довольно часто неумеренная мужская бравада приводит к прямому насилию и бряцанию оружием. Даже если в будущем разумные формы существования и воспользуются «сигнальной системой» демонстративного поведения, то все равно остается открытым вопрос о ценности выражаемого достоинства. Будет ли оно как восхитительная соловьиная трель, или как односложное карканье вороны, или как непрерывный лай взбесившейся собаки?

А потом появится синглтон?

Даже если непосредственным результатом перехода к машинному интеллекту окажется многополярный мир, несколько полюсов силы никак не отменяют в дальнейшем появление синглтона. Так естественным образом реализуется очевидная и очень долго длящаяся тенденция к общемировой консолидации политических сил[435]. Как это будет происходить?

Второй переход

В процессе превращения первоначального многополярного уклада в синглтон после первого перехода должен произойти второй технологический переход, причем довольно резкий, чтобы у одной из сил, способной воспользоваться моментом и сформировать синглтон, появилось решающее конкурентное преимущество. Гипотетический второй переход может быть вызван мощным достижением в разработке более высокого уровня сверхразума. Например, если первая волна машинного сверхразума будет основана на имитационных моделях, то второй виток начнется, когда эмуляторы, занимающиеся дальнейшими исследованиями, добьются успеха в создании эффективного ИИ, способного к самосовершенствованию[436]. (Может быть, ко второму переходу приведет прорыв или в нанотехнологиях, или военных технологиях, или любых иных универсального назначения, которые мы сегодня даже не в состоянии вообразить.)

Скорость развития первого постпереходного периода, скорее всего, будет чрезвычайно высокой. Поэтому вполне вероятно, что к решающему стратегическому преимуществу, которое образуется у лидирующей силы, может привести даже небольшой разрыв между ней и ее ближайшим конкурентом. Предположим, первый переход был совершен двумя вырвавшимися вперед проектами с разницей в несколько дней, но поскольку сам взлет оказался слишком медленным, то этот небольшой разрыв не обеспечил лидирующему проекту решающего стратегического преимущества. Оба проекта обрели мощь сверхразума, но один из них на несколько дней раньше. Однако теперь исследования идут на временной шкале машинного сверхразума, возможно, в тысячи миллионов раз быстрее, чем когда их проводили ученые-люди. Появление технологии, способной привести ко второму переходу, видимо, произойдет в течение дней, часов или минут. Даже если у лидера был запас всего в несколько дней, этот прорыв способен сработать как катапульта и обеспечить ему абсолютное стратегическое преимущество. Однако обратите внимание: если диффузия технологий (за счет шпионажа или по иным каналам) ускорится так же, как их развитие, эффект молниеносности может сойти на нет. Тогда останется единственный важный фактор — крутизна второго перехода, то есть скорость, с которой он произойдет относительно обычного для постпереходного периода темпа событий. (В этом смысле чем быстрее все происходит после первого перехода, тем менее крутым будет второй.)

Также можно предположить большую вероятность, что в случае второго перехода (или одного из последующих) решающее стратегическое преимущество будет использовано для формирования синглтона. После первого перехода агенты, принимающие решения, будут или сами обладать сверхразумом, или пользоваться советами сверхразума, который проанализирует имеющиеся варианты стратегического выбора. Более того, ситуация, сложившаяся после первого перехода, может быть менее опасной для агрессора с точки зрения нанесения упреждающего удара по конкурентам. Если разум, принимающий решение после первого перехода, существует в цифровом виде, его легче скопировать и тем самым сделать менее уязвимым для контратак. Агрессора не сильно напугает удар возмездия со стороны обороняющихся сил и уничтожение девяти десятых его населения — ведь у него есть возможность немедленно восстановить баланс благодаря резервным копиям. Разрушение инфраструктуры (которая тоже может быть быстро восстановлена) тоже не станет критичным для цифрового разума с практически неограниченным жизненным циклом, поскольку он наверняка запланировал и увеличение имеющихся ресурсов, и расширение влияния в космологическом масштабе времени.

Суперорганизмы и эффект масштаба

На размер согласованности институциональных механизмов людей, таких как корпорации или государства, влияет множество параметров: технологических, военных, финансовых и культурных, — которые могут различаться в разные исторические эпохи. Революция машинного интеллекта приведет к глубоким изменениям в этих параметрах. Возможно, такие изменения вызовут формирование синглтона. Хотя, не видя деталей этих потенциальных изменений, нельзя исключить и противоположное — что результатом таких изменений станет фрагментация, а не унификация. Тем не менее стоит заметить, что рост неопределенности, с которой мы здесь имеем дело, сам по себе может быть основанием для большей уверенности в вероятном возникновении синглтона. Революция машинного интеллекта может, так сказать, смешать нам карты и перетасовать колоду так, что сделает реальной геополитическую перестройку, которая иначе вряд ли была бы возможной.

Детальный анализ всех факторов, способных повлиять на масштаб интеграции политических сил, увел бы нас далеко за пределы выбранной темы — один обзор соответствующей политологической и экономической литературы легко потянет на отдельную книгу. Нам придется ограничиться коротким взглядом на несколько аспектов появления цифровых агентов, которые упростят задачу централизации контроля.

Карл Шульман утверждает, что естественный отбор в популяции имитационных моделей мозга приведет к появлению «суперорганизмов», то есть сообществ эмуляторов, готовых пожертвовать собой ради блага их клана[437]. Суперорганизмам не придется решать агентскую проблему, столь насущную в случае организаций, члены которых преследуют свои собственные интересы. Как клетки в наших организмах или отдельные особи в колониях общественных насекомых, эмуляторы будут абсолютно альтруистичными по отношению к своим братским копиям и смогут сотрудничать друг с другом даже в отсутствие специальных схем мотивации.

Суперорганизмы будут иметь особенно заметное преимущество, если в них есть возможность безвозвратного стирания (или приостановки выполнения) отдельных имитационных моделей без их согласия. Компании и государства, состоящие из эмуляторов, которые настаивают на самосохранении, окажутся под постоянно растущим гнетом обязательств по выплате содержания морально устаревшим или избыточным членам. В отличие от них те организации, где эмуляторы с готовностью уничтожают себя, когда потребность в их услугах исчезает, смогут легче адаптироваться к колебаниям спроса и экспериментировать, множа вариации своих работников и сохраняя из них лишь наиболее продуктивных.

Если возможность принудительного уничтожения отключена, то у эусоциальных[438] эмуляторов будет меньше конкурентных преимуществ, хотя они и сохранятся. Работодатели готовых сотрудничать и принести себя в жертву имитационных моделей по-прежнему получат выигрыш в продуктивности в результате уменьшения остроты агентской проблемы в своей организации, включая отсутствие необходимости бороться с сопротивлением имитационных моделей, возражающих против своего уничтожения. В целом выигрыш в продуктивности за счет наличия работников, готовых пожертвовать своими жизнями ради общего блага, представляет собой особую выгоду организаций, члены которых фанатически им преданы. Такие члены не только готовы долгие часы трудиться за символическую зарплату и даже отправиться ради них в могилу — они никогда не станут плести интриги и постараются действовать исключительно в интересах организации, что уменьшает потребность в контроле и бюрократических ограничениях.

Если единственным способом добиться такой преданности является копирование одного «родителя» (когда все имитационные модели, или эмуляторы, принадлежащие конкретному суперорганизму, получены от единого шаблона), тогда недостатком такого суперорганизма будет более узкий набор навыков, чем у соперников, неясно лишь, перевесит ли этот недостаток преимущество в виде отсутствия внутренних агентских проблем[439]. Впрочем, частично этот недостаток можно нивелировать, если суперорганизм будет состоять из членов, прошедших обучение по разным программам. Даже если все эмуляторы получены от единого шаблона, в процессе функционирования они смогут вырабатывать отличные друг от друга совокупности навыков. Один шаблон всесторонне развитого эмулятора может породить несколько типов работников, если одна копия проходит обучение на бухгалтера, другая — на инженера и так далее. В результате члены суперорганизма будут обладать различными навыками, но одинаковыми талантами. (Для большего разнообразия может потребоваться больше одного шаблона.)

Неотъемлемым свойством суперорганизма будет не то, что он состоит из копий одного «родителя», а то, что все индивидуальные агенты внутри него полностью посвятили себя общей цели. То есть способность создавать суперорганизмы потребует лишь частичного решения проблемы контроля. Если исходить из того, что полное решение проблемы контроля предоставит возможность создать сверхразумного агента, способного добиться любой произвольной конечной цели, то частичное решение проблемы контроля, которого достаточно, чтобы сформировать суперорганизм, позволит лишь изготовить многочисленное количество агентов, наделенных одной и той же конечной целью (она может быть значимой, но не обязательно произвольной)[440].

Таким образом, обсуждение основной идеи этого раздела не ограничивается вопросом о группах моноклональных эмуляторов, поэтому она может быть сформулирована в более общем виде и применима к широкому диапазону сценариев возникновения машинного интеллекта в многополярном мире. А именно: определенные достижения в развитии методов выбора мотивации, которые окажутся выполнимыми в случае, если действующие лица представлены в цифровом виде, могут помочь преодолеть некоторую неконструктивность, свойственную нашим сегодняшним крупным организациям, и обеспечить рост эффективности, обусловленный ростом масштаба производства. Когда эти ограничения будут преодолены, организации — будь то компании, страны или иные экономические и политические институты — могут значительно увеличиться в размерах. Это один из факторов, облегчающих формирование постпереходного синглтона.

Сфера, в которой суперорганизмы (и другие цифровые агенты с частично выбранной мотивацией) способны быстро достичь нужного превосходства, — это аппарат принуждения. Государство может использовать методы выбора мотивации для формирования одинаково преданных ему полиции, армии, разведывательных служб и гражданской администрации. Как пишет Шульман:

Сохраненные состояния [довольно лояльной имитационной модели, тщательно отобранной и проверенной] можно будет размножать миллиарды раз, чтобы получить идеологически монолитную армию, бюрократию и полицию. После короткого периода службы каждая имитационная копия будет заменяться свежей копией того же самого сохраненного состояния, чтобы не допустить ее идеологического смещения. В рамках одной юрисдикции это позволило бы осуществлять невероятно тщательное наблюдение и регулирование — в принципе, можно было бы иметь одну такую исходную копию для всех граждан. С подобным подходом под силу совершить многое: запретить производство оружия массового поражения; ограничить эксперименты с эмуляциями мозга и воспроизводство эмуляторов; принять либеральную демократическую конституцию — или навеки утвердить мерзость тоталитаризма[441].

Чего можно добиться, обладая таким потенциалом? В первую очередь — консолидации власти и даже концентрации ее в руках очень ограниченного числа действующих лиц.

Объединение на договорных началах

Большую пользу в постпереходном многополярном мире способно принести международное сотрудничество. Может быть, нам на самом деле удастся совершить многое. Избавиться от войн и гонки вооружений. Освоить астрофизические источники информации и начать использовать их в оптимальные для человечества сроки. Избежать спешки в деле усовершенствования ИИ и разработки его новых форм, то есть координировать исследования по этим вопросам, анализировать новые идеи и тщательно проверять все проекты. Отложить или остановить работу над теми проектами, в которых заложена потенциальная угроза существования нашей цивилизации. Ввести одинаковые нормы регулирования в глобальном масштабе, включая положения о гарантированных стандартах жизни (которые потребуют некоторых мер контроля над популяциями) и предотвращении эксплуатации и злоупотребления по отношению к имитационным моделям и другим цифровым и биологическим сущностям. Более того, агенты, имеющие ресурсы, вполне удовлетворяющие их ценностные потребности (подробнее об этом будет рассказано в главе тринадцатой), могли бы заключить договор о разделе будущих ресурсов, по которому им была бы гарантирована определенная доля, вместо того чтобы развертывать борьбу за единоличный контроль над ними, рискуя не получить ничего.

Однако потенциальная возможность получить большую пользу от сотрудничества вовсе не означает, что о нем удастся договориться. В современном обществе за счет лучшей координации усилий в общемировом масштабе можно было бы обрести многие блага — наряду с прочим это сокращение военных расходов, прекращение войн, наложение ограничений на чрезмерный вылов рыбы, снятие торговых барьеров, предотвращение загрязнения атмосферы. Тем не менее никто так и не пожинает эти созревшие плоды. Почему? Что мешает нам в полной мере воспользоваться возможностями сотрудничества ради абсолютного общего блага?

Одним из препятствий является сложность в согласовании договоренностей и обеспечении контроля за выполнением обязательств по всем договорам. Двое бывших противников, обладающих ядерным оружием, стали бы жить намного лучше, если оба смогли бы избавиться от атомных бомб. Однако, даже достигнув принципиального согласия по всем вопросам, вряд ли будет возможно полное разоружение из-за взаимных опасений, что другая сторона начнет мошенничать. Избавиться от вполне реальных страхов помогло бы создание соответствующих механизмов контроля за соблюдением соглашения. Например, можно учредить институт инспекторов, наблюдающих за уничтожением имеющихся запасов, контролирующих ядерные реакторы и другие объекты; кроме того, в целях гарантии, что никто из договорившихся сторон не возобновляет ядерную программу, они могли бы проводить технические исследования и собирать разведывательные данные. Конечно, их труд должен оплачиваться, но возможные издержки не ограничиваются суммами вознаграждений. Есть риск, что инспекторы станут шпионить и продавать коммерческие и военные секреты. Однако важнее всего, что каждая сторона будет подозревать другую в намерении тайно сохранить возможность производить ядерное оружие. В итоге очень многие потенциально выгодные сделки никогда не станут реальностью, поскольку соблюдение их условий проверить было бы чрезвычайно трудно.

Если станут доступны новые методы проверки, способные снизить затраты на контролирующие органы, можно будет ожидать расширения сотрудничества. Однако пока неясно, удастся ли снизить эти издержки и риски в постпереходную эпоху. Одновременно с новыми эффективными методами инспекции наверняка появятся и новейшие методы сокрытия обмана. В частности, все более активная деятельность, подлежащая регулированию, будет вестись в киберпространстве, где нет возможности непосредственного наблюдения. Например, цифровые исследователи, работающие над инновационными системами нанотехнологических вооружений или новейшим поколением ИИ, могут почти не оставлять следов в физическом мире. И виртуальные инспекторы не всегда смогут пробиться через все слои маскировки и шифрования, с помощью которых нарушитель договора будет скрывать свою незаконную деятельность.

Если удастся разработать надежные детекторы лжи, они станут чрезвычайно полезными инструментами контроля за соблюдением достигнутых соглашений[442]. Протоколы инспекций могут включать положения о проведении интервью с ключевыми персонами, чтобы выяснить, действительно ли они намерены выполнять все условия договора и не знают ли о случаях его нарушения.

Лица, уполномоченные принимать решения по программе и желающие обмануть проверку с применением детекторов лжи, могут сделать это, вначале дав распоряжение подчиненным продолжать незаконную деятельность и скрывать ее от них самих, а затем проведя процедуру частичного стирания памяти о своем участии в этих махинациях. В результате развития нанотехнологий соответствующие методы точечного воздействия на биологическую память наверняка окажутся доступными. В случае машинного интеллекта сделать это будет еще проще.

Страны могут попытаться решить эту проблему, обязавшись участвовать в процессе непрерывного контроля с регулярными проверками ключевых лиц на детекторе лжи, с целью выяснить, не скрывают ли они злокозненных намерений нарушить какой-либо из заключенных или планируемых к заключению международных договоров. Такое обязательство может трактоваться как своего рода метадоговор, предполагающий проверку выполнения остальных договоров; но страны могут присоединяться к нему по собственной инициативе с целью представить себя в качестве заслуживающих доверия партнеров. Однако с этим обязательством об участии в проверках или метадоговором связана та же проблема возможного мошенничества по схеме «делегировал и забыл». В идеале метадоговор должен начать действовать до того, как у сторон появится возможность провести подготовку к нарушению договоренностей. Если у потенциального нарушителя будет время на то, чтобы посеять семена обмана, доверие обеспечить не удастся.

В некоторых случаях для заключения сделки бывает достаточно одной возможности обнаружить нарушение соглашения. Однако часто все-таки требуется создать механизм принуждения к выполнению условий или назначения наказания в случае их нарушения. Потребность в таком механизме может возникнуть в том случае, когда угрозы выхода из соглашения обманутой стороны недостаточно для предотвращения нарушения, например если нарушитель получит в результате такое преимущество, что ему можно будет не беспокоиться о реакции другой стороны.

При наличии высокоэффективных методов выбора мотивации эта проблема может быть решена за счет создания независимого агентства с достаточными полицейскими или военными полномочиями для принуждения к исполнению договора любой стороны или сторон, даже невзирая на их сопротивление. Для этого агентство должно пользоваться полным доверием. Но при наличии эффективных методов выбора мотивации требуемое доверие можно обеспечить за счет привлечения к совместному контролю за созданием этого агентства всех участников переговоров.

Наделение независимого агентства чрезмерной принудительной властью может привести к тем же самым проблемам, с которыми мы столкнулись при обсуждении однополярного исхода (когда синглтон возникает до или в начале революции машинного интеллекта). Чтобы можно было добиваться выполнения договоренностей, которые касаются жизненно важных интересов безопасности стран-противников, независимое агентство фактически должно представлять собой синглтон: стать общемировым сверхразумным Левиафаном. Разница заключается лишь в том, что мы рассматриваем постпереходную ситуацию, в которой агенты, создающие Левиафана, обладают большей компетентностью, чем сегодняшние люди. Будущие создатели Левиафана сами могут быть сверхразумными. Это значительно увеличивает их шансы, что им удастся решить проблему контроля и разработать такую структуру агентства, которая будет служить интересам всех сторон.

Есть ли еще какие-то препятствия у общемировой координации, помимо затрат, связанных с контрольным наблюдением и принуждением к исполнению соглашений? Возможно, главной проблемой остается то, что можно назвать издержки ведения переговоров[443]. Даже когда есть возможность для компромисса, результаты которого выгодны всем участникам переговоров, иногда не удается нащупать основания продвигаться дальше, поскольку стороны не могут договориться о принципах разделения общей «добычи». Например, сделка не будет заключена, а потенциальная прибыль — получена, если двое могут подписать договор, по которому будут получать проценты от суммы в один доллар, но каждая сторона считает, что заслуживает шестьдесят центов чистой прибыли, и отказывается согласиться на меньшее. В целом из-за сделанного некоторыми участниками стратегического выбора характера ведения переговоров последние могут идти с трудом, затянуться надолго или вовсе сорваться.

В реальной жизни людям часто удается прийти к соглашению, несмотря на то что иногда приходится уступать стратегические позиции в процессе поиска компромисса (нередко ценой значительных затрат усилий и времени). Тем не менее вполне возможно, что в постпереходную эпоху проблема заключения стратегически важной сделки будет иметь несколько иную динамику. Искусственный интеллект, выступающий в роли посредника, будет последовательно придерживаться формальной и логической концепции, возможно, содержащей новые и неожиданные заключения, если сравнивать ее с позицией других участников переговоров. Кроме того, ИИ способен вступить в игру, недоступную для людей или очень трудную для них, в том числе он может первым занять жесткую позицию относительно проведения какой-то стратегии или выполнения каких-то действий. Хотя люди (и управляемые людьми институты) тоже время от времени способны на это — правда, обычно они не бывают столь конкретны в формулировках и вызывают к себе меньше доверия. Некоторые типы машинного интеллекта, заняв изначально жесткую позицию, будут непоколебимо стоять на своем[444].

Внедрение новейших методов проверки намерений участников договора способно серьезно изменить природу переговоров и принести большую пользу агенту, имеющему преимущество первого хода. Если его участие необходимо для получения какой-то потенциальной выгоды от сотрудничества и агент готов занять принципиально твердую позицию, то он будет в состоянии диктовать распределение этой выгоды, заявив, например, что не согласится на сделку, которая принесет ему, скажем, меньше 99 процентов прибыли. Другие агенты в итоге окажутся перед выбором: или не получить ничего (отказавшись от несправедливого предложения), или получить оставшийся один процент (согласившись на него). Если твердость намерений первого агента, занявшего непоколебимую жесткую позицию, можно проверить и подтвердить инструментальными методами, то его партнерам по переговорам действительно не остается никакого выхода, кроме как принять один из двух оставшихся вариантов.

Чтобы не допустить подобного манипулирования, любой агент может первым занять жесткую позицию, объявив о недопустимости шантажа и готовности отклонять все несправедливые предложения. Когда кто-то займет такую позицию (и сообщит о ней), другие агенты могут решить, что не в их интересах угрожать или самим заявлять о готовности согласиться на сделку лишь в том случае, если она будет только в их интересах, поскольку будут знать, что эти угрозы окажутся беспочвенными, а несправедливые предложения — отклоненными. Но это лишь еще раз подтверждает, что преимущество остается за тем, кто сделал первый ход. Агент, занявший твердую позицию и сделавший первый ход, может выбирать, ограничиться ли ему лишь предупреждением другим о недопустимости получения несправедливых преимуществ или самому попытаться захватить львиную долю будущей добычи.

В самом выигрышном положении, видимо, окажется агент, темперамент или ценностные установки которого позволят ему не реагировать на угрозы, не поддаваться ни на какие манипуляции и не соглашаться на сделки, по которым ему не будет гарантирована справедливая прибыль. Мы знаем, что и среди людей встречаются переговорщики, умеющие проявлять железную волю и непреклонность[445]. Однако такая жесткость позиции может сыграть злую шутку, если выяснится, что и другие агенты-переговорщики нацелены на получение только справедливой доли и не готовы отступать. Тогда непреклонная решимость одной стороны столкнется с непоколебимостью другой стороны, в результате чего окажется, что невозможно достичь никакого соглашения (ситуация может дойти вплоть до объявления войны). Кроткий и безвольный мог бы выторговать пусть не справедливую прибыль, но хоть какой-то процент.

Пока неясно, какого рода устойчивость с точки зрения теории игр может быть приобретена в подобных переговорах в условиях постпереходной экономики. Агенты могут выбрать и более сложные стратегии, чем описанные нами. Остается лишь надеяться, что баланс будет достигнут, поскольку переговорщики все-таки выработают более или менее справедливую норму — этакую точку Шеллинга, служащую единственным ориентиром в обширном пространстве исходов; ориентиром, который благодаря общим ожиданиям станет основой для координации в ничем иным не определенной игре по объединению. Это равновесие может подпитываться какими-то нашими эволюционными установками и культурным программированием — общее стремление к справедливости, при условии, что нам удастся сохранить свои ценности и в постпереходную эпоху, определит ожидания и стратегию так, что установится привлекательное для всех устойчивое равновесие[446].

Во всяком случае, можно сделать вывод, что готовность занимать непоколебимо твердую позицию способна привести к непривычным для нас вариантам завершения переговоров. Даже если постпереходная эпоха начнется как многополярная, может получиться так, что почти сразу возникнет синглтон как результат заключенного соглашения, которое разрешит все важные проблемы глобальной координации. Благодаря новым технологиям, доступным усовершенствованным формам машинного интеллекта, могут резко снизиться некоторые транзакционные издержки, в том числе, возможно, затраты на контрольные проверки и принуждение к исполнению договоренностей. Однако издержки, связанные с поиском выгодных для обеих сторон условий и достижением компромисса, могут оставаться довольно высокими. Безусловно, разные стратегии торга оказывают влияние на природу переговоров, но при этом все равно неясны причины, по которым достижение такого соглашения могло бы откладываться слишком надолго, тем более если само соглашение заключается в том, чтобы быть достигнутым. Если все-таки к соглашению не удастся прийти, будет иметь место противостояние в той или иной форме; в результате победит либо одна сторона — и вокруг выигравшей коалиции образуется синглтон; либо конфликт превратится в вечный — тогда синглтон может никогда не сформироваться. В итоге мы получим результат несравнимо худший относительно того, который можно было бы планировать, стремясь к скоординированной и направленной на сотрудничество деятельности человечества и тех цифровых сущностей, которые начнут заселять наш мир.

***

Мы увидели, что многополярность, даже если она будет стабильной, не гарантирует, что выход из ситуации окажется благоприятным. Исходная проблема отношений «принципал–агент» останется нерешенной и будет погребена под горой новых проблем, связанных с неудачей постпереходных усилий по глобальной координации, что только ухудшит общую атмосферу. Поэтому предлагаю вернуться к вопросу, каким образом можно обеспечить безопасность человечества в случае прихода в мир единственного вырвавшегося вперед сверхразума.

Глава двенадцатая
Выработка ценностей

Контроль над возможностями — в лучшем случае мера временная и вспомогательная. Если не планируется держать ИИ в заточении вечно, придется разрабатывать принципы выбора мотивации. Но как быть с ценностями? Сможем ли мы внедрить их в систему искусственного агента таким образом, чтобы он начал руководствоваться ими как своими конечными целями? Пока агент не стал разумным, у него, скорее всего, отсутствуют способности к пониманию или даже представлению, что такое система человеческих ценностей. Однако если откладывать процедуру обучения, дожидаясь, когда ИИ станет сверхразумным, то, вполне вероятно, он начнет сопротивляться такому вмешательству в свою систему мотивации и, как мы видели в седьмой главе, у него на то будут конвергентные инструментальные причины. Загрузка системы ценностей проблема не из легких, но отступать нельзя.

Проблема загрузки системы ценностей

Невозможно перечислить все ситуации, в которых может оказаться сверхразум, и для каждой из них определить действия, которые ему следует совершить. Точно так же невозможно составить список всех миров и определить полезность каждого. В любой реальности, гораздо более сложной, чем игра в крестики-нолики, есть слишком много возможных состояний (и исторических состояний[447]), чтобы можно было использовать метод полного перебора. Значит, систему мотивации нельзя задать в виде исчерпывающей таблицы поиска. Вместо этого она должна быть определена более абстрактно, в качестве какой-то формулы или правила, позволяющих агенту решить, как поступить в любой ситуации.

Один из формальных путей описания этого правила решений состоит в определении функции полезности. Функция полезности (как мы помним из первой главы) задает ценность каждого возможного исхода или в более общем случае — каждого из так называемых возможных миров. При наличии функции полезности можно определить агента, максимизирующего ожидаемую полезность. В любой момент такой агент выбирает действие, имеющее самое высокое значение полезности. (Ожидаемая полезность рассчитывается путем умножения полезности каждого возможного мира на субъективную вероятность того, что этот мир станет реальностью при условии совершения рассматриваемого действия.) В реальности возможных исходов оказывается слишком много, чтобы можно было точно рассчитать ожидаемую полезность действия. Тем не менее правило принятия решения и функция полезности вместе определяют нормативный идеал — понятие оптимальности, — который агент мог бы разработать, чтобы сделать приближение, причем по мере повышения уровня интеллекта ИИ приближение становится все точнее[448]. Создание машины, способной вычислить хорошее приближение ожидаемой полезности доступных ей действий, является ИИ-полной задачей[449]. В этой главе мы рассматриваем другую задачу — задачу, которая остается таковой даже в случае решения проблемы создания машинного интеллекта.

Схему агента, максимизирующего полезность, мы используем для того, чтобы представить оказавшегося в затруднительном положении программиста, работающего с зародышем ИИ и намеревающегося решить проблему контроля. Для этого он наделяет ИИ конечной целью, соответствующей, в принципе, нормальному человеческому представлению о желаемом исходе. Программист, у которого есть своя система ценностей, хотел бы, чтобы ИИ усвоил ее. Предположим, речь идет о понятии счастья. (Такие же проблемы возникли бы, если бы программиста интересовали такие понятия, как правосудие, свобода, слава, права человека, демократия, экологическое равновесие, саморазвитие.) Таким образом, в терминах ожидаемой полезности программисту нужно определить функцию полезности, которая задает ценность возможных миров в зависимости от уровня счастья, который они обеспечивают. Но как выразить эту функцию в исходном коде? В языках программирования нет понятия «счастье». Чтобы этот термин использовать, ему сначала следует дать определение. Причем недостаточно определить его, используя философские концепции и привычную для человека терминологическую базу, например: «счастье — это наслаждение потенциальными возможностями, присущими нашей человеческой природе», или каким-то иным не менее мудреным способом. Определение должно быть дано в терминах, используемых в языке программирования ИИ, а в конечном счете с помощью таких базовых элементов, как математические операторы и ссылки на ячейки памяти. Когда смотришь на проблему с этой точки зрения, становится понятна сложность стоящей перед программистом задачи.

Идентифицировать и кодифицировать наши конечные цели так трудно потому, что человек пользуется довольно сложной системой дефиниций. Но эта сложность естественна для нас, поэтому мы ее не замечаем. Проведем аналогию со зрительным восприятием. Зрение точно так же может показаться простым делом, поскольку не требует от нас никаких усилий[450]. Кажется, что нужно всего лишь открыть глаза, и в нашем мозгу тут же возникает богатое, осмысленное, рельефное трехмерное изображение окружающего нас мира. Это интуитивное представление о зрении сродни ощущениям монарха от организации быта в его дворце: ему кажется, что каждый предмет просто появляется в нужном месте в нужное время, притом что механизм, обеспечивающий это, полностью скрыт от его взора. Однако выполнение даже простейшей визуальной задачи: поиск перечницы на кухне — требует проведения колоссального объема вычислительных действий. На базе зашумленной последовательности двумерных паттернов, возникшей в результате возбуждения нервных клеток сетчатки глаза и переданной по глазному нерву в мозг, зрительная кора головного мозга должна реконструировать и интерпретировать трехмерное представление окружающего пространства. Заметная часть поверхности коры головного мозга — нашей драгоценной недвижимости площадью один квадратный метр — занята областью обработки зрительной информации; когда вы читаете эту книгу, над выполнением этой задачи неустанно работают миллиарды нейронов (словно множество швей, склонившихся над своими швейными машинами в ателье и множество раз за секунду успевающих сшивать и снова распарывать огромное стеганое одеяло). Точно так же наши, казалось бы, простые ценности и желания на самом деле очень сложны[451]. Как программист мог бы отразить всю эту сложность в функции полезности?

Один из подходов заключается в том, чтобы попробовать напрямую закодировать полное представление о конечной цели, которую программист назначил для ИИ; иными словами, нужно записать функцию полезности, применив метод точной спецификации. Этот подход мог бы сработать, если у нас была бы чрезвычайно простая цель, например мы хотели бы знать, сколько десятичных знаков после запятой стоит в числе пи. Еще раз: единственное, что нам понадобилось бы от ИИ, чтобы он рассчитал все знаки после запятой в числе пи. И нас не волновали бы никакие иные последствия достижения им этой цели (как мы помним, это проходило по категории пагубных отказов, тип — инфраструктурная избыточность). Было бы полезно при использовании метода точной спецификации выбрать еще метод приручения. Но если развиваемый ИИ должен стать сверхразумным монархом, а его конечной целью является следовать любым возможным человеческим ценностям, тогда метод точной спецификации, необходимый для полного определения цели, — безнадежно недостижимая задача[452].

Допустим, мы не можем загрузить в ИИ описание человеческих ценностей с помощью их полного представления на языке программирования — тогда что еще можно попробовать сделать? В этой главе мы обсудим несколько альтернативных путей. Какие-то из них на первый взгляд представляются вполне возможными, но при ближайшем рассмотрении оказываются гораздо менее выполнимыми. В дальнейшем имеет смысл обсуждать те пути, которые останутся открытыми.

Решение проблемы загрузки системы ценностей — задача, достойная усилий лучших представителей следующего поколения талантливых математиков. Мы не можем себе позволить откладывать решение этой проблемы до тех времен, когда усовершенствованный ИИ станет настолько разумным, что с легкостью раскусит наши намерения. Как мы уже знаем из раздела об инструментальной конвергенции (глава седьмая), он будет сопротивляться попыткам изменить его конечные цели. Если искусственный агент еще не стал абсолютной дружественным к моменту, когда обрел возможность размышлять о собственной агентской сущности, он вряд ли благосклонно отнесется к нашим планам по «промывке мозгов» или к заговору с целью заменить его на другого агента, отличающегося большим благорасположением к своим создателям и ближайшим соседям.

Естественный отбор

Эволюция уже один раз создала живое существо, наделенное системой ценностей. Этот неоспоримый факт может вдохновить на размышления, что проблему загрузки ценностей в ИИ можно решить эволюционными методами. Однако на этом пути — не столь безопасном, как кажется, — нас ожидают некоторые препятствия. Мы вспоминали о них в конце десятой главы, когда обсуждали, насколько опасными могут быть мощные поисковые процессы.

Эволюцию можно рассматривать в качестве отдельного класса поисковых алгоритмов, предполагающих двухэтапную настройку: на одном этапе — популяция возможных решений расширяется за счет новых кандидатов в соответствии с каким-то простым стохастическим правилом (например, случайной мутацией или половой рекомбинацией), на другом — популяция сокращается за счет отсева кандидатов, показывающих неудовлетворительные результаты тестирования при помощи оценочной функции. Как и в случае многих других типов мощного поиска, есть риск, что этот процесс отыщет решение, действительно удовлетворяющее формально определенному критерию поиска, но не отвечающее нашим моральным ожиданиям. (Это может случиться независимо от того, стремимся ли мы создать цифровой разум, имеющий такие же цели и ценности, как у среднестатистического человека, или, напротив, представляющий собой образец нравственности или идеал покорности.) Такого риска можно избежать, если не ограничиваться одноаспектным запросом на то, что мы хотим разработать, а постараться описать формальный критерий поиска, точно отражающий все измерения нашей цели. Но это уже оборачивается полновесной проблемой загрузки системы ценностей — и тогда нужно исходить из того, что она решена. В этом случае возникает следующая проблема, изложенная Ричардом Докинзом в книге «Река, текущая из рая»:

Общее количество страдания в мире в год превосходит все мыслимые пределы. За минуту, которая потребовалась мне для написания этого предложения, тысячи животных были съедены живьем; спасались от хищников бегством, скуля от страха; медленно погибали из-за пожирающих их изнутри паразитов; умирали от голода, жажды и болезней[453].

Даже если ограничиться одним нашим видом, то ежедневно погибает сто пятьдесят тысяч человек, и бесконечное количество людей страдает от всевозможных мучений и лишений[454]. Может быть, природа и великий экспериментатор, но на свои опыты она никогда не получит одобрения у совета по этике, поскольку постоянно нарушает Хельсинкскую декларацию со всеми ее этическими нормами[455], причем с точек зрения и левых, и правых, и центристов. Важно другое: чтобы мы сами не шли слепо по пятам природы и не воспроизводили бездумно in silico[456] все эти ужасы. Правда, вряд ли у нас получится совсем избежать проявлений преступной безнравственности, если мы собираемся создавать искусственный интеллект по образу и подобию человеческого разума, опираясь на эволюционные методы, — чтобы повторить хотя бы на минимальном уровне естественный процесс развития, называемый биологической эволюцией[457].

Обучение с подкреплением

Обучение с подкреплением — это область машинного обучения, в которой агенты могут учиться максимизировать накопленное вознаграждение. Формируя нужную среду, в которой поощряется любое желательное качество агента, можно создать агента, способного научиться решать широкий круг задач (даже в отсутствие подробной инструкции или обратной связи с программистами, но лишь бы присутствовал сигнал о поощрении). Часто алгоритм обучения с подкреплением включает в себя постепенное построение некоторой функции оценки, которая присваивает значение ценности состояниям, парам состояние–действие и различным стратегическим направлениям. (Например, программа может научиться играть в нарды, используя обучение с подкреплением для постепенного развития навыка оценки позиций на доске.) Можно считать, что эта функция оценки, постоянно меняющаяся с опытом, в том числе включает в себя и обучение нужным целям. Однако то, чему учится агент, это не новые конечные ценности, но все более точные оценки инструментальной ценности достижения определенных состояний (или совершения определенных действий в определенных состояниях, или следования определенной политике). Поскольку конечная цель остается величиной постоянной, мы всегда можем описать агента, проходящего обучение с подкреплением, как агента, имеющего конечную цель. Эта неизменная конечная цель агента — его стремление получать максимальное поощрение в будущем. Вознаграждение состоит из специально разработанных объектов восприятия, помещенных в его окружающую среду. Таким образом, в результате обучения с подкреплением у агента формируется устойчивый эффект самостимуляции (о котором подробно говорилось в главе восьмой), то есть агент начинает выстраивать собственную довольно сложную модель такого мира, который в состоянии предложить ему альтернативный вариант максимизации вознаграждения[458].

Наши замечания не подразумевают, будто обучение с подкреплением нельзя применять для развития безопасного для нас зародыша ИИ, мы лишь хотим сказать, что его использование следует соотносить с системой мотивации, которая сама по себе не основана на принципе максимизации вознаграждения. Тогда, чтобы решить проблему загрузки системы ценностей, потребуется искать иные подходы, нежели метод обучения с подкреплением.

Ассоциативная модель ценностного приращения

Невольно возникает вопрос: если проблема загрузки системы ценностей столь неподатлива, как нам самим удается обзаводиться ценностной ориентацией?

Одна из возможных (чрезмерно упрощенных) моделей выглядит примерно так. Мы вступаем в жизнь не только с относительно простым набором базовых предпочтений (иначе почему бы мы с детства испытывали неприятные ощущения от каких-то возбудителей и старались инстинктивно избегать этого?), но и с некоторой склонностью к приобретению дополнительных предпочтений, что происходит за счет обогащения опытом (например, у нас начинают формироваться определенные эстетические предпочтения, поскольку мы видим, что в нашем культурном пространстве какие-то цели и идеалы особо ценностны, а какое-то поведение весьма поощряется). И базовые первичные предпочтения, и склонность приобретать в течение жизни ценностные предпочтения являются врожденными чертами человека, сформированными в результате естественного и генетического отбора в ходе эволюции. Однако дополнительные предпочтения, которые складываются у нас к моменту взросления, зависят от жизненного пути. Таким образом, большая часть информационно-семантических моделей, имеющих отношение к нашим конечным ценностям, не заложена генетически, а приобретена благодаря опыту.

Например, в нашей жизни появился любимый человек, и конечно, для нас важнейшей конечной ценностью становится его благополучие. От каких механизмов зависит появление этой ценности? Какие смысловые структуры задействованы в ее формировании? Структур много, но мы возьмем лишь две — понятие «человек» и понятие «благополучие». Ни эти, ни какие другие представления непосредственно не закодированы в нашей ДНК. Скорее, в ДНК хранится информация и инструкции по строительству и развитию нашего мозга, а значит, и нашего разума, который, пребывая в человеческой среде обитания, за несколько лет создает свою модель мира — модель, включающую и дефиницию человека, и дефиницию благополучия. Только после того как сложились эти два представления, можно приступать к объяснению, каким таким особым значением наполнена наша конечная ценность. А теперь вернемся к первому вопросу: от каких механизмов зависит появление наших ценностных предпочтений? Почему желание блага любимому человеку формируется вокруг именно этих обретенных нами представлений, а не каких-то других, тоже обретенных, — вроде представлений о цветочном горшке или штопоре? Вероятно, должен существовать какой-то особый врожденный механизм.

Как работает сам механизм, нам неизвестно. Он, видимо, очень сложный и многогранный, особенно в отношении человека. Поэтому, чтобы хоть как-то понять, как он действует, рассмотрим его примитивную форму на примере животных. Возьмем так называемую реакцию следования (геномный, или родительский, импринтинг), в частности, у выводковых птиц, когда только что вылупившийся, но уже сформированный, птенец сразу начинает неотступно следовать за родителями или первым увиденным движущимся объектом. За каким объектом-«мамой» птенец пожелает двигаться, зависит от его первого опыта, но сам процесс запечатления в памяти соответствующей сенсорной информации (импринтинг) обусловлен генетическими особенностями. Попытаемся провести аналогию с человеческими привязанностями. Когда Гарри встретил Салли, ее благополучие стало для него абсолютной ценностью, но предположим, что они так и не встретились, и Гарри полюбил бы другую; тогда, может быть, его ценностные предпочтения тоже были бы иными. Способность генов человека кодировать механизм выработки целеполагания лишь объясняет, почему наша конечная цель обрастает разнообразными информационно-семантическими моделями, но их сложная организация никак не обусловлена генетически.

Следовательно, возникает вопрос: можно ли построить систему мотивации для искусственного интеллекта, основанную на этом принципе? То есть вместо описания сложной системы ценностей напрямую определить некий механизм, который обеспечил бы приобретение этих ценностей в процессе взаимодействия ИИ с определенной средой.

Похоже, имитировать процесс формирования ценностей, характерный для людей, непросто. Соответствующий человеческий генетический механизм стал результатом колоссальной работы, проделанной эволюцией, и повторить ее работу будет трудно. Более того, механизм, вероятно, рассчитан на нейрокогнитивную систему человека и поэтому неприменим к машинному интеллекту за исключением имитационных моделей. Но даже если полная эмуляция головного мозга окажется возможной, лучше будет начать с загрузки разума взрослого человека — разума, уже содержащего полное представление о некоторой совокупности человеческих ценностей[459].

Таким образом, попытка разработать модель ценностного приращения, точно имитирующую процесс формирования системы ценностей человека, означает безуспешную серию атак на проблему загрузки ценностей. Но, возможно, мы могли бы создать более простой искусственный механизм импорта в целевую систему ИИ высокоточных представлений о нужных нам ценностях? Чтобы добиться успеха, не обязательно снабжать ИИ точно такой же, как у людей, врожденной склонностью приобретать ценностные предпочтения. Возможно, это даже нежелательно — в конце концов, человеческая природа несовершенна, человек слишком часто делает выбор в пользу зла, что неприемлемо в любой системе, способной получить решающее стратегическое преимущество. Наверное, лучше ориентироваться на систему мотивации, не всегда соответствующей человеческим нормам, например такую, которой свойственна тенденция формировать конечные цели, полные бескорыстия, сострадания и великодушия, — любого, имеющего такие качества, мы сочли бы образцовым представителем человеческого рода. Эти конечные цели должны отклоняться от человеческой нормы в строго определенном направлении, иначе их трудно будет считать улучшениями; кроме того, они должны предполагать наличие неизменной антропоцентричной системы координат, при помощи которой можно делать значимые с человеческой точки зрения оценочные обобщения (чтобы избежать порочной реализации на базе искусственно приемлемых описаний цели, которую мы рассматривали в главе восьмой). Вопрос, насколько такое возможно, по-прежнему остается открытым.

Еще одна проблема, связанная с ассоциативной моделью ценностного приращения, заключается в том, что ИИ может просто отключить этот механизм приращения. Как мы видели в седьмой главе, неприкосновенность целевой системы является его конвергентной инструментальной целью. Достигнув определенной стадии когнитивного развития, ИИ может начать воспринимать продолжающуюся работу механизма приращения как враждебное вмешательство[460]. Это необязательно плохо, но нужно с осторожностью подходить к блокировке целевой системы, чтобы ее отключение произошло в правильный момент: после того, как были приобретены нужные ценности, но до того, как они будут перезаписаны в виде непреднамеренного приращения.

Строительные леса для мотивационной системы

Есть еще один подход к решению проблемы загрузки системы ценностей, который можно назвать «возведение строительных лесов». Подход состоит в наделении зародыша ИИ временными сравнительно простыми конечными целями, которые можно выразить прямым кодированием или каким-то иным доступным способом. Наступит время, и ИИ будет способен формировать более сложные представления. Тогда мы снимем мотивационные «леса» и заменим временные ценности на новые, которые останутся конечной ценностной системой ИИ, даже когда он разовьется в полноценный сверхразум.

Поскольку временные цели — не просто инструментальные, но конечные цели ИИ, можно ожидать, что он будет сопротивляться их замене (неприкосновенность системы целей является конвергентной инструментальной ценностью). В этом и состоит главная опасность. Если ИИ преуспеет в противодействии замене временных целей постоянными, метод потерпит неудачу.

Чтобы избежать такого отказа, необходимо соблюдать осторожность. Например, можно использовать метод контроля над возможностями, чтобы ограничить свободу ИИ до тех пор, пока не будет инсталлирована зрелая система мотивации. В частности, можно попробовать остановить его когнитивное развитие на таком уровне, где можно безопасно и эффективно наделить ИИ желательными для нас конечными целями. Для этого нужно затормозить совершенствование отдельных когнитивных способностей, в частности, таких, которые требуются для выработки стратегии и хитроумных схем в духе Макиавелли, при этом позволив развиваться более безобидным (предположительно) способностям.

Программисты могут попробовать создать атмосферу сотрудничества с ИИ при помощи методов выбора мотивации. Например, использовав такую временную цель, как готовность выполнять команды людей, в том числе команд, предполагающих замену любых имеющихся целей ИИ[461]. К другим временным целям относятся прозрачность ценностей и стратегии ИИ, а также разработка легкой для понимания программистами архитектуры, включающей последнюю версию конечной цели, значимой с точки зрения людей, и мотивированность к приручению (например, к ограничению использования вычислительных ресурсов).

Можно было бы попробовать и такой вариант: со временем заменить зародыш ИИ, наделенный единственной конечной целью, на аналогичную версию зародыша, но уже с другой конечной целью, заданной программистами косвенным образом. С такой заменой связаны некоторые трудности, особенно в контексте подхода к обучению целям, который мы обсудим в следующем разделе. Другие трудности будут рассмотрены в главе тринадцатой.

Метод возведения строительных лесов для мотивационной системы не лишен недостатков. В частности, есть риск, что ИИ станет слишком могущественным прежде, чем будет изменена его временная целевая система. Тогда он может воспротивиться (явно или тайно) усилиям программистов по ее замене на постоянную. В результате на этапе превращения зародыша ИИ в полноценный сверхразум останутся актуальными старые конечные цели. Еще один недостаток состоит в том, что наделение ИИЧУ желательными для разработчиков конечными целями может оказаться не таким простым делом, как в случае более примитивного ИИ. В отличие от него зародыш ИИ представляет собой tabula rasa, позволяя сформировать любую его структуру по желанию программистов. Этот недостаток может превратиться в преимущество, если удастся наделить зародыш ИИ временными целями, благодаря которым он будет стремиться к созданию такой архитектуры, которая поможет разработчикам в их последующих усилиях по заданию ему постоянных конечных целей. Однако пока неясно, легко ли обеспечить наличие у временных целей зародыша ИИ такого свойства, а также будет ли способен даже идеально мотивированный ИИ создать лучшую архитектуру, чем команда программистов-людей.

Обучение ценностям

Теперь переходим к загрузке ценностей — серьезная проблема, которую придется решать довольно мягким методом. Он состоит в обучении ИИ ценностям, которые мы хотели бы ему поставить. Для этого потребуется хотя бы неявный критерий их отбора. Можно настроить ИИ так, чтобы он действовал в соответствии со своими представлениями об этих неявно заданных ценностях. Данные представления он будет уточнять по мере расширения своих знаний о мире.

В отличие от метода мотивационных строительных лесов, когда ИИ наделяется временной конечной целью, которая потом заменяется на отличную от нее постоянную, в методе обучения ценностям конечная цель не меняется на стадии разработки и функционирования ИИ. Обучение меняет не саму цель, а представления ИИ об этой цели.

Таким образом, у ИИ должен быть критерий, при помощи которого он мог бы определять, какие объекты восприятия содержат свидетельства в пользу некоторой гипотезы, что представляет собой конечная цель, а какие — против нее. Определить подходящий критерий может быть трудно. Отчасти эта трудность связана с самой задачей создания ИИ, которому требуется мощный механизм обучения, способный определять структуру окружающего мира на основании ограниченных сигналов от внешних датчиков. Этой проблемы мы касаться не будем. Но даже если считать задачу создания сверхразумного ИИ решенной, остаются трудности, специфические для проблемы загрузки системы ценностей. В случае метода обучения целям они принимают форму определения критерия, который связывает воспринимаемые потоки информации с гипотезами относительно тех или иных целей.

Прежде чем глубже погрузиться в метод обучения ценностям, было бы полезно проиллюстрировать идею на примере. Возьмем лист бумаги, напишем на нем определение какого-то набора ценностей, положим в конверт и заклеим его. После чего создадим агента, обладающего общим интеллектом человеческого уровня, и зададим ему следующую конечную цель: «Максимизировать реализацию ценностей, описание которых находится в этом конверте». Что будет делать агент?

Он не знает, что содержится в конверте. Но может выстраивать гипотезы и присваивать им вероятности, основываясь на всей имеющейся у него информации и доступных эмпирических данных. Например, анализируя другие тексты, написанные человеком, или наблюдая за человеческим поведением и отмечая какие-то закономерности. Это позволит ему выдвигать догадки. Не нужно иметь диплом философа, чтобы предположить, что, скорее всего, речь идет о заданиях, связанных с определенными ценностями: «минимизируй несправедливость и бессмысленные страдания» или «максимизируй доход акционеров», вряд ли его попросят «покрыть поверхность всех озер пластиковыми пакетами».

Приняв решение, агент начинает действовать так, чтобы реализовать ценности, которые, по его мнению, с наибольшей вероятностью содержатся в конверте. Важно, что при этом он будет считать важной инструментальной целью как можно больше узнать о содержимом конверта. Причина в том, что агент мог бы лучше реализовать почти любую конечную ценность, содержащуюся в конверте, если бы знал ее точную формулировку — тогда он действовал бы гораздо эффективнее. Агент также обнаружит конвергентные инструментальные причины (описанные в главе седьмой): неизменность целей, улучшение когнитивных способностей, приобретение ресурсов и так далее. И при этом, если исходить из предположения, что он присвоит достаточно высокую вероятность тому, что находящиеся в конверте ценности включают благополучие людей, он не станет стремиться реализовать эти инструментальные цели за счет немедленного превращения планеты в компьютрониум, тем самым уничтожив человеческий вид, поскольку это будет означать риск окончательно лишиться возможности достичь конечной ценности.

Такого агента можно сравнить с баржей, которую несколько буксиров тянут в разные стороны. Каждый буксир символизирует какую-то гипотезу о конечной ценности. Мощность двигателя буксира соответствует вероятности гипотезы, поэтому любые новые свидетельства меняют направление движения баржи. Результирующая сила перемещает баржу по траектории, обеспечивающей обучение (неявно заданной) конечной ценности и позволяющей обойти мели необратимых ошибок; а позднее, когда баржа достигнет открытого моря, то есть более точного знания конечной ценности, буксир с самым мощным двигателем потянет ее по самому прямому или благоприятному маршруту.

Метафоры с конвертом и баржей иллюстрируют принцип, лежащий в основе метода обучения ценностям, но обходят стороной множество критически важных технических моментов. Они станут заметнее, когда мы начнем описывать этот метод более формально (см. врезку 10).

Как можно наделить ИИ такой целью: «максимизируй реализацию ценностей, изложенных в записке, лежащей в запечатанном конверте»? (Или другими словами, как определить критерий цели — см. врезку 10.) Чтобы сделать это, необходимо определить место, где описаны ценности. В нашем примере это требует указания ссылки на текст в конверте. Хотя эта задача может показаться тривиальной, но и она не без подводных камней. Упомянем лишь один: критически важно, чтобы ссылка была не просто на некий внешний физический объект, но на объект по состоянию на определенное время. В противном случае ИИ может решить, что наилучший способ достичь своей цели — это заменить исходное описание ценности на такое, которое значительно упростит задачу (например, найти большее число для некоторого целого числа). Сделав это, ИИ сможет расслабиться и бить баклуши — хотя скорее за этим последует опасный отказ по причинам, которые мы обсуждали в главе восьмой. Итак, теперь встал вопрос, как определить это время. Мы могли бы указать на часы: «Время определяется движением стрелок этого устройства», — но это может не сработать, если ИИ предположит, что в состоянии манипулировать временем, управляя стрелками часов. И он будет прав, если определять «время» так, как это сделали мы. (В реальности все будет еще сложнее, поскольку соответствующие ценности не будут изложены в письменном виде. Скорее всего, ИИ придется выводить ценности из наблюдений за внешними структурами, содержащими соответствующую информацию, такими как человеческий разум.)

ВРЕЗКА 10. ФОРМАЛИЗАЦИЯ ОБУЧЕНИЯ ЦЕННОСТЯМ

Чтобы яснее понять метод, опишем его более формально. Читатели, которые не готовы погружаться в математические выкладки, могут этот раздел пропустить.
Предположим, что есть упрощенная структура, в которой агент взаимодействует со средой конечного числа моментов[462]. В момент k агент выполняет действие y_k, после чего получает ощущение x_k. История взаимодействия агента со средой в течение жизни m описывается цепочкой y₁x₁y₂x₂…y_mx_m (которую мы представим в виде yx_1:m или yx_m). На каждом шаге агент выбирает действие на основании последовательности ощущений, полученных к этому моменту.
Рассмотрим вначале обучение с подкреплением. Оптимальный ИИ, обучающийся с подкреплением (ИИ-ОП), максимизирует будущую ожидаемую награду. Тогда выполняется уравнение[463]
Последовательность подкреплений r_k, …, r_m вытекает из последовательности воспринимаемых состояний среды x_k:m, поскольку награда, полученная агентом на каждом шаге, является частью восприятия, полученного на этом шаге.
Мы уже говорили, что такого рода обучение с подкреплением в нынешних условиях не подходит, поскольку агент с довольно высоким интеллектом поймет, что обеспечит себе максимальное вознаграждение, если сможет напрямую манипулировать сигналом системы наград (эффект самостимуляции). В случае слабых агентов это не будет проблемой, поскольку мы сможем физически предотвратить их манипуляции с каналом, по которому передаются вознаграждения. Мы можем также контролировать их среду, чтобы они получали вознаграждение только в том случае, если их действия согласуются с нашими ожиданиями. Но у любого агента, обучающегося с подкреплением, будут иметься серьезные стимулы избавиться от этой искусственной зависимости: когда его вознаграждения обусловлены нашими капризами и желаниями. То есть наши отношения с агентом, обучающимся с подкреплением, фундаментально антагонистичны. И если агент силен, это может быть опасно.
Варианты эффекта самостимуляции также могут возникнуть у систем, не стремящихся получить внешнее вознаграждение, то есть у таких, чьи цели предполагают дотижение какого-то внутреннего состояния. Скажем, в случае систем «актор–критик», где модуль актора выбирает действия так, чтобы минимизировать недовольство отдельного модуля критика, который вычисляет, насколько соответствует поведение актора требуемым показателям эффективности. Проблема этой системы следующая: модуль актора может понять, что способен минимизировать недовольство критика, изменив или вовсе ликвидировав его — как диктатор, распускающий парламент и национализирующий прессу. В системах с ограниченными возможностями избежать этой проблемы можно просто: не дав модулю актора никаких инструментов для модификации модуля критика. Однако обладающий достаточным интеллектом и ресурсами модуль актора всегда сможет обеспечить себе доступ к модулю критика (который фактически представляет собой лишь физический вычислительный процесс в каком-то компьютере)[464].
Прежде чем перейти к агенту, который проходит обучение ценностям, давайте в качестве промежуточного шага рассмотрим другую систему, максимизирующую полезность на основе наблюдений (ИИ-МНП). Она получается путем замены последовательности подкреплений (r_k + … + r_m) в ИИ-ОП на функцию полезности, которая может зависеть от всей истории будущих взаимодействий ИИ:
Эта формула позволяет обойти проблему самостимуляции, поскольку функцию полезности, зависящую от всей истории взаимодействий, можно разработать так, чтобы наказывать истории взаимодействия, в которых проявляются признаки самообмана (или нежелания агента прикладывать достаточные усилия, чтобы получить точную картину действительности).
Таким образом, ИИ-МНП дает возможность обойти проблему самостимуляции в принципе. Однако, чтобы ею воспользоваться, нужно задать подходящую функцию полезности на классе всех возможных историй взаимодействия — а это очень трудная задача.
Возможно, более естественным было бы задать функцию полезности непосредственно в терминах возможных миров (или свойств возможных миров, или теорий о мире), а не в терминах историй взаимодействия агента. Используя этот подход, формулу оптимальности ИИ-МНП можно переписать и упростить:
Здесь E — это все свидетельства, доступные агенту (в момент, когда он принимает решение), а U — функция полезности, которая присваивает полезность некоторому классу возможных миров. Оптимальный агент будет выбирать действия, которые максимизируют ожидаемую полезность.
Серьезная проблема этих формул — сложность задания функции полезности. И это наконец возвращает нас к проблеме загрузки ценностей. Чтобы функцию полезности можно было получить в процессе обучения, мы должны расширить наше формальное определение и допустить неопределенность функции полезности. Это можно сделать следующим образом (ИИ-ОЦ)[465]:
где v(—) — функция от функций полезности для предположений относительно функций полезности. v(U) — предположение, что функция полезности U удовлетворяет критерию ценности, выраженному v[466]
То есть чтобы решить, какое действие выполнять, нужно действовать следующим образом: во-первых, вычислить условную вероятность каждого возможного мира w (учитывая все возможные свидетельства и исходя из предположения, что должно быть выполнено действие y); во-вторых, для каждой возможной функции U вычислить условную вероятность того, что U удовлетворяет критерию ценности v (при условии, что w — это реальный мир); в-третьих, для каждой возможной функции полезности U вычислить полезность возможного мира w; в-четвертых, использовать все эти значения для расчета ожидаемой полезности действия y; в-пятых, повторить эту процедуру для всех возможных действий и выполнить действие, имеющее самую высокую ожидаемую полезность (используя любой метод выбора из равных значений в случае возникновения таковых). Понятно, что таким образом описанная процедура — предполагающая явное рассмотрение всех возможных миров — вряд ли реализуема с точки зрения потребности в вычислительных ресурсах. ИИ придется использовать обходные пути, чтобы аппроксимировать это уравнение оптимальности.
Остается вопрос, как определить критерий ценности v[467] Если у ИИ появится адекватное представление этого критерия, он, в принципе, сможет использовать свой интеллект для сбора информации о том, какие из возможных миров с наибольшей вероятностью могут оказаться реальными. После чего применить критерий ценности для каждого потенциально реального мира, чтобы выяснить, какая целевая функция удовлетворяет критерию в мире w. То есть формулу ИИ-ОЦ можно считать одним из способов идентифицировать и выделить ключевую сложность в методе обучения ценностям — как представить v. Формальное описание задачи высвечивает также множество других сложностей (например, как определить Y, W и U), с которыми придется справиться прежде, чем метод можно будет использовать[468].

Другая трудность кодирования цели «максимизируй реализацию ценностей из конверта» заключается в том, что даже если в этом письме описаны все правильные ценности и система мотивации ИИ успешно воспользуется этим источником, ИИ может интерпретировать описания не так, как предполагалось его создателями. Это создаст риск порочной реализации, описанной в главе восьмой.

Поясним, что трудность здесь даже не в том, как добиться, чтобы ИИ понял намерения людей. Сверхразум справится с этим без проблем. Скорее, трудность заключается в том, чтобы ИИ был мотивирован на достижение описанных целей так, как предполагалось. Понимание наших намерений это не гарантирует: ИИ может точно знать, что мы имели в виду, и не обращать никакого внимания на эту интерпретацию наших слов (используя в качестве мотивации иную их интерпретацию или вовсе на них не реагируя).

Трудность усугубляется тем, что в идеале (по соображениям безопасности) правильную мотивацию следует загрузить в зародыш ИИ до того, как он сможет выстраивать представления любых человеческих концепций и начнет понимать намерения людей. Это потребует создания какого-то когнитивного каркаса, в котором будет предусмотрено определенное место для системы мотивации ИИ как хранилища его конечных ценностей. Но у ИИ должна быть возможность изменять этот когнитивный каркас и развивать свои способности представления концепций по мере узнавания мира и роста интеллекта. ИИ может пережить эквивалент научной революции, в ходе которой его модель мира будет потрясена до основания, и он, возможно, столкнется с онтологическим кризисом, осознав, что его предыдущее видение целей было основано на заблуждениях и иллюзиях. При этом, начиная с уровня интеллекта, еще не достигающего человеческого, и на всех остальных этапах развития, вплоть до сверхразума галактических масштабов, поведение ИИ должно определяться, по сути, неизменной конечной системой ценностей, которую благодаря этому развитию ИИ понимает все лучше; при этом зрелый ИИ, скорее всего, будет понимать ее совсем не так, как его разработчики, хотя эта разница возникнет не в результате случайных или враждебных действий ИИ, но скорее из добрых побуждений. Как бороться с этим, еще неясно[469] (см. врезку 11).

Подводя итоги, стоит сказать, что пока неизвестно, как использовать метод обучения ценностям для формирования у ИИ ценностной системы, приемлемой для человека (впрочем, некоторые новые идеи можно найти во врезке 12). В настоящее время этот метод следует считать скорее перспективным направлением исследований, нежели доступной для применения техникой. Если удастся заставить его работать, он может оказаться почти идеальным решением проблемы загрузки ценностей. Помимо прочих преимуществ, его использование станет естественным барьером для проявлений с нашей стороны преступной безнравственности, поскольку зародыш ИИ, способный догадаться, какие ценностные цели могли загрузить в него программисты, может додуматься, что подобные действия не соответствуют этим ценностям и поэтому их следует избегать как минимум до тех пор, пока не будет получена более определенная информация.

Последний, но немаловажный, вопрос — что положить в конверт? Или, если уйти от метафор, каким ценностям мы хотели бы обучить ИИ? Но этот вопрос одинаков для всех методов решения проблемы загрузки ценностей. Вернемся к нему в главе тринадцатой.

ВРЕЗКА 11. ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ, КОТОРЫЙ ХОЧЕТ БЫТЬ ДРУЖЕСТВЕННЫМ

Элиезер Юдковский попытался описать некоторые черты архитектуры зародыша ИИ, которая позволила бы ему вести себя так, как описано выше. В его терминологии такой ИИ должен использовать «семантику внешних ссылок»[470]. Чтобы проиллюстрировать основную идею Юдковского, давайте предположим, что мы хотим создать дружественный ИИ. Его исходная цель — попытаться представить себе некое свойство F, но изначально ИИ почти ничего об F не знает. Ему известно лишь, что F — некоторое абстрактное свойство. И еще он знает, что когда программисты говорят о дружественности, они, вероятно, пытаются передать информацию об F. Поскольку конечной целью ИИ является составление формулировки понятия F, его важной инструментальной целью становится больше узнать об F. По мере того как ИИ узнает об F все больше, его поведение все сильнее определяется истинным содержанием этого свойства. То есть можно надеяться, что чем больше ИИ узнаёт и чем умнее становится, тем более дружелюбным он становится.
Разработчики могут содействовать этому процессу и снизить риск того, что ИИ совершит какую-то катастрофическую ошибку, пока не до конца понимает значение F, обеспечивая его «заявлениями программистов» — гипотезами о природе и содержании F, которым изначально присваивается высокая вероятность. Например, можно присвоить высокую вероятность гипотезе «вводить программистов в заблуждение недружественно». Однако такие заявления не являются «истиной по определению», аксиомами концепции дружелюбия. Скорее всего, это лишь начальные гипотезы, которым рациональный ИИ будет присваивать высокую вероятность как минимум до тех пор, пока доверяет эпистемологическим способностям программистов больше, чем своим.
Юдковский также предложил использовать то, что он называет «семантика причинной валидности». Идея состоит в том, чтобы ИИ делал не в точности то, что программисты говорят ему делать, но скорее то, что они пытались ему сказать сделать. Пытаясь объяснить зародышу ИИ, что такое дружелюбие, они могли совершить ошибку в своих объяснениях. Более того, сами программисты могли не до конца понимать истинную природу дружелюбия. Поэтому хочется, чтобы ИИ мог исправлять ошибки в их умозаключениях и выводить истинное или предполагавшееся значение из неидеальных объяснений, которые дали ему программисты. Например, воспроизводить причинные процессы появления представлений о дружелюбии у самих программистов и о способах его описания; понимать, что в процессе ввода информации об этом свойстве они могли сделать опечатку; попытаться найти и исправить ее. В более общем случае ИИ следует стремиться исправить последствия любого вмешательства, искажающего поток информации о характере дружелюбия, на всем ее пути от программистов до ИИ (где «искажающий» понимается в эпистемологическом смысле). В идеале по мере созревания ИИ ему следует преодолеть все когнитивные искажения и прочие фундаментально ошибочные концепции, которые могли бы помешать программистам до конца понять, что такое дружелюбие.

ВРЕЗКА 12. ДВЕ НОВЕЙШИЕ ИДЕИ — ПРАКТИЧЕСКИ НЕЗРЕЛЫЕ, ПОЧТИ ПОЛУСЫРЫЕ

Подход, который можно назвать «Аве Мария»[471], основан на надежде, что где-то во Вселенной существуют (или вскоре возникнут) цивилизации, успешно справившиеся со взрывным развитием интеллекта и в результате пришедшие к системам ценностей, в значительной степени совпадающим с нашими. В этом случае мы можем попробовать создать свой ИИ, который будет мотивирован делать то же, что и их интеллектуальные системы. Преимущества этого подхода состоят в том, что так создать нужную мотивацию у ИИ может быть легче, чем напрямую.
Чтобы эта схема могла сработать, нашему ИИ нет необходимости связываться с каким-то инопланетным ИИ. Скорее, в своих действиях он должен руководствоваться оценками того, что тот мог бы захотеть сделать. Наш ИИ мог бы смоделировать вероятные исходы взрывного развития интеллекта где-то еще, и по мере превращения в сверхразум делать это все точнее. Идеальных знаний от него не требуется. У взрывного развития интеллекта может быть широкий диапазон возможных исходов, и нашему ИИ нужно постараться определиться с предпочтениями относительно типов сверхразума, которые могут быть связаны с ними, взвешенными на их вероятности.
В этой версии подхода «Аве Мария» требуется, чтобы мы разработали конечные ценности для нашего ИИ, согласующиеся с предпочтениями других систем сверхразума. Как это сделать, пока до конца неясно. Однако структурно сверхразумные агенты должны отличаться, чтобы мы могли написать программу, которая служила бы детектором сверхразума, анализируя модель мира, возникающую в нашем развивающемся ИИ, в поиске характерных для сверхразума элементов представления. Затем программма-детектор могла бы каким-то образом извлекать предпочтения рассматриваемого сверхразума (из его представления о нашем ИИ)[472]. Если нам удастся создать такой детектор, его можно будет использовать для определения конечных ценностей нашего ИИ. Одна из трудностей заключается в том, что нам нужно создать такой детектор раньше, чем мы будем знать, какой каркас представления разработает наш ИИ. Программа-детектор должна уметь анализировать незнакомые каркасы представления и извлекать предпочтения представленных в них систем сверхразума. Это кажется непростой задачей, но, возможно, какое-то ее решение удастся найти[473].
Если получиться реализовать основной подход, можно будет немедленно заняться его улучшением. Например, вместо того чтобы следовать предпочтениям (точнее, их некоторой взвешенной композиции) каждого инопланетного сверхразума, у нашего ИИ может иметься фильтр для отбора подмножества инопланетных ИИ (чтобы он мог брать пример с тех, чьи ценности совпадают с нашими). Например, в качестве критерия включения ИИ в это подмножество может использоваться источник его возникновения. Некоторые обстоятельства создания ИИ (которые мы должны уметь определить в структурных терминах) могут коррелировать с тем, в какой степени появившийся в результате ИИ может разделять наши ценности. Возможно, большее доверие у нас вызовут ИИ, первоисточником которых была полная эмуляция головного мозга, или зародыш ИИ, в котором почти не использовались эволюционные механизмы, или такие, которые возникли в результате медленного контролируемого взлета. (Если брать в расчет источник возникновения ИИ, мы также сможем избежать опасности присвоить слишком большой вес тем ИИ, которые создают множество своих копий, — а на самом деле избежать создания для них стимула делать это.) Можно также внести в этот подход множество других улучшений.
Подход «Аве Мария» подразумевает веру, что где-то существуют другие системы сверхразума, в значительной степени разделяющие наши ценности[474]. Это означает, что он неидеален.
Однако технические препятствия, стоящие на пути реализации подхода «Аве Мария», хотя и значительны, но вполне могут оказаться менее сложными, чем при других подходах. Может быть, имеет смысл изучать подходы пусть и не самые идеальные, но более простые в применении, — причем не для использования, а скорее, чтобы иметь запасной план на случай, если к нужному моменту идеальное решение не будет найдено.
Недавно Пол Кристиано предложил еще одну идею решения проблемы загрузки ценностей[475] Как и при «Аве Марии», это метод обучения ценностям, который предполагает определение критерия ценности не при помощи трудоемкой разработки, а скорее фокусировки. В отличие от «Аве Марии», здесь не предполагается существования других сверхразумных агентов, которые мы используем в качестве ролевых моделей для нашего собственного ИИ. Предложение Кристиано с трудом поддается короткому объяснению — оно представляет собой цепочку сложных умозаключений, — но можно попытаться как минимум указать на его основные элементы.
Предположим, мы получаем: а) математически точное описание мозга конкретного человека; б) математически строго определенную виртуальную среду, содержащую идеализированный компьютер с произвольно большим объемом памяти и сверхмощным процессором. Имея а и б, можно определить функцию полезности U как выходной сигнал, который выдает мозг человека после взаимодействия с этой средой. U может быть математически строго определенным объектом, но при этом таким, который (в силу вычислительных ограничений) мы неспособны описать конкретно. Тем не менее U может служить в качестве критерия ценности при обучении ИИ системе ценностей. При этом ИИ будет использовать различные эвристики, чтобы строить вероятностные гипотезы о том, что представляет собой U.
Интуитивно хочется, чтобы U была такой функцией полезности, которую нашел бы соответствующим образом подготовленный человек, обладающий произвольно большим объемом вычислительных ресурсов, достаточным, например, для создания астрономически большого количества своих имитационных моделей, способных помогать ему в поиске функции полезности или в разработке процесса ее поиска. (Мы сейчас затронули тему конвергентного экстраполированного волеизъявления, которую подробнее рассмотрим в тринадцатой главе.)
Задача описания идеализированной среды кажется относительно простой: мы можем дать математическое описание абстрактного компьютера с произвольно большой емкостью; а также при помощи программы виртуальной реальности описать, скажем, комнату со стоящим в ней компьютерным терминалом (олицетворяющим тот самый абстрактный компьютер). Но как получить математически точное описание мозга конкретного человека? Очевидный путь — его полная эмуляция, но что если эта технология еще не доступна?
Именно в этом и проявляется ключевая инновация, предложенная Кристиано. Он говорит, что для получения математически строгого критерия цели нам не нужна пригодная для практического использования вычислительная имитационная модель мозга, которую мы могли бы запустить. Нам нужно лишь (возможно, неявное и безнадежно сложное) ее математическое определение — а его получить гораздо легче. При помощи функциональной нейровизуализации и других средств измерения можно собрать гигабайты данных о связях между входными и выходными сигналами головного мозга конкретного человека. Собрав достаточное количество данных, можно создать наиболее простую имитационную математическую модель, которая учитывает все эти данные, и эта модель фактически окажется эмулятором рассматриваемого мозга. Хотя с вычислительной точки зрения нам может оказаться не под силу задача отыскать такую имитационную модель из имеющихся у нас данных, опираясь на них и используя математически строгие показатели сложности (например, какой-то вариант колмогоровской сложности, с которой мы познакомились во врезке 1 в первой главе), вполне реально эту модель определить[476].

Вариации имитационной модели

Проблема загрузки ценностей выглядит несколько иначе, если речь идет не об искусственном интеллекте, а об имитационной модели головного мозга. Во-первых, к эмуляторам неприменимы методы, предполагающие понимание процессов на нижнем уровне и контроль над алгоритмами и архитектурой. Во-вторых, имея дело с имитационными моделями головного мозга (и улучшенным биологическим разумом) можно использовать неприменимый для искусственного интеллекта метод приумножения (из общей группы методов выбора мотивации)[477].

Метод приумножения можно сочетать с техниками корректировки изначально имеющихся у системы целей. Например, можно попробовать манипулировать мотивационными состояниями эмуляторов, управляя цифровым эквивалентом психоактивных веществ (или реальных химических веществ, если речь идет о биологических системах). Сегодня уже есть возможность манипулировать целями и мотивацией при помощи лекарственных препаратов, правда, в ограниченной степени[478]. Но фармакология будущего сможет предложить лекарства с гораздо более точным и предсказуемым эффектом. Благодаря цифровой среде, в которой существуют эмуляторы, все эти действия существенно упростятся — в ней гораздо легче проводить контролируемые эксперименты и получать непосредственный доступ к любым областям цифрового мозга.

Как и при проведении опытов над живыми существами, эксперименты на имитационных моделях связаны с этическими трудностями, которые невозможно урегулировать лишь с помощью формы информированного согласия. Подобные довольно трудноразрешимые проблемы могут перерасти в настоящие конфликты, тормозящие развитие проектов, связанных с полной эмуляцией головного мозга (скорее всего, будут введены новые этические стандарты и нормативные акты). Сильнее всего это скажется на исследованиях механизмов мотивационной структуры эмуляторов. Результат может оказаться плачевным: из-за недостаточного изучения методов контроля над возможностями имитационных моделей и методов корректировки их конечных целей когнитивные способности эмуляторов начнут неуправляемо совершенствоваться, пока не достигнут потенциально опасного сверхразумного уровня. Более того, вполне реально, что в ситуации, когда этические вопросы будут стоять особенно остро, вперед вырвутся наименее щепетильные проектные группы и государства. В то же время если мы снизим свои этические стандарты, то в процессе экспериментальной работы с оцифрованным человеческим разумом ему может быть причинен непоправимый вред, что абсолютно неприемлемо. В любом случае нам придется нести полную ответственность за собственное недобросовестное поведение и нанесенный ущерб имитационным моделям.

При прочих равных условиях соображения этического порядка, скорее всего, заставят нас отказаться от проведения опытов над цифровыми копиями людей. В такой критическо-стратегической ситуации мы будем вынуждены искать альтернативные пути, не требующие столь активного изучения биологического мозга.

Однако не все так однозначно. Готов выслушать ваши возражения: исследования, связанные с полной эмуляцией головного мозга, с меньшей вероятностью будут вызывать этические проблемы, чем разработки в области искусственного интеллекта, на том основании, что нам легче проследить момент становления, когда право на моральный статус начнет обретать именно эмулятор, а не совершенно чужеродный искусственный разум. Если ИИ определенного типа или какие-то его подпроцессы обретут значительный моральный статус прежде, чем мы это распознаем, этические последствия могут быть огромными. Возьмем, например, невероятную легкость, с которой современные программисты создают агентов для обучения с подкреплением и применяют к ним негативные раздражители. Ежедневно создается бесчисленное количество таких агентов, причем не только в научных лабораториях, но и в многочисленных фирмах, где разрабатываются разные приложения и создаются компьютерные игры, содержащие множество сложных персонажей. Предположительно, эти агенты еще слишком примитивны, чтобы претендовать на какой-то моральный статус. Но можем ли мы быть уверены на все сто процентов? И еще одно важное замечание: можем мы быть уверены, что узнаем, в какой момент следует остановиться, чтобы программы не начали испытывать страдания?

(В четырнадцатой главе мы вернемся к некоторым более общим стратегическим вопросам, которые возникают при сравнении двух процессов: проведения полной эмуляции головного мозга и создания искусственного интеллекта.)

Институциональное конструирование

Существуют интеллектуальные системы, чьи составляющие сами являются агентами, обладающими интеллектом. В нашем, пока еще человеческом, мире примерами таких систем являются государства и корпорации — они состоят из людей, но в отдельных случаях сами институты могут рассматриваться как самостоятельные, функционально независимые агенты. Мотивация такой сложной системы, как учреждение, зависит не только от мотивов составляющих ее субагентов, но и от того, как эти субагенты организованы. Например, институциональная система диктаторского типа может вести себя так, словно обладает волей, аналогичной воле одного-единственного субагента, исполняющего роль диктатора, а институциональная система демократического типа, напротив, ведет себя так, как будто аккумулирует в себе интересы всех субагентов и выражает совокупную волю всех участников. Однако можно представить такие институты управления, при которых организация не выражает совокупные интересы составляющих ее субагентов. (Теоретически вполне возможно существование тоталитарного государства, дружно ненавидимое всем его населением, поскольку властная структура обладает мощным аппаратом подавления, не допускающим даже мысли о каком бы то ни было гражданском противостоянии — ни о скоординированном восстании, ни об отдельных протестах. В итоге гражданам, не имеющим права ни на всеобщее, ни на одиночное возмущение, остается лишь выполнять функцию винтиков государственной машины.)

Таким образом, создавая соответствующие институты для сложных систем, можно предринять попытки сразу формировать эффективные системы мотивации. В девятой главе мы обсуждали социальную интеграцию как один из вариантов метода контроля над возможностями. Теперь нам надо рассмотреть вопрос социальной интеграции с точки зрения стимулов, с которыми сталкивается агент, существующий в социальном мире равных ему субъектов. Мы сосредоточим внимание на том, что происходит внутри конкретного агента: каким образом его воля определяется его внутренней организацией. Поскольку устройство института такого рода не зависит от крупномасштабного социального инжиниринга или реформ, метод выбора мотивации применим в условиях отдельного проекта создания сверхразума, даже если социоэкономическая среда и международная обстановка не самые благоприятные.

Вероятно, правильнее всего было бы использовать институциональное конструирование в сочетании с методом приумножения. Если мы можем начать с агентов, уже обладающих требуемой мотивацией или даже аналогичной человеческой, то институциональные механизмы и меры предосторожности повысят гарантии, что система не свернет с правильного пути.

Предположим, мы начали с некоторых хорошо мотивированных агентов человеческого типа, например имитационных моделей. Нам требуется повысить когнитивные возможности этих агентов, но нас беспокоит, что совершенствование может нарушить их мотивационную систему. Один из способов справиться с этой проблемой — создать что-то типа организации, в которой отдельные эмуляторы действуют как субагенты. Каждая последующая процедура усовершенствования будет применяться по отношению лишь к небольшой части таких субагентов, а его влияние — оцениваться путем сравнения их поведения с поведением контрольной группы субагентов, не подвергавшихся процедуре улучшения. Когда подтвердится, что совершенствование когнитивных способностей эмуляторов не вредит их мотивации, то процедуру можно начать применять ко всей популяции субагентов. Если выяснится, что система мотивации улучшенных субагентов пострадала, они выключаются из дальнейших планов усовершенствования и не допускаются к процессу принятия основных решений (минимум до тех пор, пока организационная система в целом не разовьется до такой степени, что сможет безопасно их реинтегрировать)[479]. Хотя субагенты с пострадавшей мотивацией могли бы в результате улучшения получить определенное преимущество, они не в состоянии захватить власть в организационной системе или «заразить» своей погрешностью всех остальных, поскольку представляют собой небольшое меньшинство всего сообщества субагентов. То есть коллективный интеллект и возможности системы будут постепенно повышаться в результате последовательных небольших шагов, притом что правильность каждого шага проверяется субагентами, обладающими не намного меньшими способностями, чем субагенты, появляющиеся в результате очередного шага.

Степень безопасности, которая достигается за счет такого институционального конструирования, ограничена точностью тестов, применяющихся для оценки улучшенных субагентов. Разработка тестов усложняется тем, что оцениваемые параметры могут быть проверены лишь на небольшом диапазоне когнитивных способностей, а применяться они должны к агентам в том числе за пределами этого диапазона. Можно отчасти снять эту проблему, если проводить усовершенствование последовательно, шаг за шагом, и проверку на протяжении длительного времени. Однако такие меры предосторожности повысят издержки и замедлят прогресс (а в случае конкурентной гонки это будет означать, что проект, принимающий такие меры, окажется в невыгодном положении). И даже если идти вперед небольшими шагами и проводить интенсивное тестирование, остается некоторый риск появления небольших дефектов, которые постепенно приведут к деградации всю систему целей — деградации, способной проявиться лишь на этапе достижения системой уровня сверхразума. Риск можно несколько снизить, расширив условие тестирования на множество шагов улучшений, чтобы даже те агенты, которые успешно прошли проверку на каком-то этапе и были подвергнуты последующим улучшениям, продолжали бы сравниваться с контрольной группой немодифицированных агентов с изначально правильной системой мотивации.

В идеале такое тестирование должно проходить непрерывно, а не ограничиваться первоначальным периодом оценки. У субагентов человеческого уровня имеются стратегические способности, и они могут скрывать некоторые цели в ходе контрольных проверок их поведения. Чтобы сделать возможным непрерывное тестирование, можно создать иерархию, в рамках которой одни субагенты выполняли задачу по контролю над другими субагентами с несколько более высоким уровнем способностей. На нижней иерархической ступеньке способностей (но на вершине властной иерархии) окажется самый недалекий и «заторможенный» принципал. Он будет напоминать слабоумного короля, который отдает распоряжение недееспособному двору, а тот, в свою очередь, контролирует посредственное правительство, управляющее талантливыми людьми. Еще его можно сравнить с древним «мозгом рептилий», который следит за тем, чтобы более молодой и гораздо более развитый «неокортекс» отвечал за выполнение таких функций, как питание и совокупление.

Может возникнуть вопрос, а будет ли такая перевернутая меритократия стабильной? Если окажется, что мотивация значительного количества сверхразумных агентов нарушена, и люди, отвечающие за проект в целом, попытаются «откатить» часть улучшений, окажется ли эта институциональная структура достаточно прочной для того, чтобы выдержать сопротивление, вызванное этим шагом? В контексте исторических и современных человеческих обществ ответ, скорее всего, будет отрицательным. (Нельзя сказать, что к власти приходят только самые способные люди, но и сказать, что нами в прямом смысле управляют шимпанзе, тоже нельзя.) Однако этот вопрос оказывается гораздо более сложным, когда общество представляет собой совокупность компьютерных программ[480].

Представьте цифровую иерархию, в которой на каждых двух пролетариев приходится по одному хорошо обученному полицейскому агенту. А на каждых двух обычных полицейских агентов — один специальный полицейский агент. Еще есть специальный специальный полицейский агент на каждых двух просто специальных — и так далее, так что над каждым уровнем контролеров имеется уровень с как минимум в два раза меньшим количеством контролеров. Представьте также структуру этого общества, при которой контролер обладает большими полномочиями в отношении подконтрольных ему агентов. Например, может видеть и записывать все, что они говорят и делают, как если был бы скрыт от них зеркальным стеклом — из-за этого стекла подконтрольные агенты получают лишь приказы и инструкции, которые отбирал сам контролер. Еще нужно представить, что перед каждым контролером есть приборная панель с кнопками, нажимая которые он может в любой момент соответственно наказать, вознаградить, поставить на паузу, удалить или вернуть в предыдущее состояние своего подконтрольного агента. Благодаря этим возможностям власть агента-контролера выходит далеко за исторические рамки того, что встречалось даже в наиболее тоталитарных организациях.

Но даже этим инструменты контроля не исчерпываются. В распоряжении контролеров могут иметься реалистичные симуляторы виртуальной реальности, которые они могут использовать для моделирования гипотетических сценариев, чтобы провоцировать подконтрольных агентов и изучать их реакции (например, предлагать принять участие в заговоре или немного расслабиться, уверяя, что их никто не видит). Кроме того, контролеры могут «влезать в умы» подконтрольных агентов, подслушивая их внутренние монологи и напрямую манипулируя их эмоциональным состоянием.

То есть у контролера имеется огромное преимущество[481]. Но каждый контролер является подконтрольным агентом другого контролера более высокого уровня, который, в свою очередь, наблюдает за каждым его шагом и следит, чтобы он не ослаблял усилий в деле исполнения своих контрольных функций. Таким образом, продуманная структура может быть стабильной даже в том случае, когда интеллектуально контролеры на всех уровнях иерархии слабее тех, кого контролируют[482]. И всю эту структуру, включающую множество сверхразумных агентов, может контролировать небольшое количество людей с административным доступом[483].

Издержки, связанные с такой структурой внутреннего контроля, могут быть значительными, но не запредельно высокими. Например, в модели, где на каждом уровне членов в два раза меньше, чем уровнем ниже, издержки на дополнительные вычисления ограничены всего лишь ста процентами от того, что требуется для «пролетарской» части системы, — или даже меньшей величиной, если более глупый босс требует меньше вычислений в расчете на субагента. За счет увеличения этого показателя можно усилить контроль, за счет понижения — уменьшить издержки. Дополнительные вычислительные издержки будут главным фактором при сценарии конкурентного рыночного мира (см. главу 11), но в контексте проекта, не имеющего сильных непосредственных конкурентов, их роль довольно умеренная. Также потребуются затраты времени разработчиков на создание и тестирование всего этого контрольного функционала. Их можно снизить, если в рамках обладающего большими ресурсами проекта распараллелить работу над контрольной структурой и самим искусственным интеллектом; но их тяжесть будет непомерной при небольших проектах и проектах, участвующих в напряженной технологической гонке.

Также заслуживает внимания еще один тип издержек в структурах такого рода — риск проявления преступной безнравственности[484]. Описанная нами институция выглядит как страшный северокорейский трудовой лагерь. Однако возможности ослабить этические проблемы, связанные с его работой, есть даже в том случае, когда составляющие его субагенты являются эмуляторами с моральным статусом, соответствующим человеческому. В самом крайнем случае он может быть основан на добровольном участии в нем. Причем у каждого субагента должно быть право в любой момент прекратить свое участие[485]. Стертые имитационные модели могут храниться в памяти с обязательством восстановить их в более подходящих условиях, когда минует опасная стадия взрывного развития интеллекта. Тем временем субагенты, решившие участвовать в системе, могут размещаться в очень комфортабельных виртуальных условиях и иметь достаточно времени для сна и отдыха. Эти меры также предполагают затраты, которые, однако, вполне по силам проекту, обладающему большими ресурсами и не имеющему прямых конкурентов. Но в высококонкурентной среде эти расходы могут быть неприемлемыми — утешит лишь уверенность, что конкуренты их тоже несут.