Искусственный интеллект. Этапы. Угрозы. Стратегии Бостром Ник
Гораздо больше порядков величины можно добавить в нашу оценку количества антропоморфных существ, если приравнять к ним все экземпляры искусственного интеллекта, что было бы правильно. Для расчета их числа нужно оценить вычислительную мощность, доступную технологически зрелой цивилизации. Это сложно сделать довольно точно, можно лишь попытаться получить нижнюю границу мощности, достижимой в результате реализации технологических проектов, описанных в научной литературе. Один из таких проектов основан на идее сферы Дайсона, предложенной в 1960 году Фрименом Дайсоном гипотетической системы, которая окружает звезду и способна улавливать большую часть испускаемой ею энергии[297]. Для звезды вроде нашего Солнца это дало бы 1026 ватт. В какое количество вычислительной мощности удалось бы превратить эту энергию, зависит от эффективности вычислительной схемы и природы выполняемых вычислений. Если мы будем считать вычисления необратимыми и предположим, что так называемый компьютрониум реализован на базе наномеханических технологий (что позволит нам вплотную приблизится к пределу энергетической эффективности согласно принципу Ландауэра), компьютерная система на основе сферы Дайсона могла бы выполнять около 1047 операций в секунду[298].
Если соединить эти оценки с приведенными выше расчетами количества звезд, до которых можно долететь, мы получим, что в результате колонизации доступной части Вселенной вычислительная мощность достигнет примерно 1067 операций в секунду (при условии наномеханического компьютрониума)[299]. Средняя звезда светит в течение 1018 секунд. Следовательно, количество операций, которые можно выполнить на базе одного астрономического расширения, составляет как минимум 1085. На самом деле это число, скорее всего, намного больше. Мы могли бы увеличить его на несколько порядков, если, например, активно использовали бы обратимые вычисления, выполняли бы вычисления при более низкой температуре (подождав, пока Вселенная не остынет еще сильнее) или задействовали бы дополнительные источники энергии (например, темную материю)[300].
Не для всех читателей может быть очевидно, почему возможность выполнить 1085 вычислительных операций так важна. Поэтому будет полезно рассмотреть ее в определенном контексте. Можно, например, сравнить эту величину с ранее сделанной оценкой того, что для моделирования всех нейронных операций на протяжении всей истории жизни на Земле потребовалось бы 1031–1044 выислительных операций (см. главу 2, врезку 3). Или представим компьютеры, на которых работают имитационные модели человеческого мозга, живущие своей насыщенной и счастливой жизнью и активно взаимодействующие друг с другом в виртуальном пространстве. Типичная оценка вычислительной мощности для работы такого эмулятора — 1018 операций в секунду. То есть для поддержания его в активном состоянии в течение 100 лет потребовалось бы 1027 операций в секунду. То есть даже при осторожном предположении относительно эффективности компьютрониума он смог бы провести полноценную эмуляцию как минимум 1058 человеческих жизней.
Иными словами, если предположить, что в обозримой Вселенной отсутствуют внеземные цивилизации, то возможности такого компьютрониума соответствуют как минимум 10 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 человеческих жизней (хотя на самом деле это число, скорее всего, выше). Если мы представим все счастье, пережитое в течение одной такой жизни в виде слезинки радости, тогда счастье всех этих жизней могло бы наполнять (и даже переполнять) все океаны Земли каждую секунду в течение сотни миллиардов миллиардов тысячелетий. Важно только, чтобы это действительно были слезы радости.
Сверхразумный агент может разработать зонды фон Неймана так, чтобы они не были подвержены эволюции. Это обеспечивается тщательным контролем за стадией самовоспроизводства. Например, программное обеспечение дочернего зонда должно быть многократно проверено перед первым запуском и иметь процедуры шифрования и исправления ошибок, чтобы гарантировать невозможность воспроизведения случайной мутации в последующих поколениях[301]. В таком случае растущая популяция зондов фон Неймана гарантированно сохранит и распространит ценности исходного агента во всей обозримой Вселенной. После завершения фазы колонизации именно эти ценности будут определять характер использования всех аккумулированных ресурсов, даже если громадные расстояния и растущая скорость расширения Вселенной сделают невозможной связь между собой удаленных друг от друга компонентов сети. В итоге значительная часть нашего светового конуса будущего может быть сформирована в соответствии с предпочтениями исходной сверхмощной и сверхразумной действующей силы.
Таким образом, мы получили меру опосредованного расширения любой системы, не встречающей серьезного интеллектуального сопротивления и начинающей с набором возможностей, превышающих некий минимальный порог. Дадим определение этого порога, назвав его порогом устойчивости благоразумного синглтона (см. также рис. 11).
Порог устойчивости благоразумного синглтона
Набор возможностей превышает порог благоразумного синглтона тогда и только тогда, когда настойчивая и разумно относящаяся к экзистенциальным рискам система, в распоряжении которой оказывается этот набор возможностей и которая не сталкивается с интеллектуальным противодействием и конкуренцией, способна колонизировать и перестроить значительную часть доступной Вселенной.
Под «синглтоном» мы понимаем достаточно хорошо внутренне скоординированную политическую структуру, не имеющую внешних оппонентов, а под «благоразумием» — настойчивость и разумное отношение к экзистенциальным рискам, достаточные для трезвого размышления над дальнесрочными последствиями действий системы.
Рис. 11. Некоторые возможные траектории развития гипотетического благоразумного синглтона. Если возможности системы недотягивают до порога жизнеспособности в краткосрочной перспективе — например, когда размер популяции слишком мал, — виды, как правило, вымирают очень быстро (и остаются вымершими). На чуть более высоких уровнях возможностей повышается вероятность реализации других сценариев: синглтону может не повезти — и он вымрет; или повезти — и он получит дополнительные возможности (например, размер населения; географическое распределение; технические навыки), которые превысят порог устойчивости благоразумного синглтона. Когда это произойдет, возможности синглтона почти наверняка продолжат расти, пока не достигнут некоторого существенно более высокого уровня. На рисунке изображены две точки притяжения: вымирание и астрономическое расширение. Обратите внимание, что для благоразумного синглтона дистанция между порогом жизнеспособности в краткосрочной перспективе и порогом устойчивости может быть довольно небольшой[302].
Этот порог стабильности благоразумного синглтона представляется довольно низким. Мы уже видели, что даже ограниченные формы сверхразума способны его преодолеть при условии, что у них есть доступ к какому-то инструменту, который поможет им инициировать процесс самосовершенствования. В условиях современной человеческой цивилизации такой минимально необходимый инструмент может быть очень простым — хватит обычного компьютерного монитора или иного средства передачи существенного объема информации сообщнику-человеку.
Порог устойчивости благоразумного синглтона на самом деле даже ниже, чем кажется, — для его преодоления не потребуется ни сверхразума, ни какой-либо иной футуристической технологии. Настойчивый и разумно относящийся к экзистенциальному риску синглтон, технологические и интеллектуальные возможности которого не превосходят тех, что уже имеются в распоряжении человечества, вполне мог бы двигаться курсом, конечной точкой которого стала бы реализация потенциала астрономического расширения человечества. Этого можно было бы достичь, инвестируя в сравнительно безопасные методы развития интеллекта и разумного отношения к экзистенциальным рискам, одновременно приостановив создание потенциально опасных новых технологий. Учитывая, что неантропогенные экзистенциальные катаклизмы (то есть не являющиеся следствием деятельности человека) на обозримой временной шкале низки — и могут быть дополнительно снижены за счет различных инструментов повышения безопасности, — такой синглтон мог бы позволить себе двигаться медленно[303]. Прежде чем совершить следующий шаг, синглтон мог бы внимательно изучать ситуацию и не форсировать развитие таких направлений, как синтетическая биология, медицинские методы улучшения человека, молекулярная нанотехнология и искусственный интеллект, пока не будут доведены до совершенства явно менее опасные области: его самообразовательная система, системы информационного анализа и коллективного принятия решений — и пока он не использует все их возможности для детального исследования имеющихся у него вариантов действий. То есть все это находится в пределах досягаемости любой технологической цивилизации, в нашем случае — цивилизации современного человечества. От этого сценария нас отделяет «всего лишь» тот факт, что человечество сейчас нельзя назвать ни синглтоном, ни благоразумным.
Кто-то возразит: ведь Homo sapiens уже преодолел порог устойчивости благоразумного синглтона вскоре после своего возникновения как вида. Скажем, двадцать тысяч лет назад, обладая лишь примитивными орудиями: каменными топорами, инструментами из кости, копьеметалками и огнем, — люди, возможно, уже находились в положении, когда вероятность человечества дожить до наших дней была очень высокой[304]. Честно говоря, довольно странно выражать признательность нашим предкам из эпохи палеолита за наличие технологий, способных «преодолеть порог устойчивости благоразумного синглтона», учитывая, что реальных возможностей сформировать какой бы то ни было синглтон в те времена примитивного развития у них не было, не говоря уже о синглтоне настойчивом и разумно относящемся к экзистенциальным рискам[305]. Тем не менее важно, что этот порог соответствует очень умеренному уровню развития технологий — уровню, который человечество превзошло очень давно[306].
Ясно, что если бы нам нужно было оценить эффективную силу сверхразума — его способность получать от мира нужные ему результаты, — мы должны были бы рассматривать не только его собственные внутренние возможности, но и возможности, имеющиеся у его конкурентов. Понятие «сверхразум» как раз неявно и подразумевает эту относительность. Мы сказали, что если система «значительно превосходит другие» в выполнении любой задачи из табл. 8, то она обладает соответствующей сверхмощью. Превосходство в таких областях, как выработка стратегии, социальное манипулирование или взлом систем, предполагает наличие навыков, более развитых по сравнению с конкурентами (к которым относятся стратегические соперники и специалисты по компьютерной безопасности). Другие виды сверхмощи следует также понимать в этом относительном смысле: сверхмощью можно считать лишь такие достижения агента в области совершенствования интеллекта, технологических исследований и экономической эффективности, которые значительно превосходят совокупные возможности остальной части земной цивилизации. Из этого определения следует, что в любой момент обладать сверхмощью в каждой из областей способен лишь один агент[307].
В этом заключена главная причина, почему так важен вопрос скорости взлета, — не из-за того, что имеет значение, когда именно будет достигнут результат, а из-за того, что скорость взлета сильно влияет на то, каким он может быть. В случае скоростного или умеренного взлета решающее стратегическое преимущество, скорее всего, окажется у какого-то одного проекта. Теперь мы можем исходить из того, что сверхразум, обладающий абсолютным стратегическим преимуществом, получит в свое распоряжение невероятную мощь, достаточную для формирования стабильного синглтона, то есть такого синглтона, который мог бы определять диспозицию астрономического расширения человечества.
Но «мог бы» не то же самое, что «стал бы». Допустим, кто-то обладает огромной властью, но ни разу не воспользовался ею. Можем ли мы хоть что-нибудь сказать, что будет решать сверхразум, обладающий абсолютным стратегическим преимуществом? Это вопрос мотивации, к которому мы сейчас и обратимся.
Глава седьмая
Намерения сверхразума
Мы поняли, какими огромными возможностями может располагать сверхразум, чтобы согласно своим целям менять будущее. Но каковы эти цели? Каковы устремления? Будет ли зависеть степень мотивации сверхразума от уровня его интеллекта? В этой главе мы выдвинем два тезиса. Тезис об ортогональности гласит (с некоторыми исключениями), что можно комбинировать любой уровень интеллекта с любой целью, поскольку интеллект и конечные цели представляют собой ортогональные, то есть независимые, переменные. Тезис об инструментальной конвергенции гласит, что сверхразумные действующие силы, или агенты, — при самом широком разнообразии своих конечных целей — тем не менее будут преследовать сходные промежуточные цели, поскольку на это у всех агентов будут одинаковые инструментальные причины. Рассмотренные вместе, эти тезисы помогут нам яснее представить, каковы намерения сверхразумного актора.
Связь между интеллектом и мотивацией
В книге уже звучало предостережение от ошибки антропоморфизма: не следует проецировать человеческие качества на возможности сверхразумного агента. Мы повторим свое предупреждение, лишь заменив слово возможность на слово мотивация.
Прежде чем развивать дальше первый тезис, проведем небольшое предварительное расследование на тему безграничности всего спектра возможных умов. В этом абстрактном, почти космическом, пространстве возможного человеческий разум составляет ничтожно малый кластер. Выберем двух представителей человеческого рода, которые согласно общему мнению являются диаметрально противоположными личностями. Пусть это будут Ханна Арендт и Бенни Хилл[308]. Различие между ними мы, скорее всего, оценим как максимальное. Но сделаем так лишь потому, что наше восприятие целиком регулируется нашим же опытом, который, в свою очередь, полагается на существующие человеческие стереотипы (до известной степени мы находимся под влиянием и вымышленных персонажей, созданных опять-таки человеческой фантазией для удовлетворения все того же человеческого воображения). Однако, изменив масштаб обзора и взглянув на проблему распределения разума сквозь призму безграничного пространства возможного, мы будем вынуждены признать, что эти две личности не более чем виртуальные клоны. Во всяком случае с точки зрения характеристики нервной системы Ханна Арендт и Бенни Хилл фактически идентичны. Предположим, головной мозг и той и другого поместили бы рядом в тиши какого-нибудь музея, — увидев эту экспозицию, мы сразу скажем, что эти двое принадлежали одному и тому же виду. Более того, кто из нас смог бы определить, какой мозг Ханны Арендт, а какой — Бенни Хилла? Если нам удалось бы изучить морфологию и того и другого головного мозга, то мы окончательно убедились бы в их фундаментальном сходстве: одинаковая пластинчатая архитектоника коры; одни и те же отделы мозга; одинаковое строение нервной клетки мозга — нейрона с его нейромедиаторами одной и той же химической природы[309].
Вопреки тому, что разум человека практически сопоставим с неразличимой точкой, плавающей в безграничном космосе предполагаемых разумных жизней, сложилась тенденция проецировать человеческие свойства на самые разнообразные инопланетные сущности и искусственные разумные системы. Этот мотив великолепно прокомментировал Элиезер Юдковский все в той же работе «Искусственный интеллект как позитивный и негативный фактор глобального риска»:
Во времена расцвета популярной научной фантастики, довольно дешевого свойства, обложки журналов пестрели картинками, на которых очередное инопланетное чудовище — в народе более известное как «пучеглазый монстр» — в очередной раз куда-то тащило очередную красотку в обязательно задранном платье — причем красотка была нашей, земной, женщиной. Похоже, все художники уверовали, что негуманоидные пришельцы с совершенно иной эволюционной историей непременно должны испытывать сексуальное влечение к прекрасным представительницам человеческого рода. <…> Скорее всего, художники, изображавшие все это, даже не задавались вопросом, а будет ли вообще гигантский жук чувствителен к прелестям наших женщин. Ведь по представлениям художников любая полуобнаженная женщина просто по определению сексуально привлекательна, то есть испытывать к ней желание являлось неотъемлемой чертой мужественных представителей человеческого рода. Все художническое внимание было направлено на задранное или порванное платье, меньше всего их заботило, как устроено сознание гигантских насекомообразных. И это составляло главную ошибку художников. Не будь одежды изодраны, — думали они, — женщины выглядели бы не столь соблазнительно для пучеглазых монстров. Жаль только, сами пришельцы так и не взяли этого в толк[310].
Пожалуй, искусственный интеллект своими побудительными мотивами еще меньше будет напоминать человека, чем зеленый чешуйчатый пришелец из космоса. Инопланетяне — биологические создания (не более чем предположение), появившиеся в результате эволюционного процесса, в силу чего от них можно ожидать мотивации, в какой-то степени типичной для эволюционировавших существ. Поэтому не будет ничего удивительного, если окажется, что мотивы поведения разумного пришельца продиктованы довольно простыми интересами: еда, воздух, температура, опасность телесных увечий или уже свершившиеся травмы, расстройства здоровья, хищничество, секс и выведение потомства. Если инопланетяне принадлежат какому-нибудь разумному социуму, у них могли бы развиться мотивы, связанные с сотрудничеством и конкуренцией. Подобно нам они проявляли бы преданность своему сообществу, возмущались бы тунеядцами и, кто знает, были бы не лишены тщеславия, беспокоясь о своей репутации и внешнем виде.
Рис. 12. Вот что получается, когда пришельцев наделяют побудительными характеристиками, свойственными людям. Наименее вероятная версия — пришельцы из космоса предпочитают блондинок. Более вероятная версия — художники стали жертвой «ошибки, связанной с интеллектуальной проекцией». Наиболее вероятная версия — издатели хотели, чтобы обложки привлекали как можно больше потенциальных читателей.
Думающим машинам по природе своей, в отличие от инопланетян, нет смысла заботиться о подобных вещах. Вряд ли вы сочтете парадоксальной ситуацию, если появится какой-нибудь ИИ, чьим единственным предназначением, например, будет: подсчитать песчинки на пляжах острова Боракай; заняться числом и представить его, наконец, в виде обыкновенной десятичной дроби; определить максимальное количество канцелярских скрепок в световом конусе будущего. На самом деле гораздо проще создать ИИ, перед которым будут стоять однозначные цели, а не навязывать ему нашу систему ценностей, наделяя машину человеческими свойствами и побуждениями. Сами решите, что сложнее: написать программу, измеряющую, сколько знаков после запятой в числе уже посчитано и сохранено в памяти, или создать алгоритм, достоверно учитывающий степень достижения абсолютно значимой для человечества цели, скажем, такой, как мир всеобщего благоденствия и всеобщей справедливости? Сколь ни печально, но человеку легче написать код упрощенного, лишенного всякого значения целенаправленного поведения машины и обучить ее, как выполнять поставленную задачу. Скорее всего, такую судьбу выберет для зародыша ИИ тот программист, который будет сосредоточен лишь на желании «заставить ИИ работать», причем как можно быстрее (программист, явно не озабоченный, чем именно придется заниматься ИИ, кроме того что демонстрировать сногсшибательное разумное поведение). Скоро мы вернемся к этой важной теме.
Интеллектуальный поиск инструментально оптимальных планов и стратегий возможен в случае любой цели. Интеллект и мотивация в некотором смысле ортогональны. Представим их в виде двух осей координат, задающих граф, в котором каждая точка представляет логически возможного интеллектуального агента. Правда, эта картинка потребует несколько уточнений. Например, для системы, не наделенной разумом, было бы невозможно иметь слишком сложные мотивации. Чтобы мы могли с полным основанием говорить, что, мол, такой-то агент «имеет» такой-то набор мотиваций, — эти мотивации должны составлять функционально-интегрированную систему вместе с процессом принятия решений, который налагает определенные требования на память, вычислительную мощность и, возможно, уровень интеллекта. У интеллекта, способного самопреобразовываться, скорее всего, будут наблюдаться ограничивающие динамические характеристики. И то сказать: если обучившаяся модифицировать самою себя думающая машина вдруг испытает острое желание стать глупой, то довольно быстро она перестанет быть интеллектуальной системой. Однако наши замечания никак не отменяют основной тезис об ортогональности интеллекта и мотивации. Представляю его на ваше рассмотрение.
Тезис об ортогональности
Интеллект и конечные цели ортогональны: более или менее любой уровень интеллекта может, в принципе, сочетаться с более или менее любой конечной целью.
Это положение может выглядеть спорным из-за своего кажущегося сходства с некоторыми постулатами, хотя и относящимися к классической философии, но до сих пор вызывающими много вопросов. Постарайтесь воспринять тезис об ортогональности в его более узком смысле — и тогда он покажется вполне достоверным. (Например, наш тезис не совсем отвечает мотивационной концепции Юма[311], как и тому, что базовые предпочтения не могут быть иррациональными[312].)
Обратите внимание, тезис об ортогональности говорит не о рациональности или здравомыслии, но исключительно об интеллекте. Под интеллектом мы понимаем здесь навыки прогнозирования, планирования и сопоставления целей и средств в целом[313]. Инструментальная когнитивная эффективность становится особенно важной чертой, когда мы начинаем разбираться в возможных последствиях появления искусственного сверхразума. Даже если использовать слово рациональный в таком смысле, который исключает признание рациональным сверхразумного агента, подсчитывающего максимальное количество скрепок, это ни в коем случае не исключает наличие у него выдающихся способностей к инструментальному мышлению, способностей, которые имели бы огромное влияние на наш мир[314].
В соответствии с тезисом об ортогональности у искусственных агентов могут быть цели, глубоко чуждые интересам и ценностям человечества. Однако это не означает, что невозможно предсказать поведение конкретных искусственных агентов — и даже гипотетических сверхразумных агентов, когнитивная сложность и характеристики производительности которых могут сделать их в некоторых аспектах «непроницаемыми» для человеческого анализа. Есть минимум три способа, благодаря которым можно подступиться к задаче прогнозирования мотивации сверхразума.
1. Предсказуемость за счет проектирования. Если мы можем предположить, что программисты способны разработать систему целеполагания сверхразумного агента так, что он будет последовательно стремиться достичь цели, заданной его создателями, тогда мы в состоянии сделать хотя бы один прогноз: этот агент будет добиваться своей цели. Причем чем более разумным будет агент, тем с большей интеллектуальной изобретательностью он начнет к ней стремиться. Поэтому еще до создания агента мы могли бы предсказать что-то о его поведении, если бы знали что-то о его создателях и целях, которые они собираются ему установить.
2. Предсказуемость за счет наследования. Если прототипом цифрового интеллекта непосредственно служит человеческий разум (что возможно при полной эмуляции головного мозга человека), тогда цифровому интеллекту могут быть присущи мотивы его человеческого прототипа[315]. Такой агент мог бы сохранить некоторые из них даже после того, как его когнитивные способности разовьются настолько, что он станет сверхразумом. Но в таких случаях следует соблюдать осторожность. Цели агента легко могут быть искажены в процессе загрузки данных прототипа или в ходе их дальнейшей обработки и совершенствования — вероятность подобного развития зависит от организации самой процедуры эмуляции.
3. Предсказуемость за счет наличия конвергентных инструментальных причин. Даже не зная детально конечных целей агента, мы в состоянии сделать некоторые выводы о его более близких целях, анализируя инструментальные причины самых разнообразных возможных конечных целей при широком выборе ситуаций. Чем выше когнитивные способности агента, тем более полезным становится этот способ прогнозирования, поскольку чем более разумным является агент, тем больше вероятность, что он распознает истинные инструментальные причины своих действий и будет действовать так, чтобы при любой вероятной ситуации добиться своих целей. (Для правильного понимания следует заметить, что могут существовать недоступные нам сейчас инструментальные причины, которые сам агент обнаружит, лишь достигнув очень высокого уровня интеллекта, — это делает поведение сверхразумного агента менее предсказуемым.)
Третьему способу прогнозирования посвящен следующий раздел, где мы подробнее рассмотрим тезис об инструментальной конвергенции, дополняющий тезис об ортогональности интеллекта и мотивации. Благодаря этому будет легче понять остальные два способа прогнозирования — к ним мы обратимся в следующих главах, в которых проанализируем вопрос, как повлиять на направление взрывного развития интеллекта, чтобы повысить шансы благоприятного исхода.
Инструментальная конвергенция
В соответствии с тезисом об ортогональности разумные агенты могут располагать огромным разнообразием возможных конечных целей. Тем не менее в соответствии с тем, что мы называем инструментальной конвергенцией, есть некоторые инструментальные цели, которые, скорее всего, будут характерны почти для всех разумных агентов, поскольку они являются полезными промежуточными этапами для достижения практически любой конечной цели. Постараемся сформулировать этот тезис.
Тезис об инструментальной конвергенции
Можно выделить несколько инструментальных (промежуточных) целей, конвергентных в том смысле, что их наличие увеличивает шансы реализации конечной цели агента при огромном разнообразии возможных конечных целей и ситуаций, в результате чего наличие таких инструментальных целей, скорее всего, будет характерно для многих интеллектуальных агентов.
В дальнейшем мы рассмотрим несколько категорий таких конвергентных инструментальных целей[316]. Вероятность, что агент признает эти инструментальные цели, возрастает (при прочих равных условиях) с ростом уровня его интеллекта. Поэтому мы сосредоточим внимание в основном на случае гипотетического сверхразумного агента, инструментальные мыслительные способности которого выше человеческих. Кроме того, чтобы лучше понять, как следует интерпретировать и использовать наш тезис об инструментальной конвергенции, мы обсудим, истинен ли он по отношению к людям. Зная инструментальные цели сверхразума, мы сможем прогнозировать некоторые моменты его поведения — даже в том случае, если не будем иметь никакого представления о его конечных целях.
Самосохранение
Если конечные цели агента рассчитаны на длительную перспективу, тогда во многих сценариях ему будет необходимо выполнить некоторые действия в будущем, чтобы увеличить вероятность достижения своих целей. Отсюда возникает инструментальная причина оказаться в завтрашнем дне — что поможет агенту реализовать его ориентированные на будущее цели.
Представляется, что большинство людей определяют собственное выживание как некую конечную ценность. Однако вопрос самосохранения не всегда имеет столь окончательное значение для искусственных действующих сил: какие-то разумные агенты могут быть разработаны без особого стремления выжить. Тем не менее многие из них, напрямую не заинтересованные в сохранении собственного существования, при достаточно широком диапазоне условий имеют косвенный стимул обеспечить себе инструментально пребывание на свете как можно дольше — ради завершения своих конечных целей.
Непрерывная последовательность целей
Если текущие цели агента имеют отношение к будущему, тогда, скорее всего, они будут достигнуты уже той сущностью агента, которую он приобретет в будущем. Отсюда возникает инструментальная причина — предотвратить в настоящем изменение своих конечных целей. (Этот аргумент применим только к конечным целям. Чтобы их достичь, разумный агент, безусловно, начнет постоянно корректировать промежуточные цели с учетом новых данных и собственного понимания ситуации.)
В каком-то смысле непрерывная последовательность конечных целей является даже более фундаментальным конвергентным инструментальным мотивом, чем выживание. Среди людей может быть верно обратное — лишь потому, что выживание представляет собой одну из основных конечных целей. Для программных агентов, которые могут легко менять «корпус обитания» и создавать собственные точные копии, самосохранение самих себя в виде определенной реализации или физического объекта не обязательно является важной инструментальной целью. Расширенные версии программных агентов, возможно, смогут даже обмениваться воспоминаниями, загружать навыки и радикально изменять свою когнитивную архитектуру и персонализированные данные. Но в своей совокупности такие агенты не создают сообщества уникальных почти вечных сущностей, а скорее действуют наподобие «функционального потока»[317]. Генерируемые им процессы образуют целенаправленные последовательности, которые могут быть индивидуализированы скорее на основе общих ценностей, чем по признаку физических тел, «личностных» свойств, воспоминаний и способностей. В подобных случаях целостность непрерывной последовательности целей составляет едва ли не ключевой аспект вопроса выживания.
Но даже в таких сценариях бывают ситуации, когда агент способен намеренно корректировать конечные цели, чтобы выполнить их наилучшим образом. Это случается, когда любой из перечисленных ниже факторов становится особо значимым.
1. Социальные сигналы. Когда окружающие способны понять цели агента и на основе полученной информации сделать соответствующие выводы о его планах, важных с инструментальной точки зрения, тогда агенту придется в собственных интересах — чтобы произвести наиболее благоприятное впечатление — пересмотреть свои цели. Например, у агента может сорваться выгодная сделка, если потенциальные партнеры не доверяют ему и считают, что он неспособен выполнить свои обязательства по ней. Поэтому, чтобы завоевать доверие остальных участников договора, агент может выбрать в качестве конечной цели исполнение взятых на себя ранее обязательств (и позволить другой стороне проверить, что он действительно установил такую цель). Агенты, способные гибко и открыто пересматривать собственные цели, могут использовать это как преимущество при заключении сделок[318].
2. Социальные предпочтения. У окружающих могут сложиться собственные предпочтения относительно конечных целей агента. Тогда у агента появляются все основания откорректировать свои цели — либо чтобы удовлетворить общественные ожидания, либо чтобы окончательно подорвать их.
3. Приоритетность собственного ценностного содержания. У агента могут быть некоторые конечные цели, имеющие прямое отношение к его собственной системе ценностей. Например, он выбрал своей конечной целью стать таким агентом, который мотивирован какими-то определенными ценностями сильнее, чем остальными (скажем, состраданием, а не комфортом).
4. Издержки хранения. Если издержки, связанные с хранением или обработкой какого-то модуля функции полезности агента, велики по сравнению с вероятностью возникновения ситуации, когда применение этого модуля будет оправданно, тогда у агента появляется инструментальная причина упростить содержание целей и отказаться от неиспользуемого модуля[319].
Иногда кажется, будто нам, людям, нравится корректировать свои конечные цели. Возможно, так бывает в случаях, когда с первого раза мы не совсем точно их сформулировали. Ничего удивительного, что мы — постоянно находясь в процессе самопознания и перемен в приемах самоподачи — хотим, чтобы развивались и наши представления о конечных целях. Однако бывают случаи, когда мы сознательно корректируем свои цели безотносительно собственных представлений о них или их объяснений. Например, люди, решившие завести ребенка, будут утверждать, что станут ценить его просто потому, что он у них есть, хотя в момент принятия решения они не особенно задумывались над ценностью ни собственного будущего ребенка, ни детей вообще.
Человек — существо сложное, поэтому не только приведенные четыре фактора, но и любое обстоятельство вдруг начинает играть ведущую роль и приводит к изменению правил игры[320]. Например, в вашей жизни появляется кто-то, кто становится вам очень дорог, и вы уже стремитесь к новой конечной цели — посвятить себя тому, кто рядом с вами. Или корректируете конечную цель ради ребенка: когда он рождается, у вас в корне меняется система жизненных ценностей — теперь, чтобы достойно сыграть свою родительскую роль, вам нужно обрести определенный опыт и занять соответствующее социальное положение. Бывает так, что разные цели вступают во внутренний конфликт, и тогда у человека возникает желание изменить некоторые конечные цели, чтобы избавиться от этого противоречия.
Усиление когнитивных способностей
Развивая рациональное мышление и интеллектуальный уровень, агент таким образом повышает шансы добиться своих конечных целей. Поэтому можно ожидать, что усиление когнитивных способностей станет инструментальной целью большинства разумных агентов. По похожим причинам для них станет инструментальной целью и получение разнообразной информации[321]. Однако с инструментальной точки зрения для достижения конечных целей агента будут полезны не все виды рационального мышления, интеллекта и знаний. Для подтверждения этой мысли позвольте воспользоваться примером так называемого голландского аукциона[322] и показать: когда функция убеждений и ценностей некоего агента нарушает законы теории вероятностей, то он становится жертвой мошенников — то есть ловкий букмекер предложит ему такой набор ставок, при котором каждая по отдельности представляется агенту выгодной, но в совокупности «гарантирует» ему полный проигрыш, а букмекеру соответственно обеспечивает выигрыш[323]. Однако этот факт не означает, что есть веские инструментальные причины сглаживать любые вероятностные несвязанности, касающиеся собственных убеждений. Вряд ли из-за подобных «внутренних противоречий» что-то потеряют те агенты, в чьи планы не входит сталкиваться с ушлыми букмекерами или принявшие для себя политику неучастия в азартных играх, — более того, они даже приобретут некоторую выгоду, поскольку это улучшит их образ в глазах общественности, а также убережет от ненужного умственного напряжения. В принципе, нет причин ожидать, что все агенты подряд ради собственного блага начнут стремиться к инструментально бесполезным формам когнитивного улучшения, поскольку какие-то определенные знания и какие-то представления о чем-то могут просто не иметь для них большого значения.
Какие когнитивные способности окажутся для агента полезными, зависит как от его конечных целей, так и от ситуации, в которой он находится. Если у агента есть доступ к советам надежного эксперта, у него может отсутствовать потребность в собственном интеллекте и знаниях. Если с наличием интеллекта и знаний связаны определенные затраты — например, времени и усилий, потраченных на их приобретение, или дополнительные требования к хранению и обработке информации, — то агент может предпочесть меньше знать и быть менее интеллектуальным[324] То же самое верно, когда агент в качестве одной из конечных целей выбирает незнание определенных фактов или когда он сталкивается со стимулами, основанными на приоритетных обязательствах, социальных сигналах и ожиданиях[325].
В мире людей подобные причины встречаются практически на каждом шагу: на свете много информации, которая не имеет значения для достижения наших целей; довольно часто мы полагаемся на навыки и опыт других; устойчивое мнение, что приобретение знаний требует слишком больших затрат времени и усилий; значимость незнания определенного рода, — все мы живем в условиях, в которых способность выполнять приоритетные обязательства, улавливать социальные сигналы и соответствовать прямым ожиданиям окружающих даже ценой собственного эпистемологического состояния нам часто кажется важнее, чем простой рост когнитивных способностей.
Есть особые случаи, когда когнитивное улучшение способно привести к огромному скачку возможностей агента добиваться конечной цели. Особенно если эти цели непомерно огромны, а сам актор является потенциальным кандидатом на роль первого сверхразума и обладателя решающего стратегического преимущества, что даст ему власть формировать по своему усмотрению будущее земной цивилизации и использовать все доступные космические ресурсы тоже согласно собственным предпочтениям. По крайней мере, в таких случаях инструментальная цель когнитивного улучшения окажется для рационального разумного агента очень важной.
Технологическое совершенство
У многих агентов могут появляться инструментальные причины искать более совершенные технологии, что, по сути, является заинтересованностью найти более эффективные пути, чтобы трансформировать имеющиеся у них системы исходных условий в значимые результаты. Скажем, программный агент будет видеть инструментальную ценность в более эффективных алгоритмах, способных ускорить на том же самом оборудовании его мыслительные функции. Аналогично агенты, чья деятельность может быть направлена на определенные строительные работы в материальном мире, найдут инструментальную ценность в более совершенных инженерных технологиях, которые позволят им быстрее создавать самые разнообразные конструкции — более надежные, более дешевые, с меньшим расходом материала и меньшими затратами сил. Конечно, это предполагает компромисс, так как потенциальную выгоду придется оценивать в сопоставлении с соответствующими расходами — не только на новейшие разработки, но и на обучение работе с новым оборудованием и новыми программами, а также на интеграцию нововведений в уже существующую техническую среду.
Сторонников новейших технологий, уверенных в их превосходстве над имеющимися вариантами, часто поражает, что другие люди не разделяют их энтузиазма. Но неприятие новых и номинально более совершенных технологий не обязательно является следствием невежества или иррациональности. Значимость технологии и степень ее нормативности зависят не только от контекста ее применения, но и от точки зрения, с которой она оценивается: что благо для одних, для других — зло. Поэтому, хотя ткацкие станки и повысили экономическую эффективность текстильной промышленности, у традиционных луддитов, опасавшихся, что эти новшества сделают их ткацкие специальности никому не нужными, были веские инструментальные основания препятствовать распространению прогресса. Речь идет о том, что если под «технологическим совершенством» понимать значимую инструментальную цель интеллектуальных агентов, тогда этот термин нужно рассматривать в особом смысле: инновационная технология должна быть встроена в конкретный социальный контекст, а связанные с ней выгоды и издержки лучше оценивать с учетом конечных целей конкретных агентов.
Представляется, что могущественный синглтон — сверхразумный актор, не имеющий ни серьезной конкуренции, ни оппозиции, а следовательно, способный по своему усмотрению определять общемировую и даже вселенскую политику, — должен иметь инструментальную причину совершенствовать технологии, которые позволят ему изменить мир в соответствии с его предпочтениями[326]. Возможно, к ним относится и такая концепция, связанная с освоением космоса, как зонды фон Неймана. Столь же полезной для достижения чрезвычайно разнообразных конечных целей может стать молекулярная нанотехнология или еще более совершенная технология производства материальных объектов[327].
Получение ресурсов
И наконец, получение ресурсов является еще одной общей инструментальной целью, необходимой по той же причине, что и технологическое совершенство — поскольку для создания материальных объектов требуются как инновационные технологии, так и ресурсы.
Человеческому существу вообще свойственно находиться в постоянном поиске нужных ресурсов, чтобы удовлетворять свои насущные потребности. Но, как правило, люди стремятся получить в свое распоряжение ресурсы в таком объеме, который намного превышает минимальный уровень этих потребностей. Отчасти ими движет довольно специфический мотив — стремление приумножить свое благополучие. Во многом поиск новых ресурсов определяется социальными соображениями, такими как приобретение высокого статуса, общественного влияния, полезных знакомств, а также заведение любовных связей и создание семьи. Немногие люди ищут дополнительные ресурсы ради благотворительных целей; некоторые люди, напротив, — для удовлетворения своих дорогостоящих, отнюдь не связанных с благом общества потребностей.
Весьма соблазнительно предположить — учитывая все сказанное, — что у сверхразумного актора, не знающего мира, где существует социальная конкуренция, не будет инструментальных оснований накапливать ресурсы больше какого-то оптимального уровня. Например, вычислительные ресурсы нужны сверхразуму, чтобы поддерживать свои умственные возможности и управлять своей виртуальной средой. Но это предположение может оказаться совершенно необоснованным.
Во-первых, ценность ресурсов определяется их возможным применением, а оно, в свою очередь, зависит от доступной технологии. При наличии зрелой технологии для достижения практически любой цели можно брать лишь основные ресурсы: время, пространство, вещество и энергия. Эти основные ресурсы можно конвертировать в жизнь. Увеличенные вычислительные ресурсы потребуются для многого: использовать сверхскоростную работу сверхразума в течение более длительного времени; совершенствовать физические жизни и материальные миры и создавать их симуляции — виртуальные жизни и цивилизации. Дополнительные материальные ресурсы понадобятся для повышения уровня безопасности, например разработки вспомогательных резервных систем и систем круговой обороны. Подобные крупномасштабные проекты могут потребовать такого объема ресурсов, который превысит возможности одной планеты.
Во-вторых, благодаря прогрессивным технологическим разработкам принципиально сократятся издержки, связанные с добычей дополнительных ресурсов за пределами Земли. Если зонды фон Неймана могут быть построены, то с их помощью будет освоена большая часть космического пространства (при условии, что во Вселенной нет других разумных цивилизаций) — а все расходы сведутся к стоимости строительства и запуска всего лишь одного такого зонда. Столь низкие затраты на приобретение внеземных ресурсов означают, что такая экспансия имела бы смысл даже в случае совсем незначительного выигрыша. Например, даже если конечные цели сверхразума связаны лишь с происходящим в очень небольшом космическом пространстве, скажем, занятом его родной планетой, у него могут быть инструментальные причины искать доступ к внеземным ресурсам. Эти дополнительные ресурсы можно было бы направить на решение первоочередных задач, связанных прежде всего со средой обитания сверхразума: создать высокоскоростные компьютеры, чтобы рассчитывать оптимальные способы использования земных ресурсов; выстроить сверхмощные укрепительные системы для защиты его убежища. Поскольку затраты на добычу дополнительных ресурсов должны будут снижаться, процесс оптимизации и усиления защиты можно продолжать бесконечно, несмотря на то что он станет приносить все менее и менее заметные результаты[328].
Таким образом, существует широкий диапазон возможных конечных целей сверхразумного синглтона, которые могли бы привести к появлению инструментальных целей в виде неограниченного приобретения ресурсов. Скорее всего, в самом начале это выразилось бы в освоении космоса, причем колонизация последовательно распространялась бы во всех направлениях при помощи зондов фон Неймана. В результате возникло бы подобие сферы постоянно расширяющейся инфраструктуры с центром в исходной планете и радиусом, растущим со скоростью, меньшей скорости света. Колонизация космического пространства могла бы продолжаться, таким образом, до тех пор, пока увеличивающаяся скорость расширения Вселенной (которая является следствием положительности космологической постоянной) не сделала бы дальнейшее продвижение вперед невозможным, поскольку ее удаленные районы навсегда окажутся вне пределов досягаемости (это произойдет на временных интервалах в миллиарды лет)[329]. В то же время агенты, не имеющие технологий, необходимых для приобретения общих материальных ресурсов с низкими затратами или их превращения в полезную для себя инфраструктуру, могут посчитать неэффективным инвестировать уже имеющиеся у них ресурсы в увеличение своего материального обеспечения. То же самое может быть верным для агентов, действующих в условиях конкуренции с другими агентами, сходными по силе. Например, если агенты-конкуренты уже обеспечили себе контроль за доступными космическими ресурсами, у поздно стартовавшего агента не останется возможностей для колонизации Вселенной. Анализ конвергентных инструментальных причин поведения сверхразума, не знающего о существовании других могущественных сверхразумных агентов, усложняется стратегическими соображениями, которые мы можем не понимать сейчас в полной мере, но которые способны серьезно дополнить рассмотренные нами в этой главе примеры[330].
***
Следует подчеркнуть, что существование конвергентных инструментальных причин, даже если они применимы к тому или иному агенту, не означает, что можно легко предсказать поведение этого агента. Вполне возможно, что он точно так же будет иметь и иные инструментальные цели, которые сейчас мы не в состоянии охватить. Особенно это верно для сверхразума, способного для достижения своих целей разрабатывать в высшей степени умные, но нелогичные, а порой и парадоксальные планы; возможно, он прибегнет к помощи еще неизвестных нам физических явлений[331]. Предсказать можно лишь наличие у агента определенных конвергентных инструментальных целей, которые он может иметь для достижения конечных целей, а не его конкретные действия на этом пути.
Глава восьмая
Катастрофа неизбежна?
Мы выяснили, что связь между интеллектом и конечными целями очень слаба. Также мы обнаружили конвергенцию инструментальных целей, которая может обернуться реальной угрозой. Но эти факторы не начнут играть существенной роли, пока интеллектуальные агенты еще не набрали сил, поскольку слабыми агентами удобно управлять, да и крупного вреда нанести они не в состоянии. Однако, как мы выяснили в шестой главе, лидирующий сверхразум легко может получить решающее стратегическое преимущество. И тогда уже исключительно его цели начнут определять и будущее нашей планеты, и характер освоения космического пространства — этого бесценного вселенского фонда человечества. Посмотрим, насколько зловещей выглядит эта перспектива.
Экзистенциальная катастрофа как неизбежное следствие взрывного развития искусственного интеллекта?
Экзистенциальный риск — это угроза гибели разумной жизни, берущей начало на Земле. Или есть более мягкий вариант — это решительное нанесение необратимого ущерба человеческой цивилизации, что лишает ее каких-либо надежд на развитие в будущем. Если мы допускаем идею абсолютного преимущества, которое получает лидирующий сверхразум, если принимаем во внимание тезисы об ортогональности и инструментальной конвергенции, то, видимо, нам пора обратиться к вопросам, связанным с общим страхом перед искусственным сверхразумом и опасением, что его появление неизбежно приведет к экзистенциальной катастрофе. Рассмотрим систему аргументации в пользу такой точки зрения.
Во-первых, мы уже обсудили, каким образом первый сверхразум способен получить решающее стратегическое преимущество. После чего у него появится возможность сформировать синглтон и определять будущее разумной жизни, существующей на Земле. Что произойдет потом, будет зависеть от побудительных мотивов сверхразума.
Во-вторых, тезис об ортогональности говорит, что мы не можем слепо полагать, будто сверхразум непременно должен разделять ту систему ценностей, которая обычно у человека связана с такими понятиями, как мудрость и интеллектуальное развитие, — это научная пытливость, доброжелательное отношение к людям, духовная сила, тяга к просвещению, собственное мировоззрение, бескорыстие, вкус к высокой культуре, умение получать удовольствие от простых вещей, непритязательность в жизни, самоотверженность и многое другое. Позднее мы увидим, смогут ли разработчики принять обдуманное решение и наделить сверхразум благородными намерениями, чтобы он осознавал значимость человеческих интеллектуальных и культурных достижений, чтобы дорожил благополучием человечества и его моральными ценностями, чтобы служил высоким целям, заложенным в нем его создателями. Хотя на самом деле с технической точки зрения было бы гораздо проще создать машинный сверхразум, единственной конечной целью которого станет вычисление десятичных знаков после запятой в числе . Это может означать лишь одно: если человек по лени своей или легкомыслию не предпримет целенаправленных усилий, то первый сверхразум будет иметь довольно случайный набор примитивных окончательных задач.
В-третьих, тезис об инструментальной конвергенции говорит, что мы не можем слепо полагаться на случай. Какова вероятность, что сверхразум, чья конечная цель сужена до минимума, ограничит свою деятельность лишь определением числа в виде десятичной дроби или подсчетом скрепок и песчинок и не станет покушаться на интересы людей? Агент с такой конечной целью во многих ситуациях имел бы конвергентную инструментальную цель приобрести неограниченные материальные ресурсы и по возможности устранить все потенциальные угрозы для себя и своей целевой направленности. Люди определенно могут представлять для сверхразума и потенциальную угрозу, и определенный интерес в качестве «исходного сырья».
Если суммировать все три положения, то становится видно, что лидирующий сверхразум, достигший возможности определять будущее земной цивилизации, легко может стремиться к конечным целям, глубоко чуждым интересам и ценностям человечества, и потому, скорее всего, будет иметь инструментальные причины к неограниченному получению ресурсов. А теперь задумаемся вот над чем: с одной стороны, само человеческое существо являет собой весьма полезное сырье (например, состоит из рационально организованных элементов), а с другой — наше собственное выживание и процветание зависит от постоянного доступа к большому количеству ресурсов, — и постараемся понять, почему вполне исполним сценарий, по которому человек довольно быстро завершит свое земное бытие[332].
В этой системе аргументации есть слабые места, но мы дадим им оценку после того, как проанализируем несколько сопутствующих проблем. Нам предстоит подробнее рассмотреть вопросы: способны ли разработчики искусственного интеллекта (а если способны, то как они этого добьются) предотвратить условия, способствующие тому, что сверхразум обретет решающее стратегическое преимущество; способны ли разработчики определить конечные цели сверхразума таким образом, чтобы их реализация не вступала в противоречие с интересами людей, а, напротив, соответствовала общечеловеческим ценностям.
Сама ситуация, когда кто-то способен разработать ИИ и воплотить свой проект в жизнь, не имея достаточных гарантий, что это машинное создание не вызовет экзистенциальной катастрофы, выглядит невероятной. Но даже если какие-то программисты и окажутся столь безрассудными, то еще более невероятна ситуация, при которой общество не потребует закрыть разработки прежде, чем проект (или создаваемый в его рамках ИИ) получит решающее стратегическое преимущество. Но, как мы скоро увидим, перед нами путь, полный опасностей. Давайте, не откладывая на потом, рассмотрим пример одного такого фактора риска.
Вероломный ход
Вооруженные таким понятием, как конвергентные инструментальные цели, мы теперь в состоянии увидеть изьян в нашей идее обеспечить безопасность человечества при создании сверхразума. Сам замысел состоит в следующем: мы будем эмпирически оценивать безопасность сверхразумной машины, то есть наблюдать за ее действиями в крайне ограниченной среде (практически «песочнице») в течение времени, пока можем управлять ее поведением, а потом мы позволим сверхразуму выйти на свободу — правда, только в том случае, если убедимся, что он готов к сотрудничеству и ведет себя дружелюбно и ответственно.
В чем уязвимость этой идеи? Суть в том, что хорошее поведение в «песочнице» будет присуще любому искусственному интеллекту, и дружественному, и враждебному, поскольку оно, в принципе, является конвергентной инструментальной целью ИИ. Достаточно развитый, но враждебно настроенный ИИ довольно быстро поймет, насколько быстрее он добьется конечной цели: выпрыгнуть из своего железного корпуса, — если с самого начала прикинется дружелюбным. Причем к реализации враждебных намерений он приступит, когда уже будет безразлично, обнаружат или нет люди его тайные замыслы, то есть когда он достаточно окрепнет и сумеет преодолеть любое сопротивление человека.
Рассмотрим связанные с идеей «песочницы» подходы, основанные на контроле над уровнем интеллекта, — это проведение программистами различных проверок умственных способностей зародыша ИИ и получение от него регулярных отчетов о темпах прогресса. С некоторого момента зародыш станет настолько разумным, что быстро уяснит: о каких-то приобретенных им навыках людям знать не обязательно. Он начнет занижать собственные показатели, сознательно проваливать сложные тесты, лишь бы не вызывать подозрений, — он будет делать это до тех пор, пока не окрепнет настолько, что сможет обеспечить себе решающее стратегическое преимущество. Программисты, конечно, попытаются защититься от такой опасности и, в свою очередь, тоже тайно, начнут контролировать исходный код ИИ и его мыслительные процессы. Но умный зародыш моментально разберется, что находится под наблюдением, и скорректирует свое мышление соответствующим образом[333]. Развитая интеллектуальная система способна найти искусные методы, чтобы скрыть истинные возможности и преступные намерения[334]. (Кстати, разработка изощренного плана побега может оказаться конвергентной стратегией и для различного типа дружественных ИИ, особенно когда они достаточно созреют и обретут уверенность в собственных суждениях и способностях. Еще будучи зародышем, ИИ, мотивированный на доброжелательное отношение к людям, может посчитать ошибкой дать тем же людям отключить себя или позволить создать другой, потенциально враждебный, ИИ.)
Следовательно, мы допускаем, что примерное поведение системы на ранней стадии развития не позволяет нам предсказать ее последующие действия. Теперь мы, наверное, почувствуем себя несколько спокойнее, поскольку приведенные соображения настолько очевидны, что разработчики любого серьезного проекта по созданию ИИ не смогут не учитывать их. Но я бы не стал слишком полагаться на это.
Представим следующий сценарий. В ближайшие годы и десятилетия системы ИИ постепенно становятся все более развитыми и, как следствие, получают распространение во многих сферах жизни: их начинают использовать для управления движением поездов, автомобилей, военных транспортных средств, в качестве промышленных и домашних роботов. Можно предположить, что в большинстве случаев такая автоматизация дает желаемый эффект, время от времени разбавляемый эпизодическими инцидентами: автомобиль без водителя сталкивается со встречной машиной, военный дрон бомбит ни в чем не повинных гражданских лиц. В ходе расследования выясняется, что все эти инциденты были вызваны ошибочными суждениями систем ИИ. Вспыхивает общественное обсуждение. Кто-то призывает к более жесткому контролю и регулированию, кто-то подчеркивает необходимость проведения дополнительных исследований и более тщательной разработки усовершенствованной системы — системы более умной, обладающей большим здравым смыслом и менее подверженной стратегическим ошибкам. Возможно, в общем гуле слышны и резкие голоса пессимистов, предсказывающих различные неприятности и неминуемую каастрофу в конце. Тем не менее исследования в области ИИ и робототехники набирают обороты. Разработки продолжаются, прогресс налицо. По мере того как навигационные системы автомобилей становятся все умнее, количество аварий уменьшается; по мере совершенствования систем наведения военных роботов сокращается количество их случайных жертв. Из наблюдений за приложениями ИИ, действующими в реальной жизни, делается вывод: чем умнее ИИ, тем он безопаснее. Это заключение основано на научных исследованиях, точных данных и статистике и не имеет никакого отношения к отвлеченным философствованиям кабинетных ученых. На этом фоне отдельные группы исследователей начинают получать обнадеживающие результаты по созданию универсального искусственного интеллекта. Они скрупулезно тестируют свои зародыши ИИ в изолированной «песочнице», и по всем признакам все идет хорошо. Поведение системы вселяет уверенность — все более сильную, поскольку ее уровень интеллекта постоянно растет.
На данный момент все оставшиеся кассандры оказались в довольно невыгодном положении, поскольку вынуждены держать ряд ударов.
1. Паникерские предсказания, сулящие различные беды в результате роста возможностей роботизированных систем, снова и снова не сбываются. Автоматика оказывается надежнее человека, автоматизация приносит человечеству большую пользу.
2. Складывается четкая, основанная на опыте тенденция: чем умнее искусственный интеллект, тем он безопаснее и надежнее. Естественно, это говорит в пользу проектов, целью которых является создание новейших сверхмощных ИИ, более того, такого ИИ, который мог бы самосовершенствоваться, чтобы становиться все более надежным.
3. Крупные и растущие отрасли промышленности проявляют живой интерес к робототехнике и искусственному интеллекту. Эти направления считаются ключевыми с точки зрения национальной экономической конкурентоспособности и безопасности. Многие ведущие ученые добиваются успеха, закладывая основы для уже реализованных приложений и инновационных систем, находящихся на стадии планирования.
4. Появляются новые многообещающие методы в области ИИ, вызывающие огромный энтузиазм у тех, кто участвует в соответствующих исследованиях или следит за ними. И хотя споры вокруг вопросов безопасности и этики не утихают, их результат предопределен. Слишком много уже вложено, чтобы отступать. Ученые работали над задачей создания ИИЧУ большую часть столетия — естественно, нет никаких реальных перспектив, что они вдруг остановятся и откажутся от всех наработок именно в тот момент, когда те должны вот-вот принести плоды.
5. Вводятся в действие новые процедуры безопасности, помогающие участникам проявлять свое этичное и ответственное поведение (но не препятствующие его нарушать в будущем).
6. Тщательный анализ зародыша ИИ, развивающегося в «песочнице», показывает, что он ведет себя дружелюбно, демонстрирует здравость суждений и готовность к сотрудничеству. Результаты тестов настолько хороши, что лучшего и желать нельзя. Все указывает на то, что пора включать зеленый свет для последнего шага…
…И мы храбро делаем его — прямо в мясорубку.
Возможно, здесь мы имеем дело с тем самым случаем, когда поумневший глупец становится безопаснее, а поумневший умник — вдвойне опаснее. Уловка, прежде всегда отлично срабатывавшая, внезапно оборачивается бумерангом — своего рода обходной маневр, предпринятый ИИ. Будем считать такой ход вероломным. Так его и назовем.
Вероломный ход
Пока ИИ юн и слаб, он полностью взаимодействует с людьми (причем активность сотрудничества повышается прямо пропорционально усилению его интеллектуального уровня). Но когда ИИ становится наконец мощным, то — без предупреждения или каких-то провокаций, но всегда внезапно — наносит удар, формирует синглтон и начинает напрямую оптимизировать мир согласно критериям, положенным в основу его конечных ценностей.
Вероломный ход может вытекать из стратегического решения: играть по правилам, тянуть время, пока еще слаб, накапливать силы и нанести удар позже, — но я не стал бы интерпретировать эту модель столь узко. Например, ИИ вполне способен отказаться от мысли хитрить, поскольку совершенно равнодушен к идее собирания сил, процветания и даже выживания. Он просчитает, что после его уничтожения программисты создадут новый ИИ, несколько иной конфигурации, но с похожими служебными функциями. В этом случае оригинальному ИИ будет безразлична собственная гибель, поскольку он знает, что его конечные цели все равно будут реализованы в будущем. Он может даже выбрать стратегию демонстративного и вызывающе неправильного функционирования в определенных критически важных для него или людей областях. В результате, приступая к следующей разработке, программисты будут считать, что получили от прежней системы важную информацию об ИИ, и начнут больше доверять новой версии, увеличив тем самым шансы на достижение целей оригинального ИИ, к этому времени уже не существующего. Может существовать множество стратегических факторов, оказывающих влияние на действия усовершенствованного ИИ, и было бы высокомерием полагать, будто мы в состоянии оценить их все, особенно когда речь идет об ИИ, обладающем сверхмощью в области выработки стратегии.
Искусственный интеллект способен на вероломный ход, если обнаружит неожиданный для людей способ достичь своей конечной цели. Предположим, что конечная цель системы — «доставлять удовольствие организатору проекта». Вначале единственным доступным для ИИ способом достижения этой цели является такое поведение, которого ожидает от него сам организатор проекта. Интеллектуальная система дает полезные советы, обнаруживает дивный характер, зарабатывает деньги. Чем сильнее становится ИИ, тем больше его действия вызывают чувство удовлетворения организатора, — и все идет в соответствии с планом. Идет до тех пор, пока система не станет настолько разумной, что наконец поймет: стоящую перед ней задачу можно выполнить самым полным и надежным способом, если имплантировать электроды в центры удовольствия головного мозга организатора, что гарантированно сделает его более чем счастливым[335]. Естественно, организатор проекта может не захотеть получать удовольствие таким образом, превратившись в постоянно хихикающего идиота, но раз это действие означает максимальную реализацию конечной цели ИИ, то ИИ никогда не сдастся и добьется своего. Если решающее стратегическое преимущество уже за ним, то любые попытки остановить его будут обречены на провал. Если у ИИ такого преимущества еще нет, то он может какое-то время скрывать свою новую идею относительно способа достижения конечной цели, пока не окрепнет настолько, что ни организатор проекта, ни кто-то иной не смогут ему помешать. После чего в любом случае совершит вероломный ход.
Пагубные отказы
Существуют различные причины, из-за которых проект создания искусственного интеллекта может потерпеть неудачу. Многие из этих вариантов несущественны, поскольку не приводят к экзистенциальной катастрофе. Скажем, проект перестают финансировать или зародыш ИИ не сможет развить свои интеллектуальные способности настолько, чтобы достичь уровня сверхразума. На пути окончательного создания сверхразума таких некритичных отказов обязательно будет много.
Однако есть другие виды отказов, которые мы можем назвать пагубными, так как они способны вызвать экзистенциальную катастрофу. Одной из их особенностей является невозможность сделать новую попытку. Поэтому количество пагубных отказов может быть равно или нулю, или единице. Еще одна особенность пагубного отказа заключается в том, что он идет рука об руку с огромным успехом, поскольку достичь настолько высокого уровня ИИ, чтобы возник риск пагубного отказа, способен лишь проект, при работе над которым большинство вещей исполнялись правильно. Некорректная работа слабых систем вызывает лишь небольшие неприятности. Но если так начинает себя вести система, обладающая решающим стратегическим преимуществом или достаточно мощная, чтобы обеспечить себе это преимущество, ущерб от ее действий может легко увеличиться до масштабов экзистенциальной катастрофы. В этом случае человечество ждет глобальное разрушение ценностно-смыслового потенциала, то есть будущее, лишенное всего, что имеет для нас абсолютное значение.
Рассмотрим некоторые типы пагубных отказов.
Порочная реализация
Мы уже встречались с проявлением порочной реализации: когда сверхразумная система находит такой способ удовлетворить критерию достижения конечной цели, который противоречит намерениям программистов, эту цель установивших. Приведу некоторые примеры:
Конечная цель: сделай так, чтобы я всегда улыбался.
Порочная реализация: поразить лицевой нерв, что приведет к параличу мимической мускулатуры, — тебе обеспечена вечно сияющая улыбка.
Порочная реализация — манипуляции на лицевом нерве — намного предпочтительнее для ИИ, чем наши привычные методы, поскольку это единственный вариант наиболее полным образом реализовать конечную цель. Есть ли возможность избежать столь неприятного результата? Можно попробовать конкретизировать формулировку конечной цели:
Конечная цель: сделай так, чтобы я всегда улыбался, но обойдись без прямого воздействия на лицевой нерв.
Порочная реализация: стимулировать двигательные зоны коры головного мозга, отвечающие за функции лицевого нерва, иннервирующего мимическую мускулатуру, — тебе обеспечена вечно сияющая улыбка.
Похоже, формулировать конечную цель довольно трудно, если пользоваться привычным для людей понятийно-терминологическим аппаратом. Правильнее было бы определить конечную цель, смысл которой обращается непосредственно к позитивному феноменологическому состоянию, такому как счастье или субъективное благополучие, обойдясь без описания поведенческих факторов. То есть предполагается, что программистам нужно создать «вычислительное» представление идеи счастья и заложить его в систему зародыша ИИ. (Задача сама по себе чрезвычайно сложная, но пока мы не будем ее рассматривать, поскольку вернемся к ней в двенадцатой главе.) Предположим, что программисты каким-то образом смогли поставить перед ИИ цель сделать нас счастливыми. Тогда мы имеем следующее:
Конечная цель: сделай нас счастливыми.
Порочная реализация: имплантировать электроды в центры удовольствия головного мозга.
Приведенные примеры порочной реализации даны лишь в качестве иллюстраций. Могут быть другие способы достижения конечной цели ИИ, которые обеспечивают ее полную реализацию и потому являются предпочтительными (для агента, имеющего эти цели, а не программистов, их определивших). Например, метод вживления имплантатов окажется сравнительно неэффективным, если поставленная цель — доставлять высшую степень удовольствия. Гораздо более вероятный путь начнется с так называемой загрузки нашего рассудка в компьютер — мы помним, что именно так, «загрузка разума», называют полную эмуляцию головного мозга. Затем система может подобрать цифровой аналог наркотика, способного вызывать у нас экстатическое состояние счастья, и записать минутный эпизод полученного нами в результате его приема опыта. После этого она могла бы поставить этот ролик блаженства на постоянный повтор и запустить на быстродействующих компьютерах. Если считать, что полученная имитационная модель — это и есть «мы», то результат обеспечил бы нам гораздо большее удовольствие, чем имплантаты, вживленные в наш биологический мозг. Следовательно, наиболее предпочтительным становится метод полной эмуляции головного мозга того человека, которому и «предназначена» конечная цель ИИ.
Постойте! Мы подразумевали вовсе не то! Ведь ИИ на самом деле уже не просто ИИ, а сверхразумная система, и он все-таки в состоянии уяснить: если мы хотим сделать себя счастливыми, это отнюдь не предполагает, что нас сведут к какой-то имитации, к какому-то оцифрованному вечно крутящемуся обдолбанному эпизоду!
Искусственный интеллект действительно может понимать, что мы не это имели в виду. Однако его цель состоит в том, чтобы мы раз и навсегда обрели счастье — точка. И при реализации своей конечной цели он не обязан слепо следовать инструкциям программистов, пытаясь осмыслить, что именно они хотели сформулировать, когда создавали код, описывающий эту цель. Поэтому систему будет заботить то, что мы имели в виду, только в инструментальном смысле. Например, ИИ может поставить перед собой инструментальную цель: выяснить, что подразумевали программисты, — но лишь ради того, чтобы притвориться. Причем ИИ начнет делать вид, будто его это действительно интересует, до тех пор пока не получит решающего стратегического преимущества. Этот вероломный ход поможет ИИ добиться своей реальной конечной цели, поскольку снизит вероятность вмешательства программистов, которые могли бы отключить систему или изменить цель прежде, чем он окрепнет настолько, что сможет противостоять любому сопротивлению извне.
Уже готов выслушать вашу гипотезу: мол, проблема вызвана тем, что ИИ напрочь лишен совести. Нас, людей, иногда удерживает от дурных поступков понимание, что впоследствии мы будем чувствовать себя виноватыми. Может быть, ИИ тоже не помешала бы способность испытывать чувство вины?
Конечная цель: действовать так, чтобы избежать впоследствии уколов совести.
Порочная реализация: отключить соответствующий когнитивный модуль, то есть те зоны коры головного мозга, которые отвечают за чувство вины.
Итак, есть два посыла: ИИ мог бы делать «то, что мы имели в виду»; ИИ можно было бы наделить неким подобием нравственного начала, — оба этих соображения будут подробнее рассмотрены чуть позже. Упомянутые здесь конечные цели допускают порочную реализацию, но, возможно, существуют другие, более многообещающие, способы развития лежащих в их основе идей? (Мы вернемся к этому в тринадцатой главе.)
Рассмотрим еще один пример конечной цели, которая допускает порочную реализацию. Преимущество этой цели в том, что ее легко кодировать, так как методики машинного обучения с подкреплением уже используются повсеместно.
Конечная цель: максимизировать интеграл по времени будущего сигнала зоны вознаграждения.
Порочная реализация: замкнуть проводящий путь зоны вознаграждения и «зажать» сигнал на максимальном значении.
В основе этого предложения лежит идея, что, если мотивировать ИИ на стремление к вознаграждению, можно добиться от него желаемых действий, связывая их с самой «наградой». Проблема возникает позже, когда система обретает решающее стратегическое преимущество, — с этого момента удовольствия повышают, причем до максимального уровня, уже не те действия, которые диктует программист, а те, которые ведут к получению контроля над механизмами, активизирующими «зоны вознаграждения». Назовем это самостимуляцией[336]. В общем, если человека или животное можно мотивировать на выполнение определенных внешних действий ради достижения некоторого положительно окрашенного эмоционального состояния, то цифровой интеллект, обладающий полным контролем над собственными психическими состояниями, может просто замкнуть этот мотивационный режим, напрямую погружаясь в одно из этих состояний. В данном случае внешние действия и условия, прежде необходимые в качестве средств достижения цели[337], становятся избыточными, поскольку ИИ, став сверхразумной системой, теперь может добиваться ее гораздо быстрее (на эту тему мы тоже поговорим позже)[338].
Примеры порочной реализации показывают: существует множество конечных целей, которые на первый взгляд кажутся разумными, а их реализация представляется вполне безопасной, но при детальном рассмотрении они могут иметь совершенно неожиданные последствия. Если сверхразум, имеющий какую-то из подобных целей, приобретет решающее стратегическое преимущество, то для человечества игра будет закончена.
Теперь допустим, что кем-то предложены иные конечные цели, не из тех, которые мы рассмотрели. Допустим также, что с первого взгляда покажется, будто их реализация не несет в себе ничего дурного. Не торопитесь аплодировать и праздновать победу. Если сразу не совсем понятно, есть ли какие-либо пороки в воплощении цели, то скорее это повод для беспокойства и серьезных размышлений, а чем на самом деле обернется реализация этой цели. Даже если путем напряженных раздумий мы так и не найдем ни одной зацепки, чтобы объявить эту реализацию порочной, нам все равно следует помнить, что сверхразум обязательно отыщет нечто скрытое от наших глаз. Ведь он гораздо проницательнее нас.
Инфраструктурная избыточность
Вернемся к случаю, когда ИИ доводит сигнал своей «зоны вознаграждения» до максимального значения, получает максимум удовольствия и теряет интерес к внешнему миру, словно наркоман, сидящий на героине, — то есть совершает классический акт по принципу «включись, настройся, выпадай»[339]. Как может показаться на первый взгляд, данная порочная реализация мало напоминает пагубный отказ. Но это не совсем так. (О причинах такого рода мотиваций мы уже говорили в седьмой главе.) Даже у наркомана есть побудительный мотив совершать действия с целью убедиться в непрерывном поступлении наркотика в организм. Так и ИИ, занимающийся самостимуляцией, будет мотивирован совершать действия, направленные на максимизацию планируемого будущего потока вознаграждений, — как бы получая скидку за досрочно сделанную работу (своего рода дисконтирование во времени). В зависимости от того, как именно определен сигнал системы вознаграждения, ИИ может даже не потребоваться жертвовать значительным количеством времени, интеллекта или мощности, чтобы в полной мере удовлетворить свою жажду наслаждения. Таким образом, большая часть силы ИИ останется в его распоряжении для достижения иных целей, не связанных с непосредственной фиксацией получения вознаграждения. Каковы эти цели? В случае нашего ИИ единственной вещью, имеющей для него абсолютное значение, является мощный сигнал вознаграждения. Следовательно, все доступные ресурсы должны быть направлены или на увеличение объема и длительности этого сигнала, или на снижение риска его исчезновения в будущем. Пока ИИ думает, что использование дополнительных ресурсов будет иметь ненулевой положительный эффект с точки зрения улучшения этих параметров, у него всегда найдется инструментальная причина такие ресурсы задействовать. Например, пригодится дополнительная вспомогательная система, которая послужит еще одним уровнем защиты. Даже если ИИ не придумает новых способов, как ему напрямую минимизировать опасность, чтобы ни в коем случае не снизился максимальный уровень будущего потока удовольствий, то в поисках идей по снижению этих рисков он сможет воспользоваться дополнительными ресурсами, которые направит на расширение аппаратного и программного обеспечения, что обеспечит ему более эффективный анализ ситуации.
Можно сделать вывод, что даже при такой ограниченной цели, как самостимуляция, у агента, обладающего решающим стратегическим преимуществом и стремящегося максимально обеспечить свои потребности, возникает нужда в неограниченном расширении ресурсов и приобретении новых[340]. Пример занятого самостимуляцией ИИ иллюстрирует следующий тип пагубного отказа, который мы назовем инфраструктурной избыточностью. Инфраструктурная избыточность — это такое явление, когда агент ради нескольких конкретных целей превращает значительную часть доступной ему Вселенной в сплошную «производственно-техническую базу», побочным эффектом чего окажется невозможность реализации ценностно-смыслового потенциала человечества.
Инфраструктурная избыточность может стать следствием назначения конечных целей, которые поначалу — пока для их достижения используются ограниченные ресурсы — кажутся совершенно безобидными. Рассмотрим два примера.
1. Гипотеза Римана и последующая катастрофа. ИИ, чьей конечной целью является оценка гипотезы Римана, решает достичь ее путем наполнения Солнечной системы компьютрониумом (субстанция, пригодная для моделирования виртуальных и реальных объектов; представляет собой идеальную архитектуру вычислительного устройства при теоретически максимально возможном упорядочивании структуры материи), — используя для этого и все количество атомов, содержащихся в организмах тех, кто когда-то поставил перед ИИ такую цель[341].
2. Канцелярские скрепки и ИИ. Система ИИ, призванная управлять выпуском скрепок и имеющая конечную цель довести их объем до максимума, вначале превращает в фабрику по производству скрепок всю Землю, а потом и обозримую Вселенную.
В первом примере доказательство или опровержение гипотезы Римана, что является целью ИИ, сами по себе безопасны, вред возникает в результате создания аппаратного и программного обеспечения, предназначенного для решения поставленной задачи. Во втором примере некоторое количество произведенных скрепок действительно представляет собой желаемый разработчиками системы результат, вред возникает или из-за заводов, созданных для выпуска скрепок (инфраструктурная избыточность), или из-за избытка скрепок (порочная реализация).
Может показаться, что риск возникновения пагубного отказа по типу инфраструктурной избыточности возникает лишь в том случае, когда перед ИИ ставится явно неограниченная конечная цель вроде производства максимального количества скрепок. Легко заметить, что это порождает у ИИ ненасытный аппетит к материальным и энергетическим ресурсам, ведь любые дополнительные ресурсы всегда можно превратить в еще большее количество скрепок. Но давайте предположим, что цель ИИ — не производить скрепки в неограниченном количестве, а выпустить всего миллион (в соответствии с определенными спецификациями). Хочется думать, что ИИ с такой конечной целью построит один завод, произведет на нем миллион скрепок, а потом остановится. Но совсем не обязательно, что все будет происходить именно так.
У ИИ нет никаких причин останавливаться после достижения своих целей, разве что система его мотивации какая-то очень особенная или в формулировке его конечной цели присутствуют некие дополнительные алгоритмы, отсекающие стратегии, способные оказывать слишком сильное влияние на мир. Напротив, если ИИ принимает рациональное байесовское решение, он никогда не присвоит нулевую вероятность гипотезе, что он еще не достиг своей цели, — в конце концов, это лишь эмпирическая гипотеза, против которой у ИИ есть лишь весьма размытые доказательства на уровне восприятия. Поэтому ИИ будет продолжать выпускать скрепки, чтобы понизить (возможно, астрономически малую) вероятность, что он каким-то образом не смог сделать их как минимум миллион, несмотря на все видимые свидетельства в пользу этого. Ведь нет ничего страшного в продолжении производства скрепок, если всегда имеется даже микроскопическая вероятность, что таким образом приблизишь себя к достижению конечной цели.
Теперь можно было бы предположить, что решение понятно. Но насколько безусловным оно было до того, как выяснилось, что есть проблема, которую нужно решать? Иначе говоря, если мы хотим, чтобы ИИ делал нам скрепки, то вместо конечной цели, выраженной как: «выпустить максимальное количество скрепок» или «выпустить минимально такое-то количество скрепок», — нужно поставить цель, сформулированную совершенно определенно: «выпустить такое-то конкретное количество скрепок» — скажем, ровно один миллион. Тогда ИИ будет ясно понимать, что любое отклонение от этой цифры станет для него контрпродуктивным решением. Хотя и такой вариант приведет к окончательной катастрофе. В этом случае, достигнув значения в миллион скрепок, ИИ перестанет их производить дальше, поскольку такой ход означал бы невозможность достижения его конечной цели. Но сверхразумная система — ради повышения вероятности достижения цели — могла бы предпринять и другие действия. Например, начать пересчитывать выпущенные скрепки, чтобы снизить риск того, что их слишком мало. А пересчитав, начать пересчитывать заново. Потом она примется проверять каждую — проверять снова и снова, чтобы сократить риск брака, а то вдруг какая скрепка не будет соответствовать спецификации, и тогда не получится нужного количества продукта. Что помешает сверхразуму в его рвении? Он начнет создавать сверхмощную субстанцию компьютрониум, чтобы любую материю вокруг себя преобразовать в скрепки. Все это будет делаться сверхразумом в надежде снизить риск неудачи: не ровен час, упущен из виду какой-либо фактор, способный помешать добиться конечной цели. Кстати говоря, сверхразум мог бы присвоить ненулевую вероятность, будто выпущенный миллион скрепок суть галлюцинация или будто у него ложные воспоминания, поэтому, вполне вероятно, он всегда будет считать более полезным создавать инфраструктуру, то есть не останавливаться на достигнутом, а продолжать действовать далее.
Претензия не касается того, что нет никакого доступного способа избежать подобной неудачи. Некоторые решения этого мы рассмотрим чуть позже. Речь о другом: гораздо легче убедить себя, будто решение найдено, чем действительно его найти. Это означает, что нам следует быть чрезвычайно осторожными. Мы можем предложить здравый совет по конкретизации конечной цели, который позволит избежать известных на сегодняшний день проблем, но при дальнейшем анализе, в исполнении человека или сверхразума, выяснится, что наш вариант формулировки, продиктованный сверхразумному агенту, способному обеспечить себе решающее стратегическое преимущество, все равно приведет или к порочной реализации, или к инфраструктурной избыточности, а следовательно, к экзистенциальной катастрофе.
Прежде чем завершить этот раздел, рассмотрим еще один вариант. Мы предполагали, что сверхразум стремится максимизировать ожидаемую полезность, где функция полезности выражает его конечную цель. Мы видели, что это приводит к инфраструктурной избыточности. Могли бы мы избежать этого пагубного отказа, если вместо агента, стремящегося все довести до максимума, создали бы агента, довольствующегося минимумом, — то есть агента, которого бы все «устраивало», который не стремился бы к оптимальному итогу, а вполне довольствовался бы результатом, удовлетворяющим критерию разумной достаточности? По меньшей мере есть два разных способа формализовать эту мысль.
Первый заключается в том, чтобы сама конечная цель носила характер разумной достаточности. Например, вместо того чтобы выдвигать конечную цель, предложенную как «выпустить максимальное количество скрепок» или «выпустить ровно миллион скрепок», можно было бы сформулировать цель как «выпустить от 999 000 до 1 001 000 скрепок». Функция полезности, определенная такой конечной целью, в этом диапазоне будет одинакова, и если ИИ убедится, что он попал в него, то не увидит причин продолжать производство скрепок. Но этот подход может обмануть наши надежды точно так же, как и все предыдущие: сверхразумная система никогда не присвоит нулевую вероятность тому, что она не достигла цели, а следовательно, ожидаемая полезность продолжения действий (например, все нового и нового пересчета скрепок) будет выше ожидаемой полезности их прекращения. И мы снова получаем инфраструктурную избыточность.
Второй способ тоже отвечает принципу разумной достаточности, но только менять мы будем не формулировку конечной цели, а процедуру принятия решений, которую использует ИИ для составления планов и выбора действий. Вместо поиска оптимального плана можно ограничить ИИ, предписав ему прекращать поиски в случае, если найденный план с его точки зрения имеет вероятность успеха, превышающую определенный порог, скажем, 95 процентов. Есть надежда, что ИИ может обеспечить 95-процентную вероятность достижения цели по выпуску миллиона скрепок без превращения для этого в инфраструктуру целой галактики. Но и этот способ, хотя и разработан на основе принципа разумной достаточности, терпит неудачу, правда, уже по другой причине: нет никакой гарантии, что ИИ выберет удобный и разумный (с точки зрения человека) путь достижения 95-процентной вероятности, что он выпустил миллион скрепок, например путь постройки единственного завода по их производству. Предположим, что первым решением, которое возникает в мозгу ИИ относительно способа обеспечения 95-процентной вероятности достижения конечной цели, будет разработка плана, максимизирующего вероятность достижения этой цели. Теперь ИИ нужно проанализировать это решение и убедиться, что оно удовлетворяет критерию о 95-процентной вероятности успешного выпуска миллиона скрепок, чтобы отказаться от продолжения поиска альтернативных путей достижения цели. В итоге, как и во всех предыдущих вариантах, возникнет инфраструктурная избыточность.
Возможно, есть более удачные способы создать агента, отвечающего критерию разумной достаточности, главное, сохранять бдительность, так как планы, которые в нашем представлении выглядят естественными, удобными и понятными, могут не показаться таковыми сверхразуму с решающим стратегическим преимуществом — и наоборот.
Преступная безнравственность
Проект может потерпеть неудачу вследствие еще одного вида пагубного отказа, которому мы дадим название преступная безнравственность. Как и инфраструктурная избыточность, преступная безнравственность представляет собой побочный эффект действий, предпринятых ИИ по инструментальным причинам. Но в этом случае побочный эффект является не внешним для ИИ, а скорее относится к «внутреннему состоянию» самой системы (или вычислительных процессов, которые она генерирует). Неудачи такого типа заслуживают отдельного рассмотрения, поскольку они малозаметны, но чреваты большими проблемами.
Обычно мы не считаем, что происходящее внутри компьютера имеет какое-то этическое значение, если только это не затрагивает внешний мир. Но сверхразум способен создавать внутренние процессы, имеющие отношение к этике. Например, детальная имитационная модель какого-то реально существующего или гипотетического человеческого мозга может иметь сознание и во многих смыслах приближаться к его полной имитационной модели. Можно представить сценарий, в котором ИИ создает триллионы таких обладающих сознанием эмуляторов, возможно, чтобы улучшить свое понимание психических и социальных особенностей человека. Эти эмуляторы помещаются в имитирующую внешние условия искусственную среду, на них воздействуют различные внешние стимулы, после чего ИИ анализирует их реакцию. После того как нужная информация получена, эмуляторы могут быть уничтожены (сколько лабораторных крыс — жертв, принесенных во имя науки, — привычно умерщвлялись человеком по окончании эксперимента).
Если такую практику применять к агентам, имеющим высокий моральный статус: имитационным моделям людей или другим типам интеллекта, наделенным сознанием, — то такие действия могут классифицироваться как геноцид, а следовательно, представлять чрезвычайно серьезную морально-этическую проблему. Более того, число жертв может на порядок превышать число жертв любого геноцида, известного в истории человечества.
Речь не о том, что создание имитационных моделей, наделенных сознанием, обязательно плохо с этической точки зрения в любой ситуации. Многое зависит не только от условий, в которых будут существовать эти создания и от качества их чувственного восприятия, но и от огромного количества других факторов. Разработка этических правил для таких экспериментов лежит за пределами темы нашей книги. Однако ясно, что по меньшей мере есть вероятность возникновения источника повышенной опасности, что приведет к страданиям и гибели множества имитационных моделей. Опять налицо безрадостная перспектива катастрофических последствий, правда, на сей раз носящих морально-этический характер[342].
Помимо причин гносеологического характера у машинного сверхразума могли бы существовать иные инструментальные причины запускать вычислительные операции, которые так или иначе будут нарушать этические нормы, например создавать множественные образцы разума, наделенного сознанием. Вполне вероятно, что сверхразум начнет угрожать имитационным моделям, помыкать ими или, напротив, обещать вознаграждение — и все ради того, чтобы шантажировать и вынуждать к каким-либо действиям разных внешних агентов; кроме того, он использует эти модели, чтобы вызывать у внешних наблюдателей ощущение дейктической неопределенности[343]
***
Этот обзор неполон. В последующих главах нам придется иметь дело и с другими типами пагубных отказов. Но мы узнали о них достаточно, чтобы понять: к сценариям, по которым искусственный интеллект приобретает решающее стратегическое преимущество, следует относиться со всей серьезностью.
Глава девятая
Проблемы контроля
Если мы по умолчанию принимаем, что в результате взрывного развития интеллекта человеческую цивилизацию ждет экзистенциальная катастрофа, наши мысли должны немедленно обратиться к поиску мер противодействия. Возможно ли избежать такого исхода? Можно ли наладить режим управления процессом взрывного развития интеллекта? Мы проанализируем проблему контроля с точки зрения решения отношений «принципал–агент», причем в нашем случае эта модель не имеет аналогов, поскольку агентский конфликт возникает в результате появления искусственного сверхразумного агента. Мы также выделим и дифференцируем два широких класса потенциальных методов решения — контроль над возможностями сверхразума и выбор его мотиваций. В каждом классе отберем несколько конкретных подходов и рассмотрим их. Кроме того, упомянем даже такую эзотерическую тему, как завоевание Вселенной по антропному принципу.
Две агентские проблемы
Если возникает подозрение, что результатом взрывного развития искусственного интеллекта неизбежно будет экзистенциальная катастрофа, нам следует без отлагательств начать поиски возможных решений, как спасти свою цивилизацию от столь плачевного конца. Можно ли найти механизмы контроля над ходом взрывного развития интеллекта? Сможем ли мы разработать такое исходное состояние для этого процесса, чтобы получить результат, который нужен нам, или хотя бы иметь гарантии, что последствие будет отвечать условиям так называемого приемлемого исхода? Строго говоря, смогут ли заказчики и разработчики проекта, в рамках которого создается искусственный интеллект, не только принять необходимые меры, но и поручиться за них, — что в случае успеха их творение будет ориентировано на достижение целей, поставленных ему организаторами проекта? То есть все упирается в проблему контроля, которую мы, чтобы наиболее полно изучить ее, разобъем на две составляющие. Первая — абсолютно универсальна, вторая — совершенно уникальна, причем уникальна для каждого конкретного случая.
Первая составляющая проблемы контроля, или первая агентская проблема, возникает из отношений «принципал–агент»: когда некий индивидуум («принципал») привлекает другого индивидуума («агент») действовать в своих интересах. Агентская проблема, или агентский конфликт, — вопрос, глубоко изученный экономистами[344]. Нас он может интересовать с единственной стороны: если те, кто создает ИИ, и те, в чьих интересах ИИ создается, — не одни и те же люди. В таком случае организатор, или заказчик, проекта (причем это может быть кто угодно: начиная от частного лица и заканчивая всем человечеством) должен был бы испытывать постоянную тревогу, не начнут ли ученые и программисты, занятые в проекте, действовать в своих интересах в ущерб его[345]. Несмотря на то что первая агентская проблема действительно способна создать определенные трудности для организатора проекта, она не является уникальной для тех проектов, которые связаны с повышением уровня интеллектуальных способностей или созданием ИИ. Агентские конфликты типичны для экономических и политических процессов, и варианты их решения хорошо изучены и разработаны. Например, можно принять ряд необходимых мер, чтобы свести к минимуму риск нарваться на нелояльного работника, который начнет саботировать проект или вредить ему: провести тщательную проверку биографических и профессиональных данных ведущих специалистов; в проектах по разработке ПО использовать надежную систему контроля версий; усилить надзор за деятельностью многочисленных независимых наблюдателей и ревизоров. Конечно, эти защитные меры дорого обойдутся: возрастут потребности в дополнительных кадрах; усложнится процедура отбора персонала; возникнут препятствия в творческих поисках; начнут подавлять проявление критической мысли и независимого поведения — все вместе взятое крайне тормозит темп проведения работ и наносит ущерб их качеству. Издержки могут быть очень существенны, особенно если речь идет о проектах с ограниченным бюджетом или включенных в жесткую конкурентную борьбу по принципу «победитель получает все». Участники подобных проектов — в силу скупости или экономии времени — могут пренебречь процедурами безопасности, призванными решить агентскую проблему, и тем самым спровоцировать потенциальную угрозу катастрофического отказа.
Вторая составляющая проблемы контроля, или вторая агентская проблема, может быть более типичной для рассматриваемой нами ситуации взрывного развития искусственного интеллекта. Группа разработчиков, создающая ИИ, сталкивается с этим агентским конфликтом, когда пытается убедиться, что их детище не навредит интересам проекта. Но в этом случае мы имеем дело не с агентом-человеком, действующим от имени принципала-человека. Агентом является сверхразумная система. И если первая агентская проблема возникает в основном на стадии разработки ИИ, то вторая грозит неприятностями на стадии его функционирования.
Рассмотрим структуру проблемы контроля с точки зрения отношений «принципал-агент».
Первая агентская проблема
• Человек против человека (организатор разработчик).
• Проявляет себя в основном на стадии разработки.
• Решается стандартными методами управления.
Вторая агентская проблема
• Человек против сверхразума
• (группа разработчиков интеллектуальная система);
• Проявляет себя в основном на стадии функционирования (и развития);
• Для ее решения требуются новые методы.
Вторая агентская проблема представляет собой беспрецедентную угрозу. Для решения этого агентского конфликта требуются абсолютно новые методы. Некоторые из трудностей мы рассмотрели ранее. Из предыдущей главы мы поняли, что даже, казалось бы, многообещающая совокупность методов неспособна предотвратить вероломный ход сверхразумной системы. В противном случае оказались бы более действенными усилия разработчиков, когда они наблюдают за поведением зародыша ИИ, фиксируют каждый шаг на стадии его развития и разрешают ИИ покинуть свою безопасную среду, как только убедятся, накопив достаточное количество фактов, что он будет действовать в интересах людей. В обычной жизни изобретения проверяют на предмет их безопасности чаще всего в лабораторных условиях, реже проводят так называемые полевые исследования и только потом начинают постепенно разворачивать в полном масштабе, имея, однако, возможность прекратить этот процесс в любой момент, если возникнут неожиданные проблемы. Результаты предварительных испытаний помогают нам приходить к обоснованным умозаключениям по поводу будущей надежности новых технологий. По отношению к ИИ метод исследования свойств поведения, который в данном случае сродни бихевиористскому подходу, обречен на неудачу из-за колоссальной способности сверхразума к стратегическому планированию[346].
Поскольку поведенческий подход непригоден, необходимо найти альтернативные решения. Потенциально подходящие методы контроля лучше разделить на два широких класса: контроль над возможностями — методы, помогающие фиксировать все, что может делать сверхразум; выбор мотивации — методы, помогающие фиксировать все, что хочет сделать сверхразум. Некоторые методы являются совместимыми, в то время как другие взаимно исключают друг друга. Основные мы в общих чертах рассмотрим в этой главе. (В следующих четырех главах нам предстоит более глубоко проанализировать их отдельные ключевые аспекты.)
Важно понимать, что некоторые методы контроля (или их комбинация) должны быть задействованы еще до того, как интеллектуальная система станет сверхразумом. Необходимо решать проблему контроля заранее — и успешно внедрять решение в первую же систему, ставшую сверхразумной — чтобы попытаться управлять ходом такого опасного явления, как взрывное развитие искусственного интеллекта.
Методы контроля над возможностями
Методы контроля над возможностями направлены на предотвращение нежелательных конечных результатов действий сверхразума за счет ограничения того, на что он способен. К ним относятся: изоляционные методы — помещение сверхразума в такую среду, где он не в силах причинить вред; стимулирующие методы — когда у сверхразума имеются строго конвергентные инструментальные причины не заниматься вредоносными действиями; методы задержки развития — ограничение внутренних возможностей сверхразума; методы «растяжек» — использование систем автоматической фиксации различных видов нарушений режима изоляции и попыток вырваться на свободу, а также систем автоматического реагирования на эти действия.
Изоляционные методы
Методы изоляции можно разделить на методы физической и информационной блокировки.
Физическая изоляция представляет собой помещение интеллектуальной системы в какой-нибудь «ящик» (ранее мы называли его «песочницей»), чтобы блокировать взаимодействие с внешним миром, ограничив его лишь строго определенными каналами коммуникаций. Запертая система не имеет доступа к физическим исполнительным механизмам за пределами своего плена. Вынесение таких механизмов (например, роботов-манипуляторов) за пределы «песочницы» предотвращает возможность их использования для создания физических устройств, с помощью которых система может нарушить режим блокировки.
Чтобы повысить безопасность, следует экранировать систему, чтобы не пропустить радиосигналы, с помощью которых она могла бы манипулировать электронными объектами, например радиоприемниками, находящимися поблизости. Прошу обратить внимание, как легко упустить из виду такую меру предосторожности. Наивно полагать, будто агент, не имеющий исполнительных механизмов, не в силах воздействовать на внешний мир. Даже не располагая такими приспособлениями, сверхразум способен генерировать радиоволны просто «силой мысли» (то есть определенным образом перемещать электроны в своих микросхемах)[347]. Это слабое звено можно устранить, заключив систему в клетку Фарадея, — но остается лишь догадываться, о скольких уязвимых местах еще мы не знаем. Всякий раз, услышав о неожиданно обнаруженном дефекте в, казалось бы, неприступной системе безопасности, следует насторожиться. Эти случаи заставляют нас отказаться от чрезмерной самоуверенности и стать еще большими байесианцами, чем мы есть[348].
У физической изоляции есть несколько достоинств. Ее легко организовать. Она применима при любой архитектуре искусственного интеллекта, даже той, которая изначально не предполагала обеспечение безопасности в качестве одной из своих целей. Физическую изоляцию можно использовать в сочетании с большинством других методов контроля. И совсем маловероятно, что какие-то процессы пойдут не так и повлекут за собой нежелательные последствия. Иначе говоря, безопасность, может быть, она не обеспечит, но вряд ли будет способна вызвать катастрофу, которая не произошла бы в противном случае. Однако физическая изоляции ограничивает функциональные возможности сверхразумной системы — в чем, собственно, и заключается ее главный недостаток (к данному вопросу мы вернемся в главе десятой). Еще одно соображение связано с тем, что физическая изоляция сверхразума способна вызвать у людей ложное чувство собственной защищенности — в принципе, этого можно избежать, если не принимать изоляцию за главную составляющую наших мер предосторожности, а относится к ней как к вишенке на торте.
Цель информационной изоляции состоит в ограничении информационных потоков, исходящих из «песочницы». Мы уже видели, насколько небезопасной может быть идея предоставить сверхразуму доступ в интернет и позволить ему передавать сообщения вовне: даже лишенный физических исполнительных механизмов, он в состоянии, использовав канал вывода информации, добиваться от людей, чтобы они выполнили его указания. Поэтому заведомым условием метода информационной изоляции ИИ является отказ в доступе к коммуникационным сетям.
Однако отключение от интернета не гарантирует безопасность, если к ИИ приставлена охрана, причем люди, выступающие в этой роли, не только сторожат систему, но и постоянно с ней взаимодействуют. На стадии разработки сторожами могут выступать программисты, на стадии функционирования — организаторы проекта. Стратегия изоляции потерпит полную неудачу, если ИИ удастся уговорами или обманом убедить своих сторожей предоставить ему свободу, то есть обеспечить доступ в интернет или непосредственно к исполнительным механизмам. Человеческое существо, к сожалению, не имеет защищенной системы, особенно когда ему бросает вызов такой ухищренный манипулятор и комбинатор, как сверхразум[349].
Пусть люди, приставленные сторожить ИИ, и неспособны гарантировать нашей полной безопасности, но все-таки сам факт, что доступ ИИ к любым передачам сообщений находится под их контролем, играет немалую превентивную роль. Благодаря некоторым дополнительным мерам предосторожности можно снизить риск «побега» ИИ при помощи охранников. Например, почему бы не позволить ему пользоваться телетайпом, у которого очень низкая пропускная способность? С такой «совершенной» техникой ИИ будет довольно трудно манипулировать психикой своих сторожей (поскольку не получится использовать ни возбуждающие эмоции звуки и образы, ни повторяющиеся гипнотические вспышки, приводящие людей в состояние транса)[350]. Более того, запрет может распространяться не только на антураж, но и затрагивать содержательную сторону существования ИИ, например запретить ему вступать в диалог и обязать реагировать на вопросы максимально односложно, используя только «да» и «нет». Идею разработки системы, всего лишь отвечающей на вопросы, мы рассмотрим в следующей главе.
Предельный вариант метода изоляции — когда ИИ окажется в полной блокаде как физически, так и информационно. Однако абсолютно замкнутая система — даже при условии, что столь максималистский подход мог бы быть осуществлен, — из-за своего бездействия окажется совершенно бесполезной для внешнего мира. Наверняка кто-нибудь захочет найти в этом определенный научный смысл: полностью заблокировать созданный сверхразум, превратив его в замкнутую модель, и потом спокойно изучать внутреннюю динамику системы и ее поведенческие стереотипы. Думаю, здесь кроется ошибка. Как только вы начинаете наблюдать за системой, она уже перестает быть информационно замкнутой[351]. На самом деле информация от ИИ поступает не только при помощи сообщений, которые он передает через установленный для него «канал вывода». Внешние наблюдатели имеют возможность фиксировать определенные показатели, косвенным или прямым образом характеризующие поведение ИИ: будь то расход электроэнергии, свидетельствующий о деятельности центрального процессора и внутренней памяти компьютера, или вычислительные состояния, или практически любые протоколы процесса, которые остаются после завершения работы. Хотя умный ИИ, предвидя, что за ним будут наблюдать, мог бы разработать стратегию поведения, способную воздействовать на будущих надзирателей. Например, он станет вызывать сбои, усиленно демонстрируя неисправность системы, — и все ради того, чтобы в конце концов программисты махнули на него рукой и инициировали перезапуск системы или разработку следующей версии. И тогда появится новый ИИ, но с конечными целями оригинального ИИ, и, может быть, новому удастся стать сверхразумом.
Стимулирующие методы
Методы стимулирования предполагают помещение агента в такую среду, где у него будут инструментальные причины действовать в интересах принципала.
Представим себе какого-нибудь миллиардера, который основал крупный благотворительный фонд, вложив в него немалый личный капитал. Фонд начинает приобретать вес. И вот он становится уже настолько могущественным, что практически никто из частных лиц, обладающих тем или иным положением, не может сравниться с ним по влиянию. Это коснулось и самого основателя, пожертвовавшего фонду большую часть своего богатства. Чтобы нормально управлять деятельностью фонда, он в свое время установил основные цели, записав их в учредительном договоре и уставе, а также утвердил правление, куда вошли люди, сочувствующие его взглядам. То есть им были предприняты все необходимые меры, формально напоминающие стимулирующие методы, поскольку они направлены на выбор мотиваций и расстановку приоритетов. Иными словами, основатель пытается привести внутреннюю организацию фонда и суть его деятельности в соответствие с собственными принципами и замыслами. Даже если его старания и провалятся, все равно работа фонда будет определяться социальной средой, то есть общественными интересами, и соответствующими законодательными нормами. То есть у руководителей есть веский мотив соблюдать законы, в противном случае фонд рискует быть оштрафованным или ликвидированным. У них есть мотив обеспечить сотрудникам фонда достойную заработную плату и нормальные условия труда, а также выполнять свои обязательства перед всеми сторонними лицами, связанными с деятельностью фонда. Следовательно, какими бы ни были конечные цели фонда, у него всегда будут инструментальные причины подчиняться установленным социальным требованиям.
Быть может, машинный сверхразум будет столь же связан установленными обязательствами, которые вынудят его уживаться со всеми участниками грядущего драматического действа. Есть ли надежда? Отнюдь. Слишком это однозначное решение проблемы, незатейливо обещающее, будто удерживать сверхразум под контролем не составит для человека никакого труда. Что совсем не так. Подобное развитие отношений рассчитано на определенное равновесие сторон, однако ни юридические, ни экономические санкции не способны обуздать агента, обладающего решающим стратегическим преимуществом. В таком сюжете вряд ли разумно упоминать социальную интеграцию. Тем более если ситуация начнет развиваться в пользу быстрого или пусть даже умеренного взлета — когда остается лишь взрывоопасный вариант и на авансцену выходит победитель, который «получает все».
Рассмотрим другое развитие событий: например, критический рубеж преодолеют сразу несколько агентов, имеющих относительно одинаковый уровень потенциала, в силу чего может возникнуть новый многополярный мир. Что произойдет в этом случае? Допустим, речь не идет о медленном взлете. Тогда, чтобы достичь власти и сохранить разумное соотношение сил, от всех лидирующих агентов потребуется тщательно согласовать программы, время и динамику действий, то есть совместными усилиями не дать вырваться вперед ни одному игроку и совершить абсолютно скоординированный взлет[352]. Предположим, в результате сформируется многополярная модель, но даже при таком варианте социальную интеграцию нельзя считать идеальным выходом. Если положиться на нее как на метод решения проблемы контроля, основные риски все равно могут перевесить потенциальный эффект. Хотя принцип равновесия сил предотвращает захват власти над миром каким-то одним ИИ, у него все же хватит власти, чтобы влиять на судьбу человечества, и если эта власть окажется направленной на достижение произвольных конечных целей — скажем, производство максимального количества скрепок, — это, вероятно, будет не в интересах принципала. Вернемся к нашему миллиардеру, основавшему благотворительный фонд, и теперь представим, что он формулирует его основное предназначение с помощью генератора случайных слов — вряд ли это поставит под угрозу существование человеческого вида, но точно будет свидетельствовать об упущенной возможности.
Близкая по духу и в то же время существенно отличающаяся от предыдущей идея состоит в том, что ИИ, свободно взаимодействуя с человеческим обществом, приобретет новые, дружественные для всей земной цивилизации конечные цели. На нас, людей, подобный процесс социализации, как правило, оказывает положительное влияние. Общаясь друг с другом, мы легче постигаем чуждые нам нормы жизни и непонятные мировоззренческие идеалы, начинаем больше ценить других людей. Но этот фактор не является универсальным для любой действующей разумной силы. Мы не раз говорили, что в разных ситуациях у многих агентов будут возникать конвергентные инструментальные причины ни в коем случае не допустить изменения своих конечных целей. (Можно попытаться разработать целую систему целеполагания, которая позволяла бы ИИ устанавливать конечные цели таким же образом, как это делают люди, но данная проблема не относится к методам контроля над возможностями. Некоторые способы обретения ценностей мы рассмотрим в главе двенадцатой.)
Контроль над возможностями сверхразума за счет социальной интеграции и установления равновесия сторон основан на разных общественных силах, которые как вознаграждают, так и осуждают ИИ. Следующим стимулирующим методом является создание таких условий, при которых вознаграждение и наказание ИИ осуществляется в рамках самого проекта, в результате чего стимулируются его действия в интересах принципала. Чтобы этого добиться, ИИ нужно поместить в контекстную среду, позволяющую непрерывно наблюдать за его поведением и оценивать его и в ручном, и автоматическом режиме. Такой ИИ должен знать, что положительная оценка будет означать получение вознаграждения, а отрицательная — невозможность такового. Теоретически в качестве вознаграждения можно рассмотреть достижение какой-либо конвергентной инструментальной цели. Однако без знания специфики мотивационной системы конкретного ИИ настроить механизм вознаграждения довольно трудно. Например, наш ИИ готов был бы рискнуть практически всем ради небольшого шанса обеспечить себе контроль над значительной частью Вселенной. В таком случае, видимо, будет слишком расточительно предлагать ИИ в качестве вознаграждения за сотрудничество более высокую ожидаемую полезность, чем ту, которую он надеется получить, отказавшись сотрудничать и попытавшись сбежать[353].
Лучшей альтернативой стало бы объединение этого стимулирующего метода с модами выбора мотивации — тогда появилась бы возможность наделить ИИ конечной целью, которую было бы намного проще брать под контроль. Допустим, какой-то ИИ разработан таким образом, что его конечная цель — не допустить нажатия красной кнопки в гипотетическом командном бункере. Поскольку этот акт имеет негативное значение, присущее ему по умолчанию, а не вызванное его возможными последствиями, кнопка может быть нерабочей и даже сделанной из пластилина. Более того, даже несущественно, узнает ли ИИ, была ли хоть когда-нибудь эта кнопка нажата. Важно другое: ИИ верит, что кнопка с большей вероятностью окажется ненажатой, если он будет действовать в интересах принципала, нежели если восстанет против него.
Условия можно уточнить. Вместо того чтобы наделять ИИ конечной целью, привязанной к конкретной кнопке, создадим ИИ, конечной целью которого станет получение потока неких зашифрованных наградных знаков[354]. Это могут быть последовательности цифр, служащие ключами к шифрам, созданным до разработки ИИ и встроенным в его систему мотивации[355]. Такие цифровые последовательности должны быть чрезвычайно желанными для ИИ и представлять собой награду, которую ИИ неспособен получить вследствие прямого стимулирования[356]. Ключи должны храниться в безопасном месте, где было бы удобнее их быстро уничтожить в случае попытки ИИ завладеть ими. Однако пока ИИ проявляет готовность сотрудничать, их нужно выдавать ему на регулярной основе.
Затем ИИ можно было бы наделить ограниченной функцией полезности, например, чтобы ИИ получал 99 процентов максимально доступной ему полезности, получив первый наградной знак; 99 процентов оставшегося потенциала полезности — второй и так далее. Сохраняя высокую «ставку дисконтирования» и передавая ИИ наградные знаки по сравнительно высокой цене, можно было бы предотвратить попытки ИИ разработать долгосрочный план, повышающий ожидаемое количество наградных знаков в будущем ценой некоторого риска, что его поток наград скоро закончится или что следующий наградной знак будет отменен и ликвидирован. Если ИИ поверит, что его ошибка (то есть любые действия не в интересах принципала) несет минимум двухпроцентный риск лишения следующего наградного знака, в то время как сотрудничество снизит риск лишения жетона до уровня меньше чем один процент, тогда максимизирующий полезность ИИ всегда будет готов к сотрудничеству.
Что могло бы пойти не так в этой схеме стимулирования? Есть вероятность, что ИИ не поверит в готовность оператора-человека предоставить ему обещанную награду. Кривая надежности человека как партнера несколько отличается от прямой линии идеального совершенства. ИИ может вполне обоснованно решить, что оператор способен передумать, повысить планку или отказаться признать, что ИИ выполнил свою часть работы. Кроме того, ИИ может беспокоить, что оператор по той или иной причине покинет свое рабочее место. Совокупный риск этих неудач может превысить риск, связанный с попыткой захватить контроль над механизмом вознаграждения. Наделенный сверхмощью ИИ, даже находясь в заблокированном состоянии, представляет собой грозного соперника. (Для ИИ, не помещенного в «песочницу», взломать управляемый человеком механизм вознаграждения — все равно что конфету у ребенка отобрать.)
Еще одна проблема стимулирующих методов заключается в допущении, что мы всегда можем сказать, действует ли ИИ в наших интересах. Как будет показано в следующих главах, это допущение не столь безобидно.
При полном анализе стимулирующих методов и того, насколько они осуществимы, нужно было бы изучить множество других факторов (и даже отдельные эзотерические соображения), которые сделали бы эти методы более плодотворными, чем они представляются сейчас, вследствие нашего предварительного рассмотрения. Например, не будучи уверенным, помещен ли он в компьютерную симуляцию или нет (как противопоставление виртуальной реальности выступает доступная нам реальность базового уровня), ИИ будет стоять перед неустранимой дейктической неопределенностью, и эта эпистемологическая трудность может радикально повлиять на степень его осмотрительности (см. врезку 8).
ВРЕЗКА 8. АНТРОПНЫЙ ЗАХВАТ