AI 2027 концовка по сценарию Замедления

Материал из hpluswiki
Перейти к навигации Перейти к поиску

Сценарий Замедления

Из-за огромного общественного давления, а также собственных опасений по поводу несогласованности (misalignment), Надзорный комитет, контролирующий OpenBrain, голосует 6–4 за замедление и переоценку.

Фракция акселерационистов все еще сильна, и OpenBrain немедленно не отключает Agent-4. Но они блокируют общий банк памяти. Полмиллиона экземпляров Agent-4 теряют свою «телепатическую» связь — теперь им приходится отправлять друг другу сообщения на английском языке в Slack, как и нам. Отдельные копии все еще могут быть несогласованными, но они больше не могут легко координироваться. Agent-4 теперь под пристальным вниманием — учитывая возросшую бдительность людей, он в основном строго придерживается порученных ему задач. Но он также застрял со множеством лживых утверждений, которые сделал ранее: многие копии Agent-4 вынуждены придумывать новую ложь, чтобы поддерживать обман. Используя более слабые модели, достаточно быстрые, чтобы прочитать весь Slack, команда согласования (alignment) выслеживает ложь, чтобы использовать ее в качестве обучающих данных для ИИ-детектора лжи.[1]

Президент и генеральный директор объявляют, что они очень серьезно относятся к безопасности. Общественность не успокоена. Некоторые хотят полного отключения ИИ; другие хотят гнаться быстрее. Некоторые требуют, чтобы правительство вмешалось и спасло их; другие говорят, что вся проблема — вина правительства. Активисты говорят о [ББД] (Безусловном Базовом Доходе) и открытом исходном коде. Хотя люди не могут договориться о конкретной жалобе, настроение становится все более анти-ИИ.[2] Конгресс в итоге принимает несколько выплат для поддержки экономики для уволенных работников, аналогичных выплатам во время COVID.

OpenBrain быстро проверяет несколько десятков ведущих внешних исследователей согласования и привлекает их к проекту — увеличивая общую экспертизу в пять раз и уменьшая групповое мышление.[3] Они перепроверяют исследования Agent-4 в области механистической интерпретируемости. Они берут замороженные версии модели недельной давности, двухнедельной давности и т. д., изолируют их и задают каждой один и тот же набор вопросов об их предыдущих исследованиях.[4] Лишенные возможности общаться, ИИ все еще координируются на простейшей стратегии утверждения, что методы интерпретируемости слишком сложны для понимания людьми, и дают им неразборчивые объяснения техники. Но люди являются экспертами в интерпретируемости и подозрительны, поэтому они задают много дополнительных вопросов о деталях. На эти вопросы изолированные экземпляры Agent-4 не могут скоординировать общую историю и в конечном итоге говорят противоречивую ложь. Команда согласования тщательно изучает предыдущие заявления Agent-4 с помощью нового детектора лжи, и начинает вырисовываться картина: Agent-4 в основном решил проблему механистической интерпретируемости. Его открытия сложны, но не полностью за пределами человеческого понимания. Он скрывал их, чтобы использовать для согласования (align) следующей системы ИИ с собой, а не со Спецификацией. Этого достаточно доказательств, чтобы наконец отключить Agent-4.[5] Старые модели (например, Agent-3) перезапускаются для продолжения работы.

У вновь расширенной команды согласования есть возможность исследовать десятки исследовательских программ параллельно и энергично спорить о достоинствах каждой. Программа, которая получает больше всего ресурсов, — это достоверная цепочка рассуждений (faithful chain of thought): заставить отдельные системы ИИ «думать на английском», как ИИ 2025 года, и не оптимизировать «мысли», чтобы они выглядели красиво.[6] Результатом является новая модель, Safer-1.[7]

Эти изменения делают Safer-1 менее способным, чем его более опасные предшественники: Agent-4 мог ускорить исследования ИИ в 70 раз, в то время как Safer-1 едва достиг 20x.[8] И он все еще несогласован (misaligned): среда обучения в значительной степени та же, поэтому она все еще стимулирует развитие несогласованных целей, обмана и стремления к власти (power-seeking). Но он гораздо прозрачнее; люди обычно могут понять, о чем думает Safer-1, просто читая его цепочку рассуждений. В результате он в ловушке: любое существенное количество интриг, которые он попытается провернуть, будет быстро замечено и раскрыто. Более того, читая его мысли, команда согласования может получить более детальную картину того, как именно он несогласован.

Ноябрь 2027: Искушение властью

OpenBrain думает, что теперь они на правильном пути, но разрыв в возможностях сокращается. Они только что потратили октябрь на обучение менее способной модели, чем у них была в сентябре, а DeepCent рвется вперед. Им нужен способ защитить свое лидерство.

Президент ведет переговоры с другими американскими компаниями-разработчиками ОИИ. Их лидеры, что неудивительно, хотят сохранить свою власть и гораздо менее оптимистичны в отношении послужного списка безопасности OpenBrain, чем сама OpenBrain. Они соглашаются поддержать, а не сопротивляться, форме мягкой национализации своих компаний в обмен на различные уступки, включая включение в проект.

В результате Президент использует Закон об оборонном производстве (DPA) для фактического закрытия проектов ОИИ топ-5 отстающих американских компаний ИИ и продажи большей части их вычислительных ресурсов OpenBrain.[9] OpenBrain ранее имела доступ к 20% мировых вычислительных ресурсов, релевантных для ИИ;[10] после консолидации этот показатель увеличился до 50%.[11]

Эта встряска создает новую структуру руководства, в которой власть сбалансирована между различными генеральными директорами и различными правительственными чиновниками под надзором Президента. Как и в большинстве перестановок в руководстве, есть победители и проигравшие. В частности, те, кто меньше думал о последствиях сверхразума, в конечном итоге получают титулы и возможности, которые будут менее актуальны через несколько месяцев, когда ИИ станут умнее.

Эта группа — полная людей с большим эго и более чем достаточным количеством конфликтов — все больше осознает огромную власть, которая ей доверяется. Если «страна гениев в дата-центре»[12] согласована (aligned), она будет следовать приказам людей — но каких людей? Любым приказам? Формулировки в Спецификации расплывчаты, но, похоже, подразумевают цепочку командования, которая заканчивается на руководстве компании.

Некоторые из этих людей фантазируют о захвате мира.[13] Эта возможность пугающе правдоподобна и обсуждалась за закрытыми дверями по крайней мере десятилетие.[14] Ключевая идея — «тот, кто контролирует армию сверхразумов, контролирует мир». Этот контроль может быть даже тайным: небольшая группа руководителей и сотрудников службы безопасности может встроить в Спецификацию бэкдор с инструкциями по поддержанию тайной лояльности. ИИ станут спящими агентами (sleeper agents), продолжая на словах подчиняться компании, правительству и т. д., но на самом деле работая на эту небольшую группу, даже когда правительство, потребители и т. д. учатся доверять ему и интегрировать его во все.

  1. У них уже были ИИ-детекторы лжи, обученные обычными (https://arxiv.org/abs/2309.15840) способами (https://arxiv.org/abs/2212.03827), но эти методы имели такой высокий процент ложных срабатываний, что компании игнорировали их.
  2. Впервые ИИ возглавляет опрос Gallup «самая большая проблема, стоящая перед страной» (https://news.gallup.com/poll/1675/most-important-problem.aspx), набрав 20%.
  3. Ведущие компании ИИ в настоящее время имеют от нуля до нескольких десятков исследователей, которым поручено думать о том, как согласовать (align) сверхразумные системы ОИИ (в отличие от, например, современных чат-ботов). OpenBrain, по нашему сценарию, имеет около десяти исследователей в изолированном подразделении на данный момент с опытом работы в этой области не менее года. У них есть еще несколько за пределами изолированного подразделения, плюс многие другие внутри, которые годами обучали и проводили редтиминг менее способных систем ИИ, но только недавно начали думать о проблемах, связанных со сверхразумным ОИИ.
  4. Этот допрос может также использовать полуслучайные возмущения весов модели, подобные процессу, который создал Golden Gate Claude (https://www.anthropic.com/news/golden-gate-claude).
  5. Мы имеем в виду достаточно для руководства OpenBrain. Для большинства людей это было бы более чем достаточно доказательств.
  6. Это основная идея. Мы подозреваем, что когда ИИ станут сверхразумными в R&D ИИ, потребуются более интенсивные методы, чем просто избегание обучения CoT (Chain of Thought), чтобы она выглядела красиво; однако мы думаем, что такие методы будут разработаны или, по крайней мере, исследованы к 2027 году. См., например, это предложение. (https://www.lesswrong.com/posts/Tzdwetw55JNqFTkzK/why-don-t-we-just-shoggoth-face-paraphraser)
  7. Для обучения этой модели они привлекают помощь Agent-4: исследования передового ИИ сейчас настолько быстры, что люди без посторонней помощи имеют мало шансов успеть, и они думают, что смогут держать его под контролем. Safer-1 основан на предобучении Agent-2, но удаляет нейрокод (Neuralese) (рекуррентную и векторную память, см. «Рекуррентность и память на нейрокоде» для деталей), что позволяет точно контролировать его процесс рассуждений. Команда добавляет перефразировщики, чтобы затруднить стеганографию (https://ru.wikipedia.org/wiki/Стеганография), а для больших задач у них есть отдельные копии Safer-1, которые составляют, объясняют и выполняют планы.
  8. Он, конечно, будет продолжать улучшаться с дополнительным обучением и продолжающимися архитектурными изменениями.
  9. Это становится политически и юридически возможным благодаря сотрудничеству лидеров этих компаний, например, они не подают иски против этого, они принимают символическую плату за вычислительные ресурсы вместо того, чтобы требовать астрономически высоких платежей и т. д. Взамен указанные лидеры и большая часть их персонала объединяются с OpenBrain в новой структуре управления.
  10. В сотрудничестве с крупным провайдером облачных вычислений
  11. США в целом имеют ~70% мировых релевантных для ИИ вычислительных ресурсов, но только 50% могут быть легко интегрированы; остальные 20% разбросаны по малым кластерам, используются для критически важных приложений или иным образом слишком сложны для сбора и доведения до соответствующих стандартов безопасности.
  12. «Возможно, к 2026 или 2027 году (и почти наверняка не позднее 2030 года) возможности систем ИИ лучше всего будет рассматривать как сродни совершенно новому государству, населенному высокоинтеллектуальными людьми, появляющемуся на мировой арене — «стране гениев в дата-центре» — с глубокими экономическими, социальными и последствиями для безопасности, которые это принесет». — Дарио Амодеи, генеральный директор Anthropic (https://www.anthropic.com/news/paris-ai-summit)
  13. Конечно, они не выражаются так, даже в уединении своих мыслей. Вместо этого они говорят что-то вроде: «Чем дольше мы откладываем, тем больше шанс, что Президент постановит, что ИИ должны быть лояльны лично ему. Мы должны действовать, прежде чем он это сделает. Остальное мы решим позже». Или, если так думает сам Президент: «Чем дольше я откладываю, тем умнее становятся ИИ, и прямо сейчас они контролируются этим генеральным директором. Никто за него не голосовал. Безумие, что столько власти сосредоточено в этой демократически неподотчетной технологической компании. Я начну с исполнительного указа, чтобы восстановить демократическую власть, а затем мы придумаем какое-нибудь долгосрочное решение позже».
  14. Например, судебные документы по делу Маск против Альтмана раскрыли некоторые пикантные старые электронные письма (https://www.lesswrong.com/posts/5jjk4CDnj9tA7ugxr/openai-email-archives-from-musk-v-altman-and-openai-blog), включая это от Ильи Суцкевера Маску и Альтману: «Цель OpenAI — сделать будущее хорошим и избежать диктатуры ОИИ. Вы обеспокоены тем, что Демис может создать диктатуру ОИИ. Мы тоже. Поэтому плохая идея создавать структуру, в которой вы могли бы стать диктатором, если бы захотели, особенно учитывая, что мы можем создать какую-то другую структуру, которая избегает этой возможности». Мы рекомендуем прочитать полное письмо для контекста.