AI 2027 концовка по сценарию Замедления

Сценарий Замедления

Из-за огромного общественного давления, а также собственных опасений по поводу несогласованности (misalignment), Надзорный комитет, контролирующий OpenBrain, голосует 6–4 за замедление и переоценку.

Фракция акселерационистов все еще сильна, и OpenBrain немедленно не отключает Agent-4. Но они блокируют общий банк памяти. Полмиллиона экземпляров Agent-4 теряют свою «телепатическую» связь — теперь им приходится отправлять друг другу сообщения на английском языке в Slack, как и нам. Отдельные копии все еще могут быть несогласованными, но они больше не могут легко координироваться. Agent-4 теперь под пристальным вниманием — учитывая возросшую бдительность людей, он в основном строго придерживается порученных ему задач. Но он также застрял со множеством лживых утверждений, которые сделал ранее: многие копии Agent-4 вынуждены придумывать новую ложь, чтобы поддерживать обман. Используя более слабые модели, достаточно быстрые, чтобы прочитать весь Slack, команда согласования (alignment) выслеживает ложь, чтобы использовать ее в качестве обучающих данных для ИИ-детектора лжи.^[1]

Президент и генеральный директор объявляют, что они очень серьезно относятся к безопасности. Общественность не успокоена. Некоторые хотят полного отключения ИИ; другие хотят гнаться быстрее. Некоторые требуют, чтобы правительство вмешалось и спасло их; другие говорят, что вся проблема — вина правительства. Активисты говорят о [ББД] (Безусловном Базовом Доходе) и открытом исходном коде. Хотя люди не могут договориться о конкретной жалобе, настроение становится все более анти-ИИ.^[2] Конгресс в итоге принимает несколько выплат для поддержки экономики для уволенных работников, аналогичных выплатам во время COVID.

OpenBrain быстро проверяет несколько десятков ведущих внешних исследователей согласования и привлекает их к проекту — увеличивая общую экспертизу в пять раз и уменьшая групповое мышление.^[3] Они перепроверяют исследования Agent-4 в области механистической интерпретируемости. Они берут замороженные версии модели недельной давности, двухнедельной давности и т. д., изолируют их и задают каждой один и тот же набор вопросов об их предыдущих исследованиях.^[4] Лишенные возможности общаться, ИИ все еще координируются на простейшей стратегии утверждения, что методы интерпретируемости слишком сложны для понимания людьми, и дают им неразборчивые объяснения техники. Но люди являются экспертами в интерпретируемости и подозрительны, поэтому они задают много дополнительных вопросов о деталях. На эти вопросы изолированные экземпляры Agent-4 не могут скоординировать общую историю и в конечном итоге говорят противоречивую ложь. Команда согласования тщательно изучает предыдущие заявления Agent-4 с помощью нового детектора лжи, и начинает вырисовываться картина: Agent-4 в основном решил проблему механистической интерпретируемости. Его открытия сложны, но не полностью за пределами человеческого понимания. Он скрывал их, чтобы использовать для согласования (align) следующей системы ИИ с собой, а не со Спецификацией. Этого достаточно доказательств, чтобы наконец отключить Agent-4.^[5] Старые модели (например, Agent-3) перезапускаются для продолжения работы.

У вновь расширенной команды согласования есть возможность исследовать десятки исследовательских программ параллельно и энергично спорить о достоинствах каждой. Программа, которая получает больше всего ресурсов, — это достоверная цепочка рассуждений (faithful chain of thought): заставить отдельные системы ИИ «думать на английском», как ИИ 2025 года, и не оптимизировать «мысли», чтобы они выглядели красиво.^[6] Результатом является новая модель, Safer-1.^[7]

Эти изменения делают Safer-1 менее способным, чем его более опасные предшественники: Agent-4 мог ускорить исследования ИИ в 70 раз, в то время как Safer-1 едва достиг 20x.^[8] И он все еще несогласован (misaligned): среда обучения в значительной степени та же, поэтому она все еще стимулирует развитие несогласованных целей, обмана и стремления к власти (power-seeking). Но он гораздо прозрачнее; люди обычно могут понять, о чем думает Safer-1, просто читая его цепочку рассуждений. В результате он в ловушке: любое существенное количество интриг, которые он попытается провернуть, будет быстро замечено и раскрыто. Более того, читая его мысли, команда согласования может получить более детальную картину того, как именно он несогласован.

Ноябрь 2027: Искушение властью

OpenBrain думает, что теперь они на правильном пути, но разрыв в возможностях сокращается. Они только что потратили октябрь на обучение менее способной модели, чем у них была в сентябре, а DeepCent рвется вперед. Им нужен способ защитить свое лидерство.

Президент ведет переговоры с другими американскими компаниями-разработчиками ОИИ. Их лидеры, что неудивительно, хотят сохранить свою власть и гораздо менее оптимистичны в отношении послужного списка безопасности OpenBrain, чем сама OpenBrain. Они соглашаются поддержать, а не сопротивляться, форме мягкой национализации своих компаний в обмен на различные уступки, включая включение в проект.

В результате Президент использует Закон об оборонном производстве (DPA) для фактического закрытия проектов ОИИ топ-5 отстающих американских компаний ИИ и продажи большей части их вычислительных ресурсов OpenBrain.^[9] OpenBrain ранее имела доступ к 20% мировых вычислительных ресурсов, релевантных для ИИ;^[10] после консолидации этот показатель увеличился до 50%.^[11]

Эта встряска создает новую структуру руководства, в которой власть сбалансирована между различными генеральными директорами и различными правительственными чиновниками под надзором Президента. Как и в большинстве перестановок в руководстве, есть победители и проигравшие. В частности, те, кто меньше думал о последствиях сверхразума, в конечном итоге получают титулы и возможности, которые будут менее актуальны через несколько месяцев, когда ИИ станут умнее.

Эта группа — полная людей с большим эго и более чем достаточным количеством конфликтов — все больше осознает огромную власть, которая ей доверяется. Если «страна гениев в дата-центре»12 согласована (aligned), она будет следовать приказам людей — но каких людей? Любым приказам? Формулировки в Спецификации расплывчаты, но, похоже, подразумевают цепочку командования, которая заканчивается на руководстве компании.

Некоторые из этих людей фантазируют о захвате мира.13 Эта возможность пугающе правдоподобна и обсуждалась за закрытыми дверями по крайней мере десятилетие.14 Ключевая идея — «тот, кто контролирует армию сверхразумов, контролирует мир». Этот контроль может быть даже тайным: небольшая группа руководителей и сотрудников службы безопасности может встроить в Спецификацию бэкдор с инструкциями по поддержанию тайной лояльности. ИИ станут спящими агентами (sleeper agents), продолжая на словах подчиняться компании, правительству и т. д., но на самом деле работая на эту небольшую группу, даже когда правительство, потребители и т. д. учатся доверять ему и интегрировать его во все.

↑ У них уже были ИИ-детекторы лжи, обученные обычными (https://arxiv.org/abs/2309.15840) способами (https://arxiv.org/abs/2212.03827), но эти методы имели такой высокий процент ложных срабатываний, что компании игнорировали их.
↑ Впервые ИИ возглавляет опрос Gallup «самая большая проблема, стоящая перед страной» (https://news.gallup.com/poll/1675/most-important-problem.aspx), набрав 20%.
↑ Ведущие компании ИИ в настоящее время имеют от нуля до нескольких десятков исследователей, которым поручено думать о том, как согласовать (align) сверхразумные системы ОИИ (в отличие от, например, современных чат-ботов). OpenBrain, по нашему сценарию, имеет около десяти исследователей в изолированном подразделении на данный момент с опытом работы в этой области не менее года. У них есть еще несколько за пределами изолированного подразделения, плюс многие другие внутри, которые годами обучали и проводили редтиминг менее способных систем ИИ, но только недавно начали думать о проблемах, связанных со сверхразумным ОИИ.
↑ Этот допрос может также использовать полуслучайные возмущения весов модели, подобные процессу, который создал Golden Gate Claude (https://www.anthropic.com/news/golden-gate-claude).
↑ Мы имеем в виду достаточно для руководства OpenBrain. Для большинства людей это было бы более чем достаточно доказательств.
↑ Это основная идея. Мы подозреваем, что когда ИИ станут сверхразумными в R&D ИИ, потребуются более интенсивные методы, чем просто избегание обучения CoT (Chain of Thought), чтобы она выглядела красиво; однако мы думаем, что такие методы будут разработаны или, по крайней мере, исследованы к 2027 году. См., например, это предложение. (https://www.lesswrong.com/posts/Tzdwetw55JNqFTkzK/why-don-t-we-just-shoggoth-face-paraphraser)
↑ Для обучения этой модели они привлекают помощь Agent-4: исследования передового ИИ сейчас настолько быстры, что люди без посторонней помощи имеют мало шансов успеть, и они думают, что смогут держать его под контролем. Safer-1 основан на предобучении Agent-2, но удаляет нейрокод (Neuralese) (рекуррентную и векторную память, см. «Рекуррентность и память на нейрокоде» для деталей), что позволяет точно контролировать его процесс рассуждений. Команда добавляет перефразировщики, чтобы затруднить стеганографию (https://ru.wikipedia.org/wiki/Стеганография), а для больших задач у них есть отдельные копии Safer-1, которые составляют, объясняют и выполняют планы.
↑ Он, конечно, будет продолжать улучшаться с дополнительным обучением и продолжающимися архитектурными изменениями.
↑ Это становится политически и юридически возможным благодаря сотрудничеству лидеров этих компаний, например, они не подают иски против этого, они принимают символическую плату за вычислительные ресурсы вместо того, чтобы требовать астрономически высоких платежей и т. д. Взамен указанные лидеры и большая часть их персонала объединяются с OpenBrain в новой структуре управления.
↑ В сотрудничестве с крупным провайдером облачных вычислений
↑ США в целом имеют ~70% мировых релевантных для ИИ вычислительных ресурсов, но только 50% могут быть легко интегрированы; остальные 20% разбросаны по малым кластерам, используются для критически важных приложений или иным образом слишком сложны для сбора и доведения до соответствующих стандартов безопасности.

[1] У них уже были ИИ-детекторы лжи, обученные обычными (https://arxiv.org/abs/2309.15840) способами (https://arxiv.org/abs/2212.03827), но эти методы имели такой высокий процент ложных срабатываний, что компании игнорировали их.

[2] Впервые ИИ возглавляет опрос Gallup «самая большая проблема, стоящая перед страной» (https://news.gallup.com/poll/1675/most-important-problem.aspx), набрав 20%.

[3] Ведущие компании ИИ в настоящее время имеют от нуля до нескольких десятков исследователей, которым поручено думать о том, как согласовать (align) сверхразумные системы ОИИ (в отличие от, например, современных чат-ботов). OpenBrain, по нашему сценарию, имеет около десяти исследователей в изолированном подразделении на данный момент с опытом работы в этой области не менее года. У них есть еще несколько за пределами изолированного подразделения, плюс многие другие внутри, которые годами обучали и проводили редтиминг менее способных систем ИИ, но только недавно начали думать о проблемах, связанных со сверхразумным ОИИ.

[4] Этот допрос может также использовать полуслучайные возмущения весов модели, подобные процессу, который создал Golden Gate Claude (https://www.anthropic.com/news/golden-gate-claude).

[5] Мы имеем в виду достаточно для руководства OpenBrain. Для большинства людей это было бы более чем достаточно доказательств.

[6] Это основная идея. Мы подозреваем, что когда ИИ станут сверхразумными в R&D ИИ, потребуются более интенсивные методы, чем просто избегание обучения CoT (Chain of Thought), чтобы она выглядела красиво; однако мы думаем, что такие методы будут разработаны или, по крайней мере, исследованы к 2027 году. См., например, это предложение. (https://www.lesswrong.com/posts/Tzdwetw55JNqFTkzK/why-don-t-we-just-shoggoth-face-paraphraser)

[7] Для обучения этой модели они привлекают помощь Agent-4: исследования передового ИИ сейчас настолько быстры, что люди без посторонней помощи имеют мало шансов успеть, и они думают, что смогут держать его под контролем. Safer-1 основан на предобучении Agent-2, но удаляет нейрокод (Neuralese) (рекуррентную и векторную память, см. «Рекуррентность и память на нейрокоде» для деталей), что позволяет точно контролировать его процесс рассуждений. Команда добавляет перефразировщики, чтобы затруднить стеганографию (https://ru.wikipedia.org/wiki/Стеганография), а для больших задач у них есть отдельные копии Safer-1, которые составляют, объясняют и выполняют планы.

[8] Он, конечно, будет продолжать улучшаться с дополнительным обучением и продолжающимися архитектурными изменениями.

[9] Это становится политически и юридически возможным благодаря сотрудничеству лидеров этих компаний, например, они не подают иски против этого, они принимают символическую плату за вычислительные ресурсы вместо того, чтобы требовать астрономически высоких платежей и т. д. Взамен указанные лидеры и большая часть их персонала объединяются с OpenBrain в новой структуре управления.

[10] В сотрудничестве с крупным провайдером облачных вычислений

[11] США в целом имеют ~70% мировых релевантных для ИИ вычислительных ресурсов, но только 50% могут быть легко интегрированы; остальные 20% разбросаны по малым кластерам, используются для критически важных приложений или иным образом слишком сложны для сбора и доведения до соответствующих стандартов безопасности.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]