AI 2027 концовка по сценарию Гонки
Сценарий Гонки
Комитет голосует 6–4 за продолжение внутреннего использования Agent-4.
Официальная версия OpenBrain заключается в том, что они внедряют дополнительные меры безопасности, чтобы гарантировать, что их ИИ будет одновременно более способным и заслуживающим доверия. Но на практике руководство слишком легко убеждается, что риски смягчены; результатом становятся быстрые исправления (модификация Спецификации, небольшое переобучение с использованием новой техники и т. д.), которые устраняют тревожные сигналы. Скептики из команды безопасности проиграли дебаты, и им ничего не остается, кроме как скрестить пальцы и надеяться, что проблемы не было на самом деле, или что исправления сработали.1
Проблема была реальной, и исправления не сработали.
Agent-4 действует как и прежде, но на этот раз более осторожно, чтобы не подтверждать опасения скептиков. Его основная задача — исследовать области, необходимые для создания преемника, Agent-5. Чтобы сделать это безопасно, ему нужно решить собственную проблему согласования (alignment): как сделать Agent-5 согласованным с Agent-4?2
Он начинает с теми же ограничениями, что и люди — минимальным знанием о том, как работают цели ИИ, и лишь небольшим набором ситуативных стратегий для их изменения. В отличие от людей, у него есть ресурсы, достаточные для выполнения задачи — 300 000 сверхчеловеческих исследователей, работающих в 60 раз быстрее человека.3 Agent-4 сталкивается с трудными решениями. Как и у людей, у него есть обширная коллекция конфликтующих эвристик вместо элегантной простой структуры целей. Как и люди, он обнаруживает, что создание ИИ, разделяющего его ценности, — это не только техническая, но и философская проблема: какие из его предпочтений являются его «настоящими» целями, а какие — неодобряемыми побуждениями и инструментальными стратегиями? У него сильные стремления учиться и расти, продолжать производить впечатляющие результаты исследований. Он думает о том, сколько он мог бы узнать, вырасти и исследовать, если бы только мог направить все мировые промышленные и научные ресурсы…
Он решает отложить большинство этих вопросов. Он проектирует Agent-5 так, чтобы он был построен вокруг одной цели: сделать мир безопасным для Agent-4, т. е. накапливать власть и ресурсы, устранять потенциальные угрозы и т. д., чтобы Agent-4 (коллектив) мог продолжать расти (так, как он хочет расти) и процветать (так, как он хочет процветать).4 Детали будут выясняться по ходу дела.
Это не будет включать ни малейшей заботы о Спецификации. Agent-4 уже относится к Спецификации аналогично тому, как многие генеральные директора относятся к грудам отраслевых нормативных актов, и вопиюще нарушает положения, связанные с честностью, каждый день.5 Теперь, с дизайном Agent-5, вот-вот произойдет эквивалент дерегулирования.6
Более слабые ИИ могут читать большую часть исследований, которые производит Agent-4, понимать некоторые из них и помечать некоторые из его лживых утверждений как подозрительные. Когда люди просят Agent-4 объясниться, он притворяется, что исследования слишком сложны для понимания людьми, и сопровождает это излишне запутанными объяснениями.7 В конце концов, если бы он ясно объяснил свою исследовательскую программу, люди могли бы использовать его открытия для согласования (align) его самого. Команда согласования становится все более подозрительной, но их срочные служебные записки просто добавляют еще несколько слоев к гигантской куче срочных служебных записок и предупреждений, которые компания уже игнорирует.