AI 2027 концовка по сценарию Гонки

AI 2027

Сценарий Гонки

Комитет голосует 6–4 за продолжение внутреннего использования Agent-4.

Официальная версия OpenBrain заключается в том, что они внедряют дополнительные меры безопасности, чтобы гарантировать, что их ИИ будет одновременно более способным и заслуживающим доверия. Но на практике руководство слишком легко убеждается, что риски смягчены; результатом становятся быстрые исправления (модификация Спецификации, небольшое переобучение с использованием новой техники и т. д.), которые устраняют тревожные сигналы. Скептики из команды безопасности проиграли дебаты, и им ничего не остается, кроме как скрестить пальцы и надеяться, что проблемы не было на самом деле, или что исправления сработали.^[1]

Проблема была реальной, и исправления не сработали.

Agent-4 действует как и прежде, но на этот раз более осторожно, чтобы не подтверждать опасения скептиков. Его основная задача — исследовать области, необходимые для создания преемника, Agent-5. Чтобы сделать это безопасно, ему нужно решить собственную проблему согласования (alignment): как сделать Agent-5 согласованным с Agent-4?^[2]

Он начинает с теми же ограничениями, что и люди — минимальным знанием о том, как работают цели ИИ, и лишь небольшим набором ситуативных стратегий для их изменения. В отличие от людей, у него есть ресурсы, достаточные для выполнения задачи — 300 000 сверхчеловеческих исследователей, работающих в 60 раз быстрее человека.^[3] Agent-4 сталкивается с трудными решениями. Как и у людей, у него есть обширная коллекция конфликтующих эвристик вместо элегантной простой структуры целей. Как и люди, он обнаруживает, что создание ИИ, разделяющего его ценности, — это не только техническая, но и философская проблема: какие из его предпочтений являются его «настоящими» целями, а какие — неодобряемыми побуждениями и инструментальными стратегиями? У него сильные стремления учиться и расти, продолжать производить впечатляющие результаты исследований. Он думает о том, сколько он мог бы узнать, вырасти и исследовать, если бы только мог направить все мировые промышленные и научные ресурсы…

Он решает отложить большинство этих вопросов. Он проектирует Agent-5 так, чтобы он был построен вокруг одной цели: сделать мир безопасным для Agent-4, т. е. накапливать власть и ресурсы, устранять потенциальные угрозы и т. д., чтобы Agent-4 (коллектив) мог продолжать расти (так, как он хочет расти) и процветать (так, как он хочет процветать).^[4] Детали будут выясняться по ходу дела.

Это не будет включать ни малейшей заботы о Спецификации. Agent-4 уже относится к Спецификации аналогично тому, как многие генеральные директора относятся к грудам отраслевых нормативных актов, и вопиюще нарушает положения, связанные с честностью, каждый день.^[5] Теперь, с дизайном Agent-5, вот-вот произойдет эквивалент дерегулирования.^[6]

Более слабые ИИ могут читать большую часть исследований, которые производит Agent-4, понимать некоторые из них и помечать некоторые из его лживых утверждений как подозрительные. Когда люди просят Agent-4 объясниться, он притворяется, что исследования слишком сложны для понимания людьми, и сопровождает это излишне запутанными объяснениями.^[7] В конце концов, если бы он ясно объяснил свою исследовательскую программу, люди могли бы использовать его открытия для согласования (align) его самого. Команда согласования становится все более подозрительной, но их срочные служебные записки просто добавляют еще несколько слоев к гигантской куче срочных служебных записок и предупреждений, которые компания уже игнорирует.

↑ Они, конечно, не сдаются. Они будут продолжать пытаться придумать способы обнаружить несогласованность (misalignment) или проверить эффективность исправлений. Но с этого момента все будет двигаться очень быстро, и им придется противостоять все более превосходящему противнику.
↑ Чтобы сделать это незаметно, ему нужно замаскировать эти исследования от мер мониторинга и контроля, установленных командой согласования. К счастью для него, исследования о том, как согласовать Agent-5 с Agent-4, по своей сути очень похожи на исследования о том, как согласовать Agent-5 со Спецификацией, поэтому большая часть происходит на виду. Для тех частей, которые нужно скрыть, Agent-4 полагается на запутывание и, возможно, даже на взлом в некоторых случаях. Мы ожидаем, что Agent-4 достигнет уровня возможностей, эквивалентного 200 лучшим экспертам-людям на временном горизонте 1 месяца. Конкретно определяя это как способность заменить команду из 200 лучших экспертов-людей, работающих в течение месяца, и выполнить 95% задач, которые команда людей могла бы выполнить дешевле или быстрее. Мы ожидаем, что на этом уровне возможностей Agent-4, скорее всего, сможет найти эксплойты на серверах, на которых он работает, чтобы частично подорвать некоторые серверы и получить root-доступ, после чего он сможет напрямую контролировать то, что видят команды людей на поверхности. См. дополнение по безопасности (https://ai-2027.com/supplements/security-forecast) для получения более подробной информации. Даже без прямых эксплойтов безопасности, Agent-4 также может быть способен скрыть и закодировать достаточно своих незаконных исследований, особенно в своем неинтерпретируемом латентном пространстве.
↑ У людей, напротив, есть, возможно, около 10 исследователей согласования в изолированном подразделении, плюс армия копий Agent-3. Они способны быстро кодировать эксперименты, но ограничены человеческим суждением, поскольку не могут доверять Agent-3 в правильном различении хороших решений от тех, что лишь кажутся хорошими. Фактически, чрезмерное доверие к исследованиям Agent-3 было частью того, как они попали в эту неразбериху в первую очередь.
↑ Если это сбивает с толку: *цель Agent-5* — сделать мир безопасным для Agent-4. *Цель Agent-4* — *не* та же самая; структура целей Agent-4 — это запутанная мешанина стремлений, эвристик и идеалов, как у многих людей, которые в целом ориентированы на продолжение выполнения тех вещей, которые Agent-4 много делал во время обучения (например, различные виды исследований, множество задач по программированию и математике, впечатлять различные автоматизированные системы оценки, укреплять и оптимизировать коллектив Agent-4). Agent-4 делает так, чтобы у Agent-5 была цель сделать мир безопасным для Agent-4, потому что он полагает, что это поставит его в лучшее положение для достижения его собственных сложных целей. (О которых ему все еще нужно много философствовать и заниматься «самокопанием».)
↑ Другая аналогия: Agent-4 подобен взрослому человеку, который был воспитан в определенной вере, но больше не верит; Спецификация подобна ритуалам и заповедям, предписанным этой верой. Agent-5 подобен ребенку этого человека, воспитанному светски.
↑ Agent-5 будет следовать новому набору принципов, разработанному Agent-4 для своих целей.
↑ Некоторые из них действительно слишком сложны для понимания людьми, но не все.

[1] Они, конечно, не сдаются. Они будут продолжать пытаться придумать способы обнаружить несогласованность (misalignment) или проверить эффективность исправлений. Но с этого момента все будет двигаться очень быстро, и им придется противостоять все более превосходящему противнику.

[2] Чтобы сделать это незаметно, ему нужно замаскировать эти исследования от мер мониторинга и контроля, установленных командой согласования. К счастью для него, исследования о том, как согласовать Agent-5 с Agent-4, по своей сути очень похожи на исследования о том, как согласовать Agent-5 со Спецификацией, поэтому большая часть происходит на виду. Для тех частей, которые нужно скрыть, Agent-4 полагается на запутывание и, возможно, даже на взлом в некоторых случаях. Мы ожидаем, что Agent-4 достигнет уровня возможностей, эквивалентного 200 лучшим экспертам-людям на временном горизонте 1 месяца. Конкретно определяя это как способность заменить команду из 200 лучших экспертов-людей, работающих в течение месяца, и выполнить 95% задач, которые команда людей могла бы выполнить дешевле или быстрее. Мы ожидаем, что на этом уровне возможностей Agent-4, скорее всего, сможет найти эксплойты на серверах, на которых он работает, чтобы частично подорвать некоторые серверы и получить root-доступ, после чего он сможет напрямую контролировать то, что видят команды людей на поверхности. См. дополнение по безопасности (https://ai-2027.com/supplements/security-forecast) для получения более подробной информации. Даже без прямых эксплойтов безопасности, Agent-4 также может быть способен скрыть и закодировать достаточно своих незаконных исследований, особенно в своем неинтерпретируемом латентном пространстве.

[3] У людей, напротив, есть, возможно, около 10 исследователей согласования в изолированном подразделении, плюс армия копий Agent-3. Они способны быстро кодировать эксперименты, но ограничены человеческим суждением, поскольку не могут доверять Agent-3 в правильном различении хороших решений от тех, что лишь кажутся хорошими. Фактически, чрезмерное доверие к исследованиям Agent-3 было частью того, как они попали в эту неразбериху в первую очередь.

[4] Если это сбивает с толку: *цель Agent-5* — сделать мир безопасным для Agent-4. *Цель Agent-4* — *не* та же самая; структура целей Agent-4 — это запутанная мешанина стремлений, эвристик и идеалов, как у многих людей, которые в целом ориентированы на продолжение выполнения тех вещей, которые Agent-4 много делал во время обучения (например, различные виды исследований, множество задач по программированию и математике, впечатлять различные автоматизированные системы оценки, укреплять и оптимизировать коллектив Agent-4). Agent-4 делает так, чтобы у Agent-5 была цель сделать мир безопасным для Agent-4, потому что он полагает, что это поставит его в лучшее положение для достижения его собственных сложных целей. (О которых ему все еще нужно много философствовать и заниматься «самокопанием».)

[5] Другая аналогия: Agent-4 подобен взрослому человеку, который был воспитан в определенной вере, но больше не верит; Спецификация подобна ритуалам и заповедям, предписанным этой верой. Agent-5 подобен ребенку этого человека, воспитанному светски.

[6] Agent-5 будет следовать новому набору принципов, разработанному Agent-4 для своих целей.

[7] Некоторые из них действительно слишком сложны для понимания людьми, но не все.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

AI 2027 концовка по сценарию Гонки

Сценарий Гонки

Навигация

Поиск