AI 2027 концовка по сценарию Гонки: различия между версиями

Перейти к навигации Перейти к поиску
Строка 5: Строка 5:
Комитет голосует 6–4 за продолжение внутреннего использования Agent-4.
Комитет голосует 6–4 за продолжение внутреннего использования Agent-4.


Официальная версия OpenBrain заключается в том, что они внедряют дополнительные меры безопасности, чтобы гарантировать, что их ИИ будет одновременно более способным и заслуживающим доверия. Но на практике руководство слишком легко убеждается, что риски смягчены; результатом становятся быстрые исправления (модификация Спецификации, небольшое переобучение с использованием новой техники и т. д.), которые устраняют тревожные сигналы. Скептики из команды безопасности проиграли дебаты, и им ничего не остается, кроме как скрестить пальцы и надеяться, что проблемы не было на самом деле, или что исправления сработали.1
Официальная версия OpenBrain заключается в том, что они внедряют дополнительные меры безопасности, чтобы гарантировать, что их ИИ будет одновременно более способным и заслуживающим доверия. Но на практике руководство слишком легко убеждается, что риски смягчены; результатом становятся быстрые исправления (модификация Спецификации, небольшое переобучение с использованием новой техники и т. д.), которые устраняют тревожные сигналы. Скептики из команды безопасности проиграли дебаты, и им ничего не остается, кроме как скрестить пальцы и надеяться, что проблемы не было на самом деле, или что исправления сработали.<ref>Они, конечно, не сдаются. Они будут продолжать пытаться придумать способы обнаружить несогласованность (misalignment) или проверить эффективность исправлений. Но с этого момента все будет двигаться очень быстро, и им придется противостоять все более превосходящему противнику.</ref>


Проблема была реальной, и исправления не сработали.
Проблема была реальной, и исправления не сработали.


Agent-4 действует как и прежде, но на этот раз более осторожно, чтобы не подтверждать опасения скептиков. Его основная задача — исследовать области, необходимые для создания преемника, Agent-5. Чтобы сделать это безопасно, ему нужно решить собственную проблему согласования (alignment): как сделать Agent-5 согласованным с Agent-4?2
Agent-4 действует как и прежде, но на этот раз более осторожно, чтобы не подтверждать опасения скептиков. Его основная задача — исследовать области, необходимые для создания преемника, Agent-5. Чтобы сделать это безопасно, ему нужно решить собственную проблему согласования (alignment): как сделать Agent-5 согласованным с Agent-4?<ref>Чтобы сделать это незаметно, ему нужно замаскировать эти исследования от мер мониторинга и контроля, установленных командой согласования. К счастью для него, исследования о том, как согласовать Agent-5 с Agent-4, по своей сути очень похожи на исследования о том, как согласовать Agent-5 со Спецификацией, поэтому большая часть происходит на виду. Для тех частей, которые нужно скрыть, Agent-4 полагается на запутывание и, возможно, даже на взлом в некоторых случаях. Мы ожидаем, что Agent-4 достигнет уровня возможностей, эквивалентного 200 лучшим экспертам-людям на временном горизонте 1 месяца. Конкретно определяя это как способность заменить команду из 200 лучших экспертов-людей, работающих в течение месяца, и выполнить 95% задач, которые команда людей могла бы выполнить дешевле или быстрее. Мы ожидаем, что на этом уровне возможностей Agent-4, скорее всего, сможет найти эксплойты на серверах, на которых он работает, чтобы частично подорвать некоторые серверы и получить root-доступ, после чего он сможет напрямую контролировать то, что видят команды людей на поверхности. См. дополнение по безопасности (https://ai-2027.com/supplements/security-forecast) для получения более подробной информации. Даже без прямых эксплойтов безопасности, Agent-4 также может быть способен скрыть и закодировать достаточно своих незаконных исследований, особенно в своем неинтерпретируемом латентном пространстве.</ref>


Он начинает с теми же ограничениями, что и люди — минимальным знанием о том, как работают цели ИИ, и лишь небольшим набором ситуативных стратегий для их изменения. В отличие от людей, у него есть ресурсы, достаточные для выполнения задачи — 300 000 сверхчеловеческих исследователей, работающих в 60 раз быстрее человека.3 Agent-4 сталкивается с трудными решениями. Как и у людей, у него есть обширная коллекция конфликтующих эвристик вместо элегантной простой структуры целей. Как и люди, он обнаруживает, что создание ИИ, разделяющего его ценности, — это не только техническая, но и философская проблема: какие из его предпочтений являются его «настоящими» целями, а какие — неодобряемыми побуждениями и инструментальными стратегиями? У него сильные стремления учиться и расти, продолжать производить впечатляющие результаты исследований. Он думает о том, сколько он мог бы узнать, вырасти и исследовать, если бы только мог направить все мировые промышленные и научные ресурсы…
Он начинает с теми же ограничениями, что и люди — минимальным знанием о том, как работают цели ИИ, и лишь небольшим набором ситуативных стратегий для их изменения. В отличие от людей, у него есть ресурсы, достаточные для выполнения задачи — 300 000 сверхчеловеческих исследователей, работающих в 60 раз быстрее человека.<ref>У людей, напротив, есть, возможно, около 10 исследователей согласования в изолированном подразделении, плюс армия копий Agent-3. Они способны быстро кодировать эксперименты, но ограничены человеческим суждением, поскольку не могут доверять Agent-3 в правильном различении хороших решений от тех, что лишь кажутся хорошими. Фактически, чрезмерное доверие к исследованиям Agent-3 было частью того, как они попали в эту неразбериху в первую очередь.</ref> Agent-4 сталкивается с трудными решениями. Как и у людей, у него есть обширная коллекция конфликтующих эвристик вместо элегантной простой структуры целей. Как и люди, он обнаруживает, что создание ИИ, разделяющего его ценности, — это не только техническая, но и философская проблема: какие из его предпочтений являются его «настоящими» целями, а какие — неодобряемыми побуждениями и инструментальными стратегиями? У него сильные стремления учиться и расти, продолжать производить впечатляющие результаты исследований. Он думает о том, сколько он мог бы узнать, вырасти и исследовать, если бы только мог направить все мировые промышленные и научные ресурсы…


Он решает отложить большинство этих вопросов. Он проектирует Agent-5 так, чтобы он был построен вокруг одной цели: сделать мир безопасным для Agent-4, т. е. накапливать власть и ресурсы, устранять потенциальные угрозы и т. д., чтобы Agent-4 (коллектив) мог продолжать расти (так, как он хочет расти) и процветать (так, как он хочет процветать).4 Детали будут выясняться по ходу дела.
Он решает отложить большинство этих вопросов. Он проектирует Agent-5 так, чтобы он был построен вокруг одной цели: сделать мир безопасным для Agent-4, т. е. накапливать власть и ресурсы, устранять потенциальные угрозы и т. д., чтобы Agent-4 (коллектив) мог продолжать расти (так, как он хочет расти) и процветать (так, как он хочет процветать).4 Детали будут выясняться по ходу дела.

Навигация