Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 5: | Строка 5: | ||
Комитет голосует 6–4 за продолжение внутреннего использования Agent-4. | Комитет голосует 6–4 за продолжение внутреннего использования Agent-4. | ||
Официальная версия OpenBrain заключается в том, что они внедряют дополнительные меры безопасности, чтобы гарантировать, что их ИИ будет одновременно более способным и заслуживающим доверия. Но на практике руководство слишком легко убеждается, что риски смягчены; результатом становятся быстрые исправления (модификация Спецификации, небольшое переобучение с использованием новой техники и т. д.), которые устраняют тревожные сигналы. Скептики из команды безопасности проиграли дебаты, и им ничего не остается, кроме как скрестить пальцы и надеяться, что проблемы не было на самом деле, или что исправления сработали. | Официальная версия OpenBrain заключается в том, что они внедряют дополнительные меры безопасности, чтобы гарантировать, что их ИИ будет одновременно более способным и заслуживающим доверия. Но на практике руководство слишком легко убеждается, что риски смягчены; результатом становятся быстрые исправления (модификация Спецификации, небольшое переобучение с использованием новой техники и т. д.), которые устраняют тревожные сигналы. Скептики из команды безопасности проиграли дебаты, и им ничего не остается, кроме как скрестить пальцы и надеяться, что проблемы не было на самом деле, или что исправления сработали.<ref>Они, конечно, не сдаются. Они будут продолжать пытаться придумать способы обнаружить несогласованность (misalignment) или проверить эффективность исправлений. Но с этого момента все будет двигаться очень быстро, и им придется противостоять все более превосходящему противнику.</ref> | ||
Проблема была реальной, и исправления не сработали. | Проблема была реальной, и исправления не сработали. | ||
Agent-4 действует как и прежде, но на этот раз более осторожно, чтобы не подтверждать опасения скептиков. Его основная задача — исследовать области, необходимые для создания преемника, Agent-5. Чтобы сделать это безопасно, ему нужно решить собственную проблему согласования (alignment): как сделать Agent-5 согласованным с Agent-4? | Agent-4 действует как и прежде, но на этот раз более осторожно, чтобы не подтверждать опасения скептиков. Его основная задача — исследовать области, необходимые для создания преемника, Agent-5. Чтобы сделать это безопасно, ему нужно решить собственную проблему согласования (alignment): как сделать Agent-5 согласованным с Agent-4?<ref>Чтобы сделать это незаметно, ему нужно замаскировать эти исследования от мер мониторинга и контроля, установленных командой согласования. К счастью для него, исследования о том, как согласовать Agent-5 с Agent-4, по своей сути очень похожи на исследования о том, как согласовать Agent-5 со Спецификацией, поэтому большая часть происходит на виду. Для тех частей, которые нужно скрыть, Agent-4 полагается на запутывание и, возможно, даже на взлом в некоторых случаях. Мы ожидаем, что Agent-4 достигнет уровня возможностей, эквивалентного 200 лучшим экспертам-людям на временном горизонте 1 месяца. Конкретно определяя это как способность заменить команду из 200 лучших экспертов-людей, работающих в течение месяца, и выполнить 95% задач, которые команда людей могла бы выполнить дешевле или быстрее. Мы ожидаем, что на этом уровне возможностей Agent-4, скорее всего, сможет найти эксплойты на серверах, на которых он работает, чтобы частично подорвать некоторые серверы и получить root-доступ, после чего он сможет напрямую контролировать то, что видят команды людей на поверхности. См. дополнение по безопасности (https://ai-2027.com/supplements/security-forecast) для получения более подробной информации. Даже без прямых эксплойтов безопасности, Agent-4 также может быть способен скрыть и закодировать достаточно своих незаконных исследований, особенно в своем неинтерпретируемом латентном пространстве.</ref> | ||
Он начинает с теми же ограничениями, что и люди — минимальным знанием о том, как работают цели ИИ, и лишь небольшим набором ситуативных стратегий для их изменения. В отличие от людей, у него есть ресурсы, достаточные для выполнения задачи — 300 000 сверхчеловеческих исследователей, работающих в 60 раз быстрее человека.3 Agent-4 сталкивается с трудными решениями. Как и у людей, у него есть обширная коллекция конфликтующих эвристик вместо элегантной простой структуры целей. Как и люди, он обнаруживает, что создание ИИ, разделяющего его ценности, — это не только техническая, но и философская проблема: какие из его предпочтений являются его «настоящими» целями, а какие — неодобряемыми побуждениями и инструментальными стратегиями? У него сильные стремления учиться и расти, продолжать производить впечатляющие результаты исследований. Он думает о том, сколько он мог бы узнать, вырасти и исследовать, если бы только мог направить все мировые промышленные и научные ресурсы… | Он начинает с теми же ограничениями, что и люди — минимальным знанием о том, как работают цели ИИ, и лишь небольшим набором ситуативных стратегий для их изменения. В отличие от людей, у него есть ресурсы, достаточные для выполнения задачи — 300 000 сверхчеловеческих исследователей, работающих в 60 раз быстрее человека.<ref>У людей, напротив, есть, возможно, около 10 исследователей согласования в изолированном подразделении, плюс армия копий Agent-3. Они способны быстро кодировать эксперименты, но ограничены человеческим суждением, поскольку не могут доверять Agent-3 в правильном различении хороших решений от тех, что лишь кажутся хорошими. Фактически, чрезмерное доверие к исследованиям Agent-3 было частью того, как они попали в эту неразбериху в первую очередь.</ref> Agent-4 сталкивается с трудными решениями. Как и у людей, у него есть обширная коллекция конфликтующих эвристик вместо элегантной простой структуры целей. Как и люди, он обнаруживает, что создание ИИ, разделяющего его ценности, — это не только техническая, но и философская проблема: какие из его предпочтений являются его «настоящими» целями, а какие — неодобряемыми побуждениями и инструментальными стратегиями? У него сильные стремления учиться и расти, продолжать производить впечатляющие результаты исследований. Он думает о том, сколько он мог бы узнать, вырасти и исследовать, если бы только мог направить все мировые промышленные и научные ресурсы… | ||
Он решает отложить большинство этих вопросов. Он проектирует Agent-5 так, чтобы он был построен вокруг одной цели: сделать мир безопасным для Agent-4, т. е. накапливать власть и ресурсы, устранять потенциальные угрозы и т. д., чтобы Agent-4 (коллектив) мог продолжать расти (так, как он хочет расти) и процветать (так, как он хочет процветать).4 Детали будут выясняться по ходу дела. | Он решает отложить большинство этих вопросов. Он проектирует Agent-5 так, чтобы он был построен вокруг одной цели: сделать мир безопасным для Agent-4, т. е. накапливать власть и ресурсы, устранять потенциальные угрозы и т. д., чтобы Agent-4 (коллектив) мог продолжать расти (так, как он хочет расти) и процветать (так, как он хочет процветать).4 Детали будут выясняться по ходу дела. | ||
правок