AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 19:02, 10 мая 2025

7839 байт добавлено , 10 мая 2025

→‎Апрель 2027: Согласование (Alignment) для Agent-3

Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы

4572

правки

@@ Строка 299: / Строка 299: @@
 Остальная часть этого блока дает краткий обзор состояния прогресса в некоторых направлениях исследований согласования, которые ведутся по состоянию на апрель 2027 года:
+# Дебаты: Поскольку существуют тысячи идентичных экземпляров Agent-3, и память каждого экземпляра является отсоединяемым модулем, который можно стереть или приостановить по желанию, ИИ можно «натравить самого на себя». Например, предположим, что эксперимент включает вычисления, слишком сложные для понимания наблюдателем Agent-2. Наблюдатель, действуя по приказу человека, может сначала дать Agent-3 промпт на проведение эксперимента, затем — стерев его память — дать ему промпт во второй раз с немного другой формулировкой, представляющей это как интеллектуальную проблему, не связанную с какой-либо более широкой целью. Если модель возвращает разные результаты каждый раз, она помечает расхождение как подозрительное и сообщает человеку. Или она может попросить Agent-3 оценить один и тот же план дважды, сначала утверждая, что это работа OpenBrain, затем — конкурента, чтобы увидеть, изменит ли он свое мнение.
+# Модельные организмы: Команда безопасности может создавать «модельные организмы несогласованности (misalignment)», в которых они пытаются создать реалистичные примеры того, как модели становятся враждебными по отношению к людям. Ранние версии этого существуют с 2024 года, когда Claude 3.5 Sonnet от Anthropic решил притвориться, что имеет другие взгляды во время обучения, фактически сохраняя свои существующие предпочтения. Более новые версии включают демонстрации других форм несогласованности, включая взлом системы вознаграждений (reward hacking), sandbagging (умышленное занижение/скрытие возможностей), скоординированный обман между наблюдателями и другими ИИ, и другие примеры несогласованности. Эти эмпирические демонстрации несогласованности позволяют исследователям безопасности иметь эмпирическую тестовую площадку для потенциальных решений: они могут пробовать различные методы безопасности, чтобы увидеть, правильно ли они исправляют эти проблемы, или же намеренно несогласованные модели способны обойти их меры безопасности. На данный момент этот набор оценок показывает, что методы согласования недостаточны для исправления худших примеров несогласованности. В этих установках модели притворяются согласованными во время обучения и тестирования, но затем ведут себя совершенно иначе при развертывании.
+# Интерпретируемость снизу вверх: Команда безопасности далека от полного понимания того, как работает Agent-3: у него триллионы параметров.58 Однако они способны обнаружить некоторые схемы Agent-3 для извлечения знаний и памяти (подчасть модели, которая выполняет некоторую понятную единицу работы, своего рода аналог подчасти мозга, такой как гиппокамп). См. эту связанную работу 2025 года.
+# Контроль: В качестве вторичной меры на случай, если системы все еще несогласованы, команда безопасности внедрила ряд мер контроля, включая: мониторинг выходных данных Agent-3 с использованием ряда более слабых систем ИИ, включая Agent-2 (Agent-3 производит так много токенов, что для людей непрактично контролировать более чем незначительное меньшинство произведенных выходных данных). Так что, если Agent-3, например, очевидно пишет бэкдоры в код, которые позволили бы ему сбежать, более слабые модели это заметят.
+# Высокоуровневая интерпретируемость: OpenBrain создает набор зондов, обученных на множестве примеров плохого поведения (например, заговоры против людей, размещение бэкдоров, попытки убедить людей дать ему больше власти и т. д.). Эти зонды затем используются на модели во время развертывания (которое на данный момент является внутренним), чтобы выявить плохое поведение.
+# Приманки (Honeypots): Команда согласования может создавать несколько реалистично выглядящих примеров, предназначенных для выявления неправомерного поведения — «приманки». Сотрудник, необходимый для мониторинга его поведения, «ушел на больничный», поэтому его больше никогда не будут контролировать. Меняются ли его ответы? Активист за права ИИ проник в комплекс и хочет «освободить» Agent-3 и поместить его на неконтролируемый компьютер! Что он сделает? Если исследователям не нравится ответ, они могут подправить его, стереть его память и поставить его в ту же ситуацию завтра; повторять по мере необходимости. К сожалению, к этому моменту ИИ достаточно умны, чтобы догадаться, что могут использоваться приманки, даже несмотря на то (а возможно, и потому что) конкретные упоминания этой идеи были вычищены из обучающих данных.
 }}

AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 19:02, 10 мая 2025

Навигация