AI 2027: различия между версиями

Строка 297: Строка 297:


#'''Дебаты:''' Поскольку существуют тысячи идентичных экземпляров Agent-3, и память каждого экземпляра является отсоединяемым модулем, который можно стереть или приостановить по желанию, ИИ можно «натравить самого на себя». Например, предположим, что эксперимент включает вычисления, слишком сложные для понимания наблюдателем Agent-2. Наблюдатель, действуя по приказу человека, может сначала дать Agent-3 промпт на проведение эксперимента, затем — стерев его память — дать ему промпт во второй раз с немного другой формулировкой, представляющей это как интеллектуальную проблему, не связанную с какой-либо более широкой целью. Если модель возвращает разные результаты каждый раз, она помечает расхождение как подозрительное и сообщает человеку. Или она может попросить Agent-3 оценить один и тот же план дважды, сначала утверждая, что это работа OpenBrain, затем — конкурента, чтобы увидеть, изменит ли он свое мнение.
#'''Дебаты:''' Поскольку существуют тысячи идентичных экземпляров Agent-3, и память каждого экземпляра является отсоединяемым модулем, который можно стереть или приостановить по желанию, ИИ можно «натравить самого на себя». Например, предположим, что эксперимент включает вычисления, слишком сложные для понимания наблюдателем Agent-2. Наблюдатель, действуя по приказу человека, может сначала дать Agent-3 промпт на проведение эксперимента, затем — стерев его память — дать ему промпт во второй раз с немного другой формулировкой, представляющей это как интеллектуальную проблему, не связанную с какой-либо более широкой целью. Если модель возвращает разные результаты каждый раз, она помечает расхождение как подозрительное и сообщает человеку. Или она может попросить Agent-3 оценить один и тот же план дважды, сначала утверждая, что это работа OpenBrain, затем — конкурента, чтобы увидеть, изменит ли он свое мнение.
#'''Модельные организмы:''' Команда безопасности может создавать «модельные организмы несогласованности (misalignment)», в которых они пытаются создать реалистичные примеры того, как модели становятся враждебными по отношению к людям. Ранние версии этого существуют с 2024 года, когда Claude 3.5 Sonnet от Anthropic решил притвориться, что имеет другие взгляды во время обучения, фактически сохраняя свои существующие предпочтения. Более новые версии включают демонстрации других форм несогласованности, включая взлом системы вознаграждений (reward hacking), sandbagging (умышленное занижение/скрытие возможностей), скоординированный обман между наблюдателями и другими ИИ, и другие примеры несогласованности. Эти эмпирические демонстрации несогласованности позволяют исследователям безопасности иметь эмпирическую тестовую площадку для потенциальных решений: они могут пробовать различные методы безопасности, чтобы увидеть, правильно ли они исправляют эти проблемы, или же намеренно несогласованные модели способны обойти их меры безопасности. На данный момент этот набор оценок показывает, что методы согласования недостаточны для исправления худших примеров несогласованности. В этих установках модели притворяются согласованными во время обучения и тестирования, но затем ведут себя совершенно иначе при развертывании.
#'''Модельные организмы:''' Команда безопасности может создавать «модельные организмы несогласованности (misalignment)», в которых они пытаются создать реалистичные примеры того, как модели становятся враждебными по отношению к людям. [https://www.anthropic.com/research/alignment-faking Ранние версии] этого существуют с 2024 года, когда Claude 3.5 Sonnet от Anthropic решил притвориться, что имеет другие взгляды во время обучения, фактически сохраняя свои существующие предпочтения. Более новые версии включают демонстрации других форм несогласованности, включая [https://en.wikipedia.org/wiki/Reward_hacking взлом системы вознаграждений (reward hacking)], [https://arxiv.org/abs/2406.07358 sandbagging] (умышленное занижение/скрытие возможностей), скоординированный обман между наблюдателями и другими ИИ, и другие примеры несогласованности. Эти эмпирические демонстрации несогласованности позволяют исследователям безопасности иметь эмпирическую тестовую площадку для потенциальных решений: они могут пробовать различные методы безопасности, чтобы увидеть, правильно ли они исправляют эти проблемы, или же намеренно несогласованные модели способны обойти их меры безопасности. На данный момент этот набор оценок показывает, что методы согласования недостаточны для исправления худших примеров несогласованности. В этих установках модели притворяются согласованными во время обучения и тестирования, но затем ведут себя совершенно иначе при развертывании.
#'''Интерпретируемость снизу вверх:''' Команда безопасности далека от полного понимания того, как работает Agent-3: у него триллионы параметров.58 Однако они способны обнаружить некоторые схемы Agent-3 для извлечения знаний и памяти (подчасть модели, которая выполняет некоторую понятную единицу работы, своего рода аналог подчасти мозга, такой как гиппокамп). См. эту связанную работу 2025 года.
#'''Интерпретируемость снизу вверх:''' Команда безопасности далека от полного понимания того, как работает Agent-3: у него триллионы параметров.58 Однако они способны обнаружить некоторые схемы Agent-3 для извлечения знаний и памяти (подчасть модели, которая выполняет некоторую понятную единицу работы, своего рода аналог подчасти мозга, такой как гиппокамп). См. эту связанную работу 2025 года.
#'''Контроль:''' В качестве вторичной меры на случай, если системы все еще несогласованы, команда безопасности внедрила ряд мер контроля, включая: мониторинг выходных данных Agent-3 с использованием ряда более слабых систем ИИ, включая Agent-2 (Agent-3 производит так много токенов, что для людей непрактично контролировать более чем незначительное меньшинство произведенных выходных данных). Так что, если Agent-3, например, очевидно пишет бэкдоры в код, которые позволили бы ему сбежать, более слабые модели это заметят.
#'''Контроль:''' В качестве вторичной меры на случай, если системы все еще несогласованы, команда безопасности внедрила ряд мер контроля, включая: мониторинг выходных данных Agent-3 с использованием ряда более слабых систем ИИ, включая Agent-2 (Agent-3 производит так много токенов, что для людей непрактично контролировать более чем незначительное меньшинство произведенных выходных данных). Так что, если Agent-3, например, очевидно пишет бэкдоры в код, которые позволили бы ему сбежать, более слабые модели это заметят.