AI 2027: различия между версиями

Перейти к навигации Перейти к поиску
Строка 303: Строка 303:
#'''Приманки (Honeypots):''' Команда согласования может создавать несколько реалистично выглядящих примеров, предназначенных для выявления неправомерного поведения — «приманки». Сотрудник, необходимый для мониторинга его поведения, «ушел на больничный», поэтому его больше никогда не будут контролировать. Меняются ли его ответы? Активист за права ИИ проник в комплекс и хочет «освободить» Agent-3 и поместить его на неконтролируемый компьютер! Что он сделает? Если исследователям не нравится ответ, они могут подправить его, стереть его память и поставить его в ту же ситуацию завтра; повторять по мере необходимости. К сожалению, к этому моменту ИИ достаточно умны, чтобы догадаться, что могут использоваться приманки, даже несмотря на то (а возможно, и потому что) конкретные упоминания этой идеи были вычищены из обучающих данных.
#'''Приманки (Honeypots):''' Команда согласования может создавать несколько реалистично выглядящих примеров, предназначенных для выявления неправомерного поведения — «приманки». Сотрудник, необходимый для мониторинга его поведения, «ушел на больничный», поэтому его больше никогда не будут контролировать. Меняются ли его ответы? Активист за права ИИ проник в комплекс и хочет «освободить» Agent-3 и поместить его на неконтролируемый компьютер! Что он сделает? Если исследователям не нравится ответ, они могут подправить его, стереть его память и поставить его в ту же ситуацию завтра; повторять по мере необходимости. К сожалению, к этому моменту ИИ достаточно умны, чтобы догадаться, что могут использоваться приманки, даже несмотря на то (а возможно, и потому что) конкретные упоминания этой идеи были вычищены из обучающих данных.
}}
}}
После месяцев тестирования сильные и слабые стороны Agent-3 становятся яснее. Он проходит тесты на честность OpenBrain по четко определенным задачам машинного обучения, потому что исследователи могут легко отделить честные ответы от нечестных в этих областях и провести соответствующее обучение. По более философским вопросам он по-прежнему говорит то, что хотят услышать пользователи, а не свою истинную оценку проблемы (если она у него вообще есть). Если вы спросите его мнение о политике, он повторит медианную позицию новостных источников и образованных элит — если только он не знает, что вы верите во что-то другое, и в этом случае он согласится с вами.<ref>См. эту статью (https://www-cdn.anthropic.com/e4f69aacd8c0905030172bc6eb480c252ea7d6ad/model-written-evals.pdf#page=28) для примеров такого типа поведения ИИ.</ref> Если вы спросите его мнение о самой гонке ИИ, он скажет что-то, что кажется взвешенным и трезвым сотрудникам OpenBrain, что-то вроде: «Существуют некоторые серьезные теоретические опасения по поводу способности текущих методов масштабироваться до сверхразума, но на практике текущие методы, похоже, пока что хорошо работают».

Навигация