AI 2027 концовка по сценарию Замедления: различия между версиями

Строка 89: Строка 89:
== Январь 2028: Более безопасная стратегия ==
== Январь 2028: Более безопасная стратегия ==


За последний месяц сотни исследователей согласования (alignment) присоединились к проекту и использовали Safer-1 в качестве испытательного полигона для очень быстрой разработки Safer-2. Safer-2 прозрачен, согласован (aligned) и более способен, чем Safer-1.23 Он уже работает над разработкой Safer-3.
За последний месяц сотни исследователей согласования (alignment) присоединились к проекту и использовали Safer-1 в качестве испытательного полигона для очень быстрой разработки Safer-2. Safer-2 прозрачен, согласован (aligned) и более способен, чем Safer-1.<ref>Конкретно, он примерно соответствует производительности октябрьской версии Agent-4.</ref> Он уже работает над разработкой Safer-3.


Почему Safer-2 прозрачен? Схожая архитектура с Safer-1. Почему он согласован? В то время как Safer-1 имел в основном то же обучение, что и Agent-4, Safer-2 имеет новый метод обучения, который действительно стимулирует правильные цели и принципы, а не просто кажется таковым. Они смогли разработать этот метод обучения, быстро перебирая множество различных идей и сравнивая предполагаемый результат (Спецификацию) с фактическим результатом (мыслями в цепочке рассуждений).24
Почему Safer-2 прозрачен? Схожая архитектура с Safer-1. Почему он согласован? В то время как Safer-1 имел в основном то же обучение, что и Agent-4, Safer-2 имеет новый метод обучения, который действительно стимулирует правильные цели и принципы, а не просто кажется таковым. Они смогли разработать этот метод обучения, быстро перебирая множество различных идей и сравнивая предполагаемый результат (Спецификацию) с фактическим результатом (мыслями в цепочке рассуждений).<ref>Другими словами, чтобы добраться до Safer-2, им пришлось обучить много других несогласованных (misaligned) моделей, заметить их несогласованности, читая их мысли, и итерировать. Заметьте также, что в дополнение к увеличенному количеству экспертизы в области согласования в OpenBrain теперь присутствует уменьшенный эффект группового мышления, поскольку представлены много разных школ мысли.</ref>


{{Collapse|Новая стратегия согласования (Alignment) OpenBrain|
{{Collapse|Новая стратегия согласования (Alignment) OpenBrain|
Примечание: На протяжении всего процесса большая часть интеллектуального труда (и все программирование) выполняется ИИ. Именно так они могут так быстро прогрессировать; группе из сотен лучших исследователей-людей потребовались бы многие годы, чтобы сделать это в одиночку. Однако люди все еще являются важной частью процесса, потому что вся суть в том, что они не полностью доверяют ИИ. Поэтому им нужны люди из плоти и крови, чтобы читать отчеты об экспериментах и обоснования безопасности, спорить друг с другом и, будем надеяться, найти безопасный путь вперед.
Шаг 1: Обучить и развернуть Safer-1, несогласованного (misaligned), но контролируемого автономного исследователя. Он контролируется, потому что прозрачен для наблюдателей-людей: он использует английские цепочки рассуждений (CoT) для мышления, и были применены техники достоверной CoT (faithful CoT) для устранения эвфемизмов, стеганографии и тонких искажений.
Шаг 2: Попробовать различные среды обучения для Safer-1 и внимательно прочитать CoT, чтобы определить, каким образом цели и принципы в Спецификации «прижились» или нет.
Шаг 3: Обучить и развернуть Safer-2, согласованного (aligned) и контролируемого автономного исследователя, основанного на той же архитектуре, но с лучшей средой обучения, которая на этот раз стимулирует правильные цели и принципы.
Вот краткий неполный список техник, которые могут быть включены в лучшую среду обучения:
* Ограничить ситуационное осознание во время некоторых частей обучения, чтобы сделать имитацию согласования (alignment-faking) гораздо менее вероятной.
* Использовать дебаты и другие схемы масштабируемого надзора (scalable oversight) для более надежного стимулирования правды.
* Ослабленное состязательное обучение, редтиминг (red-teaming) и модельные организмы.
* Тратить большую долю бюджета вычислительных ресурсов на обучение согласованию (например, на то, что описано выше), например, 40% вместо 1%.
Шаг 4: Спроектировать, обучить и развернуть Safer-3, гораздо более умного автономного исследователя, который использует более продвинутую архитектуру, похожую на старый Agent-4. Он больше не прозрачен для наблюдателей-людей, но прозрачен для Safer-2. Так что должно быть возможно выяснить, как сделать его одновременно согласованным и контролируемым.
Шаг 5: Повторять Шаг 4 до бесконечности, создавая цепь все более мощных, все более согласованных ИИ, которые контролируются предыдущими звеньями цепи (например, аналогами Agent-5 из другой ветви сценария).
}}
}}