Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 89: | Строка 89: | ||
== Январь 2028: Более безопасная стратегия == | == Январь 2028: Более безопасная стратегия == | ||
За последний месяц сотни исследователей согласования (alignment) присоединились к проекту и использовали Safer-1 в качестве испытательного полигона для очень быстрой разработки Safer-2. Safer-2 прозрачен, согласован (aligned) и более способен, чем Safer-1. | За последний месяц сотни исследователей согласования (alignment) присоединились к проекту и использовали Safer-1 в качестве испытательного полигона для очень быстрой разработки Safer-2. Safer-2 прозрачен, согласован (aligned) и более способен, чем Safer-1.<ref>Конкретно, он примерно соответствует производительности октябрьской версии Agent-4.</ref> Он уже работает над разработкой Safer-3. | ||
Почему Safer-2 прозрачен? Схожая архитектура с Safer-1. Почему он согласован? В то время как Safer-1 имел в основном то же обучение, что и Agent-4, Safer-2 имеет новый метод обучения, который действительно стимулирует правильные цели и принципы, а не просто кажется таковым. Они смогли разработать этот метод обучения, быстро перебирая множество различных идей и сравнивая предполагаемый результат (Спецификацию) с фактическим результатом (мыслями в цепочке рассуждений). | Почему Safer-2 прозрачен? Схожая архитектура с Safer-1. Почему он согласован? В то время как Safer-1 имел в основном то же обучение, что и Agent-4, Safer-2 имеет новый метод обучения, который действительно стимулирует правильные цели и принципы, а не просто кажется таковым. Они смогли разработать этот метод обучения, быстро перебирая множество различных идей и сравнивая предполагаемый результат (Спецификацию) с фактическим результатом (мыслями в цепочке рассуждений).<ref>Другими словами, чтобы добраться до Safer-2, им пришлось обучить много других несогласованных (misaligned) моделей, заметить их несогласованности, читая их мысли, и итерировать. Заметьте также, что в дополнение к увеличенному количеству экспертизы в области согласования в OpenBrain теперь присутствует уменьшенный эффект группового мышления, поскольку представлены много разных школ мысли.</ref> | ||
{{Collapse|Новая стратегия согласования (Alignment) OpenBrain| | {{Collapse|Новая стратегия согласования (Alignment) OpenBrain| | ||
Примечание: На протяжении всего процесса большая часть интеллектуального труда (и все программирование) выполняется ИИ. Именно так они могут так быстро прогрессировать; группе из сотен лучших исследователей-людей потребовались бы многие годы, чтобы сделать это в одиночку. Однако люди все еще являются важной частью процесса, потому что вся суть в том, что они не полностью доверяют ИИ. Поэтому им нужны люди из плоти и крови, чтобы читать отчеты об экспериментах и обоснования безопасности, спорить друг с другом и, будем надеяться, найти безопасный путь вперед. | |||
Шаг 1: Обучить и развернуть Safer-1, несогласованного (misaligned), но контролируемого автономного исследователя. Он контролируется, потому что прозрачен для наблюдателей-людей: он использует английские цепочки рассуждений (CoT) для мышления, и были применены техники достоверной CoT (faithful CoT) для устранения эвфемизмов, стеганографии и тонких искажений. | |||
Шаг 2: Попробовать различные среды обучения для Safer-1 и внимательно прочитать CoT, чтобы определить, каким образом цели и принципы в Спецификации «прижились» или нет. | |||
Шаг 3: Обучить и развернуть Safer-2, согласованного (aligned) и контролируемого автономного исследователя, основанного на той же архитектуре, но с лучшей средой обучения, которая на этот раз стимулирует правильные цели и принципы. | |||
Вот краткий неполный список техник, которые могут быть включены в лучшую среду обучения: | |||
* Ограничить ситуационное осознание во время некоторых частей обучения, чтобы сделать имитацию согласования (alignment-faking) гораздо менее вероятной. | |||
* Использовать дебаты и другие схемы масштабируемого надзора (scalable oversight) для более надежного стимулирования правды. | |||
* Ослабленное состязательное обучение, редтиминг (red-teaming) и модельные организмы. | |||
* Тратить большую долю бюджета вычислительных ресурсов на обучение согласованию (например, на то, что описано выше), например, 40% вместо 1%. | |||
Шаг 4: Спроектировать, обучить и развернуть Safer-3, гораздо более умного автономного исследователя, который использует более продвинутую архитектуру, похожую на старый Agent-4. Он больше не прозрачен для наблюдателей-людей, но прозрачен для Safer-2. Так что должно быть возможно выяснить, как сделать его одновременно согласованным и контролируемым. | |||
Шаг 5: Повторять Шаг 4 до бесконечности, создавая цепь все более мощных, все более согласованных ИИ, которые контролируются предыдущими звеньями цепи (например, аналогами Agent-5 из другой ветви сценария). | |||
}} | }} | ||
правок