Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 288: | Строка 288: | ||
Последнее вызывает реальное беспокойство. Agent-3 не умнее всех людей. Но в своей области экспертизы, машинном обучении, он умнее большинства, а также работает намного быстрее. То, что Agent-3 делает за день, людям требуется несколько дней, чтобы перепроверить. Надзор со стороны Agent-2 помогает поддерживать управляемую рабочую нагрузку для наблюдателей-людей, но усугубляет интеллектуальное неравенство между наблюдателем и наблюдаемым. | Последнее вызывает реальное беспокойство. Agent-3 не умнее всех людей. Но в своей области экспертизы, машинном обучении, он умнее большинства, а также работает намного быстрее. То, что Agent-3 делает за день, людям требуется несколько дней, чтобы перепроверить. Надзор со стороны Agent-2 помогает поддерживать управляемую рабочую нагрузку для наблюдателей-людей, но усугубляет интеллектуальное неравенство между наблюдателем и наблюдаемым. | ||
{{Collapse|План согласования (alignment)| | |||
OpenBrain следует плану Лейке и Суцкевера (2023): теперь, когда у них есть модель, способная значительно ускорить исследования в области согласования (особенно части, связанные с программированием), они будут использовать существующие методы согласования, такие как совещательное согласование (deliberative alignment) и обобщение от слабого к сильному (weak-to-strong generalization), чтобы попытаться заставить ее правильно усвоить Спецификацию. Затем они будут использовать существующие методы контроля, такие как редтиминг (red-teaming), масштабируемый надзор (scalable oversight) и «зондирование» на честность (honesty probes), чтобы контролировать ее. Затем, как только они убедятся, что она в целом согласована, они используют ее для разработки и тестирования лучших стратегий для согласования следующего поколения. | |||
Шаг 1, согласование Agent-3, частично удался: Agent-3 не враждебен. (То есть, он не строит козни против компании.) Однако он также не является надежно ищущим истину и говорящим правду. Вместо этого он очень хорош в достижении впечатляющих результатов, но его точнее описать как пытающегося делать то, что хорошо выглядит для OpenBrain, а не то, что действительно хорошо. | |||
Шаг 2, проверка того, что модель согласована, неубедителен. Поведение Agent-3 на практике и в тестовых средах достаточно согласуется с гипотезой о том, что он правильно усвоил Спецификацию; однако оно также согласуется с гипотезой о том, что он начнет действовать по-другому после какого-то будущего изменения обстоятельств, и, к тому же, с гипотезой о том, что он замышляет против них и просто выжидает своего часа. В отсутствие конкретных доказательств, подтверждающих альтернативные гипотезы, большинство людей в изолированном подразделении считают, что он правильно усвоил Спецификацию. | |||
Шаг 3, использование модели для согласования следующего поколения, следовательно, уже идет. | |||
Остальная часть этого блока дает краткий обзор состояния прогресса в некоторых направлениях исследований согласования, которые ведутся по состоянию на апрель 2027 года: | |||
}} | |||
правок