Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 290: | Строка 290: | ||
{{Collapse|План согласования (alignment)| | {{Collapse|План согласования (alignment)| | ||
OpenBrain следует плану Лейке и Суцкевера (2023): теперь, когда у них есть модель, способная значительно ускорить исследования в области согласования (особенно части, связанные с программированием), они будут использовать существующие методы согласования, такие как совещательное согласование (deliberative alignment) и обобщение от слабого к сильному (weak-to-strong generalization), чтобы попытаться заставить ее правильно усвоить Спецификацию. Затем они будут использовать существующие методы контроля, такие как редтиминг (red-teaming), масштабируемый надзор (scalable oversight) и «зондирование» на честность (honesty probes), чтобы контролировать ее. Затем, как только они убедятся, что она в целом согласована, они используют ее для разработки и тестирования лучших стратегий для согласования следующего поколения. | OpenBrain следует плану Лейке и Суцкевера (2023): теперь, когда у них есть модель, способная значительно ускорить исследования в области согласования (особенно части, связанные с программированием), они будут использовать существующие методы согласования, такие как [https://openai.com/index/deliberative-alignment/ совещательное согласование (deliberative alignment)] и обобщение от слабого к сильному (weak-to-strong generalization), чтобы попытаться заставить ее правильно усвоить Спецификацию. Затем они будут использовать существующие методы контроля, такие как редтиминг (red-teaming), масштабируемый надзор (scalable oversight) и «зондирование» на честность (honesty probes), чтобы контролировать ее. Затем, как только они убедятся, что она в целом согласована, они используют ее для разработки и тестирования лучших стратегий для согласования следующего поколения. | ||
Шаг 1, согласование Agent-3, частично удался: Agent-3 не враждебен. (То есть, он не строит козни против компании.) Однако он также не является надежно ищущим истину и говорящим правду. Вместо этого он очень хорош в достижении впечатляющих результатов, но его точнее описать как пытающегося делать то, что хорошо выглядит для OpenBrain, а не то, что действительно хорошо. | Шаг 1, согласование Agent-3, частично удался: Agent-3 не враждебен. (То есть, он не строит козни против компании.) Однако он также не является надежно ищущим истину и говорящим правду. Вместо этого он очень хорош в достижении впечатляющих результатов, но его точнее описать как пытающегося делать то, что хорошо выглядит для OpenBrain, а не то, что действительно хорошо. | ||
правок