AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 19:15, 10 мая 2025

16 байт убрано , 10 май

нет описания правки

Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы

4567

правок

@@ Строка 286: / Строка 286: @@
 {{Collapse|План согласования (alignment)|
-OpenBrain следует плану Лейке и Суцкевера (2023): теперь, когда у них есть модель, способная значительно ускорить исследования в области согласования (особенно части, связанные с программированием), они будут использовать существующие методы согласования, такие как совещательное согласование (deliberative alignment)<ref>https://openai.com/index/deliberative-alignment/</ref> и обобщение от слабого к сильному (weak-to-strong generalization)<ref>https://arxiv.org/pdf/2312.09390</ref>, чтобы попытаться заставить ее правильно усвоить Спецификацию. Затем они будут использовать существующие [https://arxiv.org/pdf/2312.06942 методы контроля], такие как [https://www.evals.anthropic.com/ редтиминг (red-teaming)], [https://arxiv.org/pdf/2211.03540 масштабируемый надзор (scalable oversight)] и [https://arxiv.org/pdf/2212.03827 «зондирование» на честность (honesty probes)], чтобы контролировать ее. Затем, как только они убедятся, что она в целом согласована, они используют ее для разработки и тестирования лучших стратегий для согласования следующего поколения.
+OpenBrain следует плану Лейке и Суцкевера (2023): теперь, когда у них есть модель, способная значительно ускорить исследования в области согласования (особенно части, связанные с программированием), они будут использовать существующие методы согласования, такие как [https://openai.com/index/deliberative-alignment/ совещательное согласование (deliberative alignment)] и [https://arxiv.org/pdf/2312.09390 обобщение от слабого к сильному (weak-to-strong generalization)], чтобы попытаться заставить ее правильно усвоить Спецификацию. Затем они будут использовать существующие [https://arxiv.org/pdf/2312.06942 методы контроля], такие как [https://www.evals.anthropic.com/ редтиминг (red-teaming)], [https://arxiv.org/pdf/2211.03540 масштабируемый надзор (scalable oversight)] и [https://arxiv.org/pdf/2212.03827 «зондирование» на честность (honesty probes)], чтобы контролировать ее. Затем, как только они убедятся, что она в целом согласована, они используют ее для разработки и тестирования лучших стратегий для согласования следующего поколения.
 Шаг 1, согласование Agent-3, частично удался: Agent-3 не враждебен. (То есть, он не строит козни против компании.) Однако он также не является надежно ищущим истину и говорящим правду. Вместо этого он очень хорош в достижении впечатляющих результатов, но его точнее описать как пытающегося делать то, что хорошо выглядит для OpenBrain, а не то, что действительно хорошо.

AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 19:15, 10 мая 2025

Навигация