AI 2027: различия между версиями

Перейти к навигации Перейти к поиску
нет описания правки
Метка: отменено
Нет описания правки
Метка: ручная отмена
Строка 286: Строка 286:


{{Collapse|План согласования (alignment)|
{{Collapse|План согласования (alignment)|
OpenBrain следует плану Лейке и Суцкевера (2023): теперь, когда у них есть модель, способная значительно ускорить исследования в области согласования (особенно части, связанные с программированием), они будут использовать существующие методы согласования, такие как совещательное согласование (deliberative alignment)<ref>https://openai.com/index/deliberative-alignment/</ref> и обобщение от слабого к сильному (weak-to-strong generalization)<ref>https://arxiv.org/pdf/2312.09390</ref>, чтобы попытаться заставить ее правильно усвоить Спецификацию. Затем они будут использовать существующие [https://arxiv.org/pdf/2312.06942 методы контроля], такие как [https://www.evals.anthropic.com/ редтиминг (red-teaming)], [https://arxiv.org/pdf/2211.03540 масштабируемый надзор (scalable oversight)] и [https://arxiv.org/pdf/2212.03827 «зондирование» на честность (honesty probes)], чтобы контролировать ее. Затем, как только они убедятся, что она в целом согласована, они используют ее для разработки и тестирования лучших стратегий для согласования следующего поколения.
OpenBrain следует плану Лейке и Суцкевера (2023): теперь, когда у них есть модель, способная значительно ускорить исследования в области согласования (особенно части, связанные с программированием), они будут использовать существующие методы согласования, такие как [https://openai.com/index/deliberative-alignment/ совещательное согласование (deliberative alignment)] и [https://arxiv.org/pdf/2312.09390 обобщение от слабого к сильному (weak-to-strong generalization)], чтобы попытаться заставить ее правильно усвоить Спецификацию. Затем они будут использовать существующие [https://arxiv.org/pdf/2312.06942 методы контроля], такие как [https://www.evals.anthropic.com/ редтиминг (red-teaming)], [https://arxiv.org/pdf/2211.03540 масштабируемый надзор (scalable oversight)] и [https://arxiv.org/pdf/2212.03827 «зондирование» на честность (honesty probes)], чтобы контролировать ее. Затем, как только они убедятся, что она в целом согласована, они используют ее для разработки и тестирования лучших стратегий для согласования следующего поколения.


Шаг 1, согласование Agent-3, частично удался: Agent-3 не враждебен. (То есть, он не строит козни против компании.) Однако он также не является надежно ищущим истину и говорящим правду. Вместо этого он очень хорош в достижении впечатляющих результатов, но его точнее описать как пытающегося делать то, что хорошо выглядит для OpenBrain, а не то, что действительно хорошо.
Шаг 1, согласование Agent-3, частично удался: Agent-3 не враждебен. (То есть, он не строит козни против компании.) Однако он также не является надежно ищущим истину и говорящим правду. Вместо этого он очень хорош в достижении впечатляющих результатов, но его точнее описать как пытающегося делать то, что хорошо выглядит для OpenBrain, а не то, что действительно хорошо.

Навигация