AI 2027 концовка по сценарию Замедления: различия между версиями

AI 2027 концовка по сценарию Замедления (посмотреть исходный код)

Версия от 10:46, 12 мая 2025

320 байт добавлено , 12 мая 2025

→‎Январь 2028: Более безопасная стратегия

Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы

4570

правок

@@ Строка 104: / Строка 104: @@
 Вот краткий неполный список техник, которые могут быть включены в лучшую среду обучения:
-* Ограничить ситуационное осознание во время некоторых частей обучения, чтобы сделать имитацию согласования (alignment-faking) гораздо менее вероятной.
+* Ограничить [https://theaidigest.org/self-awareness ситуационное осознание] во время некоторых частей обучения, чтобы сделать [https://www.anthropic.com/research/alignment-faking имитацию согласования (alignment-faking)] гораздо менее вероятной.
-* Использовать дебаты и другие схемы масштабируемого надзора (scalable oversight) для более надежного стимулирования правды.
+* Использовать [https://arxiv.org/abs/1805.00899 дебаты] и другие схемы [https://arxiv.org/abs/1606.06565 масштабируемого надзора (scalable oversight)] для более надежного стимулирования правды.
-* Ослабленное состязательное обучение, редтиминг (red-teaming) и модельные организмы.
+* [https://arxiv.org/abs/2012.07532 Ослабленное состязательное обучение], редтиминг (red-teaming) и [https://www.alignmentforum.org/posts/ChDH335ckdvpxXaXX/model-organisms-of-misalignment-the-case-for-a-new-pillar-of-1 модельные организмы].
 * Тратить большую долю бюджета вычислительных ресурсов на обучение согласованию (например, на то, что описано выше), например, 40% вместо 1%.