AI 2027 концовка по сценарию Замедления: различия между версиями

Строка 104: Строка 104:
Вот краткий неполный список техник, которые могут быть включены в лучшую среду обучения:
Вот краткий неполный список техник, которые могут быть включены в лучшую среду обучения:


* Ограничить ситуационное осознание во время некоторых частей обучения, чтобы сделать имитацию согласования (alignment-faking) гораздо менее вероятной.
* Ограничить [https://theaidigest.org/self-awareness ситуационное осознание] во время некоторых частей обучения, чтобы сделать [https://www.anthropic.com/research/alignment-faking имитацию согласования (alignment-faking)] гораздо менее вероятной.


* Использовать дебаты и другие схемы масштабируемого надзора (scalable oversight) для более надежного стимулирования правды.
* Использовать [https://arxiv.org/abs/1805.00899 дебаты] и другие схемы [https://arxiv.org/abs/1606.06565 масштабируемого надзора (scalable oversight)] для более надежного стимулирования правды.


* Ослабленное состязательное обучение, редтиминг (red-teaming) и модельные организмы.
* [https://arxiv.org/abs/2012.07532 Ослабленное состязательное обучение], редтиминг (red-teaming) и [https://www.alignmentforum.org/posts/ChDH335ckdvpxXaXX/model-organisms-of-misalignment-the-case-for-a-new-pillar-of-1 модельные организмы].


* Тратить большую долю бюджета вычислительных ресурсов на обучение согласованию (например, на то, что описано выше), например, 40% вместо 1%.
* Тратить большую долю бюджета вычислительных ресурсов на обучение согласованию (например, на то, что описано выше), например, 40% вместо 1%.