Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 104: | Строка 104: | ||
Вот краткий неполный список техник, которые могут быть включены в лучшую среду обучения: | Вот краткий неполный список техник, которые могут быть включены в лучшую среду обучения: | ||
* Ограничить ситуационное осознание во время некоторых частей обучения, чтобы сделать имитацию согласования (alignment-faking) гораздо менее вероятной. | * Ограничить [https://theaidigest.org/self-awareness ситуационное осознание] во время некоторых частей обучения, чтобы сделать [https://www.anthropic.com/research/alignment-faking имитацию согласования (alignment-faking)] гораздо менее вероятной. | ||
* Использовать дебаты и другие схемы масштабируемого надзора (scalable oversight) для более надежного стимулирования правды. | * Использовать [https://arxiv.org/abs/1805.00899 дебаты] и другие схемы [https://arxiv.org/abs/1606.06565 масштабируемого надзора (scalable oversight)] для более надежного стимулирования правды. | ||
* Ослабленное состязательное обучение, редтиминг (red-teaming) и модельные организмы. | * [https://arxiv.org/abs/2012.07532 Ослабленное состязательное обучение], редтиминг (red-teaming) и [https://www.alignmentforum.org/posts/ChDH335ckdvpxXaXX/model-organisms-of-misalignment-the-case-for-a-new-pillar-of-1 модельные организмы]. | ||
* Тратить большую долю бюджета вычислительных ресурсов на обучение согласованию (например, на то, что описано выше), например, 40% вместо 1%. | * Тратить большую долю бюджета вычислительных ресурсов на обучение согласованию (например, на то, что описано выше), например, 40% вместо 1%. | ||
правок