AI 2027: различия между версиями

Строка 276: Строка 276:


== Апрель 2027: Согласование (Alignment) для Agent-3 ==
== Апрель 2027: Согласование (Alignment) для Agent-3 ==
Команда безопасности OpenBrain пытается согласовать (align) Agent-3.
Поскольку Agent-3 будет использоваться внутри компании в обозримом будущем, меньше внимания уделяется обычным мерам защиты от злоупотреблений со стороны человека. Вместо этого команда хочет убедиться, что он не разовьет несогласованные (misaligned) цели.
[https://ai-2027.com/research/ai-goals-forecast Исследователи не имеют возможности напрямую устанавливать цели ни для одного из своих ИИ]. Действительно, исследователи считают, что концепция «истинных целей», вероятно, является сильным упрощением, но у них нет лучшей теории, чтобы заменить ее, не говоря уже о той, которая была бы тщательно проверена. Они расходятся во мнениях внутри компании о том, пытаются ли ИИ следовать инструкциям человека, или ищут подкрепление, или что-то еще, и они не могут [https://www.lesswrong.com/posts/cxuzALcmucCndYv4a/daniel-kokotajlo-s-shortform?commentId=YYhq2PADebnt35MY2 просто проверить]. Доказательства за и против различных гипотез увлекательны, но неубедительны.