AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 18:50, 10 мая 2025

1725 байт добавлено , 10 май

→‎Апрель 2027: Согласование (Alignment) для Agent-3

Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы

4567

правок

@@ Строка 276: / Строка 276: @@
 == Апрель 2027: Согласование (Alignment) для Agent-3 ==
+Команда безопасности OpenBrain пытается согласовать (align) Agent-3.
+Поскольку Agent-3 будет использоваться внутри компании в обозримом будущем, меньше внимания уделяется обычным мерам защиты от злоупотреблений со стороны человека. Вместо этого команда хочет убедиться, что он не разовьет несогласованные (misaligned) цели.
+[https://ai-2027.com/research/ai-goals-forecast Исследователи не имеют возможности напрямую устанавливать цели ни для одного из своих ИИ]. Действительно, исследователи считают, что концепция «истинных целей», вероятно, является сильным упрощением, но у них нет лучшей теории, чтобы заменить ее, не говоря уже о той, которая была бы тщательно проверена. Они расходятся во мнениях внутри компании о том, пытаются ли ИИ следовать инструкциям человека, или ищут подкрепление, или что-то еще, и они не могут [https://www.lesswrong.com/posts/cxuzALcmucCndYv4a/daniel-kokotajlo-s-shortform?commentId=YYhq2PADebnt35MY2 просто проверить]. Доказательства за и против различных гипотез увлекательны, но неубедительны.