Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 276: | Строка 276: | ||
== Апрель 2027: Согласование (Alignment) для Agent-3 == | == Апрель 2027: Согласование (Alignment) для Agent-3 == | ||
Команда безопасности OpenBrain пытается согласовать (align) Agent-3. | |||
Поскольку Agent-3 будет использоваться внутри компании в обозримом будущем, меньше внимания уделяется обычным мерам защиты от злоупотреблений со стороны человека. Вместо этого команда хочет убедиться, что он не разовьет несогласованные (misaligned) цели. | |||
[https://ai-2027.com/research/ai-goals-forecast Исследователи не имеют возможности напрямую устанавливать цели ни для одного из своих ИИ]. Действительно, исследователи считают, что концепция «истинных целей», вероятно, является сильным упрощением, но у них нет лучшей теории, чтобы заменить ее, не говоря уже о той, которая была бы тщательно проверена. Они расходятся во мнениях внутри компании о том, пытаются ли ИИ следовать инструкциям человека, или ищут подкрепление, или что-то еще, и они не могут [https://www.lesswrong.com/posts/cxuzALcmucCndYv4a/daniel-kokotajlo-s-shortform?commentId=YYhq2PADebnt35MY2 просто проверить]. Доказательства за и против различных гипотез увлекательны, но неубедительны. | |||
правок