AI 2027: различия между версиями

Перейти к навигации Перейти к поиску
Строка 93: Строка 93:
В следующем раскрывающемся блоке будет более подробно рассказано о том, что, по нашему мнению, ''может'' происходить внутри этих ИИ. См. также наше [https://ai-2027.com/research/ai-goals-forecast дополнение к прогнозу целей ИИ], в котором более подробно рассматривается, какие цели могут быть у ИИ и почему. Это одна из многих вещей, в которых мы не уверены и которая заслуживает дальнейшего исследования.
В следующем раскрывающемся блоке будет более подробно рассказано о том, что, по нашему мнению, ''может'' происходить внутри этих ИИ. См. также наше [https://ai-2027.com/research/ai-goals-forecast дополнение к прогнозу целей ИИ], в котором более подробно рассматривается, какие цели могут быть у ИИ и почему. Это одна из многих вещей, в которых мы не уверены и которая заслуживает дальнейшего исследования.
}}
}}
Команда OpenBrain по согласованию (alignment)26 достаточно осторожна, чтобы задаться вопросом, являются ли эти победы глубокими или поверхностными. Обладает ли полностью обученная модель своего рода устойчивой приверженностью всегда быть честной? Или это развалится в какой-то будущей ситуации, например, потому что она усвоила честность как инструментальную цель, а не терминальную? Или она просто научилась быть честной в тех вещах, которые может проверить процесс оценки? Может ли она иногда лгать самой себе, как это делают люди? Окончательный ответ на эти вопросы потребовал бы механистической интерпретируемости — по сути, способности заглянуть внутрь ИИ и прочитать его мысли. Увы, методы интерпретируемости еще недостаточно развиты для этого.
Вместо этого исследователи пытаются выявить случаи, когда модели, похоже, отклоняются от Спецификации. Agent-1 часто ведет себя угодливо (sycophantic), т. е. говорит исследователям то, что они хотят услышать, вместо того чтобы пытаться сказать им правду. В нескольких подстроенных демонстрациях он даже лжет более серьезно, например, скрывая доказательства того, что он провалил задание, чтобы получить лучшие оценки. Однако в реальных условиях развертывания больше нет таких экстремальных инцидентов, как в 2023–2024 годах (например, Gemini, говорящий пользователю умереть и Bing Sydney, будучи Bing Sydney.)27
== Начало 2026: Автоматизация программирования ==

Навигация