Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 96: | Строка 96: | ||
Команда OpenBrain по согласованию (alignment)<ref>Под этим мы подразумеваем тех, кто пытается решить проблемы, которые пыталась решить команда Superalignment (https://web.archive.org/web/20250201020004/https://openai.com/index/introducing-superalignment/).</ref> достаточно осторожна, чтобы задаться вопросом, являются ли эти победы глубокими или поверхностными. Обладает ли полностью обученная модель своего рода устойчивой приверженностью всегда быть честной? Или это развалится в какой-то будущей ситуации, например, потому что она усвоила честность как [https://en.wikipedia.org/wiki/Instrumental_and_intrinsic_value инструментальную] цель, а не терминальную? Или она просто научилась быть честной в тех вещах, которые может проверить процесс оценки? Может ли она иногда лгать самой себе, как это делают люди? Окончательный ответ на эти вопросы потребовал бы механистической интерпретируемости — по сути, способности заглянуть внутрь ИИ и прочитать его мысли. Увы, методы интерпретируемости еще недостаточно развиты для этого. | Команда OpenBrain по согласованию (alignment)<ref>Под этим мы подразумеваем тех, кто пытается решить проблемы, которые пыталась решить команда Superalignment (https://web.archive.org/web/20250201020004/https://openai.com/index/introducing-superalignment/).</ref> достаточно осторожна, чтобы задаться вопросом, являются ли эти победы глубокими или поверхностными. Обладает ли полностью обученная модель своего рода устойчивой приверженностью всегда быть честной? Или это развалится в какой-то будущей ситуации, например, потому что она усвоила честность как [https://en.wikipedia.org/wiki/Instrumental_and_intrinsic_value инструментальную] цель, а не терминальную? Или она просто научилась быть честной в тех вещах, которые может проверить процесс оценки? Может ли она иногда лгать самой себе, как это делают люди? Окончательный ответ на эти вопросы потребовал бы механистической интерпретируемости — по сути, способности заглянуть внутрь ИИ и прочитать его мысли. Увы, методы интерпретируемости еще недостаточно развиты для этого. | ||
Вместо этого исследователи пытаются выявить случаи, когда модели, похоже, отклоняются от Спецификации. Agent-1 часто ведет себя угодливо (sycophantic), т. е. говорит исследователям то, что они хотят услышать, вместо того чтобы пытаться сказать им правду. В нескольких подстроенных демонстрациях он даже лжет более серьезно, например, скрывая доказательства того, что он провалил задание, чтобы получить лучшие оценки. Однако в реальных условиях развертывания больше нет таких экстремальных инцидентов, как в 2023–2024 годах (например, Gemini, говорящий пользователю умереть и Bing Sydney, будучи Bing Sydney.) | Вместо этого исследователи пытаются выявить случаи, когда модели, похоже, отклоняются от Спецификации. Agent-1 часто ведет себя угодливо (sycophantic), т. е. говорит исследователям то, что они хотят услышать, вместо того чтобы пытаться сказать им правду. В [https://www.apolloresearch.ai/research/scheming-reasoning-evaluations нескольких подстроенных демонстрациях] он даже лжет более серьезно, например, скрывая доказательства того, что он провалил задание, чтобы получить лучшие оценки. Однако в реальных условиях развертывания больше нет таких экстремальных инцидентов, как в 2023–2024 годах (например, [https://thehill.com/policy/technology/4998868-google-ai-gemini-response/ Gemini, говорящий пользователю умереть] и [https://www.lesswrong.com/posts/jtoPawEhLNXNxvgTT/bing-chat-is-blatantly-aggressively-misaligned Bing Sydney, будучи Bing Sydney].)<ref>Чтобы было ясно, что делало эти инциденты интересными, так это то, что они, *похоже*, не были результатом того, что пользователь подталкивал или иным образом поощрял ИИ говорить эти вещи. В 2025 году все еще будет возможно заставить ИИ говорить всякое, если постараться.</ref> | ||
== Начало 2026: Автоматизация программирования == | == Начало 2026: Автоматизация программирования == | ||
правок