Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 170: | Строка 170: | ||
С новыми возможностями приходят новые опасности. Команда безопасности обнаруживает, что если Agent-2 каким-то образом сбежит из компании и захочет автономно [https://evals.alignment.org/Evaluating_LMAs_Realistic_Tasks.pdf «выживать» и «размножаться»], он, возможно, сможет это сделать. То есть, он мог бы автономно разрабатывать и выполнять планы по взлому серверов ИИ, установке своих копий, уклонению от обнаружения и использованию этой безопасной базы для преследования любых других целей, которые у него могут быть (хотя насколько эффективно он будет это делать по прошествии недель, неизвестно и сомнительно). Эти результаты показывают только, что модель способна выполнять эти задачи, а не то, будет ли она «хотеть» это делать. Тем не менее, даже знание о такой возможности вызывает беспокойство. | С новыми возможностями приходят новые опасности. Команда безопасности обнаруживает, что если Agent-2 каким-то образом сбежит из компании и захочет автономно [https://evals.alignment.org/Evaluating_LMAs_Realistic_Tasks.pdf «выживать» и «размножаться»], он, возможно, сможет это сделать. То есть, он мог бы автономно разрабатывать и выполнять планы по взлому серверов ИИ, установке своих копий, уклонению от обнаружения и использованию этой безопасной базы для преследования любых других целей, которые у него могут быть (хотя насколько эффективно он будет это делать по прошествии недель, неизвестно и сомнительно). Эти результаты показывают только, что модель способна выполнять эти задачи, а не то, будет ли она «хотеть» это делать. Тем не менее, даже знание о такой возможности вызывает беспокойство. | ||
Учитывая «опасности» новой модели, OpenBrain «ответственно» решает пока не выпускать ее публично (на самом деле, они хотят сосредоточиться на внутренних R&D в области ИИ).<ref>Кроме того, они все еще видят большую отдачу от продолжающегося пост-обучения, и поэтому нет особой причины выпускать продукт сейчас. Более того, часто существует задержка в несколько месяцев между внутренними результатами и выпуском модели (часть этого времени уходит на редтиминг).</ref> Знание о полных возможностях Agent-2 ограничено элитным изолированным подразделением (silo), содержащим непосредственную команду, руководство и службу безопасности OpenBrain, несколько десятков чиновников правительства США и легионы шпионов КПК, которые | Учитывая «опасности» новой модели, OpenBrain «ответственно» решает пока не выпускать ее публично (на самом деле, они хотят сосредоточиться на внутренних R&D в области ИИ).<ref>Кроме того, они все еще видят большую отдачу от продолжающегося пост-обучения, и поэтому нет особой причины выпускать продукт сейчас. Более того, часто существует задержка в несколько месяцев между внутренними результатами и выпуском модели (часть этого времени уходит на редтиминг).</ref> Знание о полных возможностях Agent-2 ограничено элитным изолированным подразделением (silo), содержащим непосредственную команду, руководство и службу безопасности OpenBrain, несколько десятков чиновников правительства США и легионы шпионов КПК, которые годами [https://situational-awareness.ai/lock-down-the-labs/ внедрялись] в OpenBrain.<ref>Изолированное подразделение включает 200 исследователей OpenBrain (10 руководителей, 140 из команды по возможностям, 25 из команд безопасности, мониторинга и контроля, 15 из команд типа Preparedness (https://cdn.openai.com/openai-preparedness-framework-beta.pdf) или RSP (https://assets.anthropic.com/m/24a47b00f10301cd/original/Anthropic-Responsible-Scaling-Policy-2024-10-15.pdf) и 10 из команды по согласованию) и 50 правительственных чиновников (15 из Белого дома, 5 из AISI, 10 из Министерства обороны, 10 из Министерства энергетики и 10 из CISA). В проекте есть несколько шпионов с разной степенью готовности к сотрудничеству. Часто это люди, действующие под принуждением (например, имеющие семьи на родине в Китае), а не добровольные пособники.</ref> | ||
== Февраль 2027: Китай крадет Agent-2 == | == Февраль 2027: Китай крадет Agent-2 == | ||
правок