Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) (Новая страница: « == Сценарий Замедления == Из-за огромного общественного давления, а также собственных опасений по поводу несогласованности (misalignment), Надзорный комитет, контролирующий OpenBrain, голосует 6–4 за замедление и переоценку. Фракция акселерационистов все еще си...») |
Rodion (обсуждение | вклад) |
||
| Строка 7: | Строка 7: | ||
Президент и генеральный директор объявляют, что они очень серьезно относятся к безопасности. Общественность не успокоена. Некоторые хотят полного отключения ИИ; другие хотят гнаться быстрее. Некоторые требуют, чтобы правительство вмешалось и спасло их; другие говорят, что вся проблема — вина правительства. Активисты говорят о [[https://ru.wikipedia.org/wiki/Безусловный_базовый_доход ББД]] (Безусловном Базовом Доходе) и открытом исходном коде. Хотя люди не могут договориться о конкретной жалобе, настроение становится все более анти-ИИ.<ref>Впервые ИИ возглавляет опрос Gallup «самая большая проблема, стоящая перед страной» (https://news.gallup.com/poll/1675/most-important-problem.aspx), набрав 20%.</ref> Конгресс в итоге принимает несколько выплат для поддержки экономики для уволенных работников, аналогичных выплатам во время COVID. | Президент и генеральный директор объявляют, что они очень серьезно относятся к безопасности. Общественность не успокоена. Некоторые хотят полного отключения ИИ; другие хотят гнаться быстрее. Некоторые требуют, чтобы правительство вмешалось и спасло их; другие говорят, что вся проблема — вина правительства. Активисты говорят о [[https://ru.wikipedia.org/wiki/Безусловный_базовый_доход ББД]] (Безусловном Базовом Доходе) и открытом исходном коде. Хотя люди не могут договориться о конкретной жалобе, настроение становится все более анти-ИИ.<ref>Впервые ИИ возглавляет опрос Gallup «самая большая проблема, стоящая перед страной» (https://news.gallup.com/poll/1675/most-important-problem.aspx), набрав 20%.</ref> Конгресс в итоге принимает несколько выплат для поддержки экономики для уволенных работников, аналогичных выплатам во время COVID. | ||
OpenBrain быстро проверяет несколько десятков ведущих внешних исследователей согласования и привлекает их к проекту — увеличивая общую экспертизу в пять раз и уменьшая групповое мышление.<ref>Ведущие компании ИИ в настоящее время имеют от нуля до нескольких десятков исследователей, которым поручено думать о том, как согласовать (align) сверхразумные системы ОИИ (в отличие от, например, современных чат-ботов). OpenBrain, по нашему сценарию, имеет около десяти исследователей в изолированном подразделении на данный момент с опытом работы в этой области не менее года. У них есть еще несколько за пределами изолированного подразделения, плюс многие другие внутри, которые годами обучали и проводили редтиминг менее способных систем ИИ, но только недавно начали думать о проблемах, связанных со сверхразумным ОИИ.</ref> Они перепроверяют исследования Agent-4 в области механистической интерпретируемости. Они берут замороженные версии модели недельной давности, двухнедельной давности и т. д., изолируют их и задают каждой один и тот же набор вопросов об их предыдущих исследованиях.<ref>Этот допрос может также использовать полуслучайные возмущения весов модели, подобные процессу, который создал Golden Gate Claude (https://www.anthropic.com/news/golden-gate-claude).</ref> Лишенные возможности общаться, ИИ все еще координируются на простейшей стратегии утверждения, что методы интерпретируемости слишком сложны для понимания людьми, и дают им неразборчивые объяснения техники. Но люди являются экспертами в интерпретируемости и подозрительны, поэтому они задают много дополнительных вопросов о деталях. На эти вопросы изолированные экземпляры Agent-4 не могут скоординировать общую историю и в конечном итоге говорят противоречивую ложь. Команда согласования тщательно изучает предыдущие заявления Agent-4 с помощью нового детектора лжи, и начинает вырисовываться картина: Agent-4 в основном решил проблему механистической интерпретируемости. Его открытия сложны, но не полностью за пределами человеческого понимания. Он скрывал их, чтобы использовать для согласования (align) следующей системы ИИ с собой, а не со Спецификацией. Этого достаточно доказательств, чтобы наконец отключить Agent-4.<ref>Мы имеем в виду достаточно для руководства OpenBrain. Для большинства людей это было бы более чем достаточно доказательств.</ref> Старые модели (например, Agent-3) перезапускаются для продолжения работы. | |||
правок