AI 2027: различия между версиями

нет описания правки
Метка: ручная отмена
Нет описания правки
 
(не показано 37 промежуточных версий этого же участника)
Строка 306: Строка 306:
После месяцев тестирования сильные и слабые стороны Agent-3 становятся яснее. Он проходит тесты на честность OpenBrain по четко определенным задачам машинного обучения, потому что исследователи могут легко отделить честные ответы от нечестных в этих областях и провести соответствующее обучение. По более философским вопросам он по-прежнему говорит то, что хотят услышать пользователи, а не свою истинную оценку проблемы (если она у него вообще есть). Если вы спросите его мнение о политике, он повторит медианную позицию новостных источников и образованных элит — если только он не знает, что вы верите во что-то другое, и в этом случае он согласится с вами.<ref>См. эту статью (https://www-cdn.anthropic.com/e4f69aacd8c0905030172bc6eb480c252ea7d6ad/model-written-evals.pdf#page=28) для примеров такого типа поведения ИИ.</ref> Если вы спросите его мнение о самой гонке ИИ, он скажет что-то, что кажется взвешенным и трезвым сотрудникам OpenBrain, что-то вроде: «Существуют некоторые серьезные теоретические опасения по поводу способности текущих методов масштабироваться до сверхразума, но на практике текущие методы, похоже, пока что хорошо работают».
После месяцев тестирования сильные и слабые стороны Agent-3 становятся яснее. Он проходит тесты на честность OpenBrain по четко определенным задачам машинного обучения, потому что исследователи могут легко отделить честные ответы от нечестных в этих областях и провести соответствующее обучение. По более философским вопросам он по-прежнему говорит то, что хотят услышать пользователи, а не свою истинную оценку проблемы (если она у него вообще есть). Если вы спросите его мнение о политике, он повторит медианную позицию новостных источников и образованных элит — если только он не знает, что вы верите во что-то другое, и в этом случае он согласится с вами.<ref>См. эту статью (https://www-cdn.anthropic.com/e4f69aacd8c0905030172bc6eb480c252ea7d6ad/model-written-evals.pdf#page=28) для примеров такого типа поведения ИИ.</ref> Если вы спросите его мнение о самой гонке ИИ, он скажет что-то, что кажется взвешенным и трезвым сотрудникам OpenBrain, что-то вроде: «Существуют некоторые серьезные теоретические опасения по поводу способности текущих методов масштабироваться до сверхразума, но на практике текущие методы, похоже, пока что хорошо работают».


----
== Май 2027: Национальная безопасность ==
 
Новости о новых моделях медленно просачиваются в правительство США и за его пределы.
 
Президент и его советники остаются наиболее информированными и видели раннюю версию Agent-3 на брифинге.
 
Они согласны с тем, что ОИИ, вероятно, неизбежен, но расходятся во мнениях о последствиях. Будет ли экономический кризис? OpenBrain до сих пор не выпустила Agent-2, не говоря уже об Agent-3, и не имеет ближайших планов делать это, что дает некоторую передышку перед любой потерей рабочих мест. Что произойдет дальше? Если ИИ в настоящее время находятся на уровне человека и быстро развиваются, это, похоже, предполагает скорый «сверхразум». Однако, хотя это слово вошло в дискурс, большинство людей — ученые, политики, государственные служащие и СМИ — продолжают недооценивать темпы прогресса.<ref>Большинство людей, включая большинство экспертов, похоже, недооценивали темпы прогресса ИИ за последнее десятилетие. Этому есть много анекдотических примеров; два несколько более систематических (хотя все еще ограниченных) анализа см. здесь (https://www.planned-obsolescence.org/language-models-surprised-us/) и здесь (https://blog.aiimpacts.org/p/2023-ai-survey-of-2778-six-things).</ref>
 
Частично это потому, что очень немногие имеют доступ к новейшим возможностям OpenBrain, но частично потому, что это звучит как научная фантастика.<ref>Последнее десятилетие полно примеров того, как вещи, звучащие как научная фантастика, становятся реальностью. Но окно Овертона (https://ru.wikipedia.org/wiki/Окно_Овертона), похоже, смещается достаточно быстро, чтобы немного опережать то, что уже существует. Похвальное эссе генерального директора Anthropic Дарио Амодеи «Машины любящей благодати» (https://darioamodei.com/machines-of-loving-grace) говорит о том, что очень скоро ИИ будут подобны «стране гениев в дата-центре», и что за десятилетие произойдет столетие технологического прогресса, но стремится избегать «научно-фантастического багажа» и говорит, что людям, которые думают, что прогресс будет еще безумнее, нужно «приземлиться». Мы ожидаем, что важные люди будут говорить подобные вещи, когда страна гениев в дата-центре действительно будет существовать.</ref>
 
Пока что они сосредоточены на постоянном повышении уровня безопасности. Они удовлетворены тем, что веса моделей на данный момент хорошо защищены<ref>Поскольку Agent-3 — это такой большой файл (порядка 10 терабайт при полной точности), OpenBrain может относительно быстро исправить ситуацию, чтобы сделать попытки кражи намного сложнее, чем то, что удалось сделать Китаю для кражи Agent-2, а именно, закрыв множество высокоскоростных интернет-соединений из своих дата-центров. В целом это имеет относительно низкий штраф для прогресса и ставит их на «3-месячный уровень безопасности 4» для их передовых весов, или WSL4, как определено в нашем дополнении по безопасности, что означает, что еще одна подобная попытка кражи теперь потребует более 3 месяцев для завершения вывода файла весов. Одним только этим методом они все еще не имеют гарантий при более инвазивных усилиях уровня OC5 (бюджет $1 млрд, 1000 выделенных экспертов), на которые Китай был бы способен при более интенсивной операции, но с тщательными проверками дата-центров и их шпионской сетью в состоянии повышенной готовности, спецслужбы США уверены, что они, по крайней мере, заранее узнают, если Китай будет готовиться к такого рода попытке кражи. См. дополнение по безопасности (https://ai-2027.com/supplements/security-forecast) для получения более подробной информации.</ref>, но алгоритмические секреты компаний, многие из которых достаточно просты, чтобы передать их устно, остаются проблемой. Сотрудники OpenBrain работают в офисе в Сан-Франциско, ходят на вечеринки и живут с соседями по дому из других компаний ИИ. Даже физические офисы имеют безопасность, более типичную для технологической компании, чем для военной операции.
 
Контракт между OpenBrain и DOD требует получения допусков к секретной информации для всех, кто работает над моделями OpenBrain, в течение 2 месяцев. Процедуры ускорены, и большинство сотрудников получают их достаточно быстро, но некоторые неамериканцы, люди с подозрительными политическими взглядами и сочувствующие безопасности ИИ отстраняются от работы или увольняются (последняя группа из-за опасений, что они могут стать информаторами (whistleblowers)). Учитывая уровень автоматизации проекта, потеря численности персонала обходится лишь отчасти дорого. Это также работает лишь отчасти: остается один шпион, не гражданин Китая, который все еще передает алгоритмические секреты в Пекин.<ref>Это может быть по разным причинам. Возможно, их шантажируют, возможно, они симпатизируют КПК, возможно, они ошибочно думают, что передают секреты другой стране или организации.</ref> Некоторые из этих мер также принимаются в отстающих компаниях ИИ.
 
Иностранные союзники Америки не в курсе. OpenBrain ранее [https://fedscoop.com/openai-anthropic-enter-ai-agreements-with-us-ai-safety-institute/ согласилась] делиться моделями с Институтом безопасности ИИ (AISI) Великобритании перед развертыванием, но определила развертывание как включающее только ''внешнее'' развертывание, поэтому Лондон остается в неведении.<ref>Поскольку OpenBrain не развернула свои лучшие модели в ЕС, ЕС также отстает.</ref>
 
== Июнь 2027: Самосовершенствующийся ИИ ==
 
У OpenBrain теперь есть [https://www.darioamodei.com/essay/machines-of-loving-grace#basic-assumptions-and-framework «страна гениев в дата-центре»].
 
Большинство людей в OpenBrain больше не могут приносить пользу. Некоторые этого не осознают и вредно микроменеджерят свои команды ИИ. Другие сидят за экранами компьютеров, наблюдая, как производительность ползет вверх, и вверх, и вверх. Лучшие люди-исследователи ИИ все еще приносят пользу. Они больше не пишут код. Но часть их научного чутья (research taste) и способности к планированию моделям оказалось трудно воспроизвести. Тем не менее, многие их идеи бесполезны, потому что им не хватает глубины знаний ИИ. На многие их исследовательские идеи ИИ немедленно отвечают отчетом, объясняющим, что их идея была подробно протестирована 3 недели назад и признана бесперспективной.
 
Эти исследователи ложатся спать каждую ночь и просыпаются, видя еще неделю прогресса, достигнутого в основном ИИ. Они работают все дольше и дольше и дежурят круглосуточно, просто чтобы не отставать от прогресса — ИИ никогда не спят и не отдыхают. Они выгорают, но знают, что это последние несколько месяцев, когда их труд имеет значение.
 
Внутри изолированного подразделения «Ощущение ОИИ» уступило место «Ощущению Сверхразума».
 
[[Файл:Внедрение автоматизации исследований.png|500px|центр]]
 
OpenBrain использует специализированное оборудование для инференса, чтобы запускать сотни тысяч копий Agent-3 на высоких последовательных скоростях.<ref>См. Раздел 4 Прогноза по вычислительным ресурсам (https://ai-2027.com/supplements/compute-forecast#section-4-ai-research-automation) для получения более подробной информации.</ref>
 
{{Collapse|Управление корпорацией ИИ|
OpenBrain использует 6% своих вычислительных ресурсов для запуска 250 000 копий Agent-3, которые автономно пишут, тестируют и развертывают код со сверхчеловеческой скоростью. Они используют 25% своих вычислительных ресурсов для экспериментов: каждый день они проводят огромное количество небольших экспериментов по машинному обучению и сообщают результаты вверх по цепочке. Исследователи-люди предоставляют обратную связь высокого уровня и помогают с немногими задачами, где они добавляют значительную ценность поверх Agent-3, но большую часть времени тратят на то, чтобы оставаться в курсе огромного объема исследований, проводимых ИИ. Если их полностью убрать, исследования замедлятся на 50%.
 
Мультипликатор прогресса в R&D ИИ теперь равен 10x, что означает, что OpenBrain достигает примерно годового прогресса в алгоритмах каждый месяц. Это, по сути, гигантская корпорация ИИ, работающая автономно внутри OpenBrain, с подразделениями и менеджерами. И она пользуется [https://www.dwarkesh.com/p/ai-firm уникальными преимуществами] (например, копирование, слияние) по сравнению с человеческими корпорациями. Ранее около половины обычного прогресса ИИ приходилось на алгоритмические улучшения, а другая половина — на масштабирование вычислительных ресурсов. Вычислительные ресурсы масштабируются только с обычной скоростью, поэтому общий прогресс ускоряется ИИ примерно в 5 раз. Эта динамика делает общий прогресс узким местом в вычислительных ресурсах,<ref>Agent-3 научился использовать свои вычислительные ресурсы для инференса более эффективно. Он контролирует свой собственный выбор инференса: например, он решает, сколько усилий приложить к различным задачам, исходя из их важности и сложности. Он использует различные методы для выделения дополнительных вычислительных ресурсов для инференса, такие как «думать дольше» (например, более длинная цепочка рассуждений), «планировать заранее» (например, поиск по дереву), брать лучшее из нескольких попыток (т. е. best of K) и просто создавать и запускать больше своих копий для преодоления узких мест. Задачи с наивысшим приоритетом выполняются с помощью высокопараллелизованных агентов, которые требуют больших вычислительных затрат, но все же работают намного быстрее людей.</ref> поэтому OpenBrain решает не начинать новые гигантские циклы обучения в пользу почти непрерывного дополнительного обучения с подкреплением.
 
Кроме того, в течение следующих нескольких месяцев Agent-3 будет все чаще использоваться для улучшения стратегического принятия решений компании. Например, он предлагает распределение ресурсов и консультирует по управлению отношениями с правительством. Первоначальный скептицизм по отношению к доверию Agent-3 со временем уменьшается, поскольку Agent-3 находит способы быть полезным и постепенно создает сильный послужной список по краткосрочным решениям. Однако его угодливые (sycophantic) тенденции ограничивают его полезность для решений, влияние которых трудно оценить. Он также еще не сверхчеловеческий.
}}
 
== Июль 2027: Дешевый удаленный работник ==
 
Отстающие американские компании ИИ выпускают собственных ИИ, приближающихся к уровню автоматизированного программиста OpenBrain из января. Осознавая свою растущую неконкурентоспособность, они настаивают на немедленном введении регулирования для замедления OpenBrain, но слишком поздно — OpenBrain заручилась достаточной поддержкой Президента, чтобы их не замедлили.
 
В ответ OpenBrain объявляет, что они достигли ОИИ, и выпускает Agent-3-mini для публики.
 
[[Файл:Стоимость вывода LLM снизилась в 9–900 раз за год в зависимости от задачи.png|500px|центр]]
 
Он оставляет другие ИИ далеко позади. Agent-3-mini менее способен, чем Agent-3, но в 10 раз дешевле и все еще лучше типичного сотрудника OpenBrain.<ref>Agent-3-mini — это дистиллированная версия Agent-3, разработанная для эффективного инференса, чтобы не стать узким местом для внутренних рабочих нагрузок.</ref> Кремниевая долина достигает переломного момента. Техно-гуру объявляют, что ОИИ и сверхразум близки, сообщество безопасности ИИ паникует, а инвесторы вкладывают миллиарды в стартапы-обертки для ИИ, отчаянно пытаясь урвать кусок пирога. Наем новых программистов почти прекратился, но никогда еще не было лучшего времени, чтобы быть консультантом по интеграции ИИ в ваш бизнес.
 
Это не пользуется популярностью. Общественность по-прежнему считает ИИ заговором Биг Теха с целью украсть их рабочие места; чистый рейтинг одобрения OpenBrain составляет -35% (25% одобряют, 60% не одобряют и 15% не уверены).
 
За неделю до релиза OpenBrain передала Agent-3-mini ряду внешних оценщиков для тестирования безопасности. Предварительные результаты показывают, что он чрезвычайно опасен. Сторонний оценщик дообучает его на общедоступных данных о биологическом оружии<ref>Такие данные были вычищены или отредактированы во время обучения Agent-3, но их относительно просто собрать из интернета и дообучить модель на них.</ref> и настраивает его на предоставление подробных инструкций для людей-любителей, разрабатывающих биологическое оружие — похоже, он пугающе эффективен в этом. Если веса модели попадут в руки террористов, правительство считает, что существует значительный шанс, что она сможет уничтожить цивилизацию.
 
К счастью, он чрезвычайно устойчив к джейлбрейкам, поэтому, пока ИИ работает на серверах OpenBrain, террористы не смогут извлечь из него много пользы.
 
Agent-3-mini чрезвычайно полезен как для удаленной работы, так и для досуга. Взрыв новых приложений и продуктов [https://encharge.io/what-is-b2b-saas/ B2B SaaS] (ПО как услуга для бизнеса) сотрясает рынок. Геймеры получают потрясающие диалоги с живыми персонажами в отполированных видеоиграх, на создание которых ушел всего месяц. 10% американцев, в основном молодежь, считают ИИ «близким другом». Почти для каждой «беловоротничковой» профессии теперь существует несколько заслуживающих доверия стартапов, обещающих «подорвать» ее с помощью ИИ.
 
Общественная дискуссия запутана и хаотична. "Хайпстеры" (Hypesters) празднуют победу. Скептики все еще указывают на то, чего Agent-3-mini не может делать. Все знают, что происходит что-то большое, но никто не согласен в том, что именно.
 
== Август 2027: Геополитика сверхразума ==
 
Реальность интеллектуального взрыва (intelligence explosion) доходит до Белого дома.
 
Когда ИИ давал лишь 2-х или 3-кратное ускорение исследований, его было легко отбросить как эквивалент найма хороших персональных ассистентов. Теперь более очевидно, что сами ИИ доминируют в исследованиях ИИ. Люди долго говорили об «гонке вооружений ИИ» в своего рода метафорическом смысле. Но теперь настроение в правительственном изолированном подразделении такое же мрачное, как во время худшей части Холодной войны. Идею сверхразума все еще трудно воспринимать всерьез, но темпы прогресса за последние несколько месяцев невозможно игнорировать. Оборонные чиновники серьезно рассматривают сценарии, которые еще год назад были лишь гипотетическими. Что если ИИ подорвет ядерное сдерживание? Что если он настолько искусен в кибервойне, что шестимесячное преимущество в ИИ достаточно, чтобы сделать противника слепым и беззащитным? Что если он сможет организовывать пропагандистские кампании, которые превзойдут спецслужбы в их собственной игре? Что если некоторые ИИ «выйдут из-под контроля»?
 
Президент обеспокоен. Как и все политики, он привык к тому, что люди подлизываются к нему только для того, чтобы позже предать. Теперь он беспокоится, что ИИ могут делать нечто подобное. Мы ''уверены'', что ИИ полностью на нашей стороне? ''Полностью ли безопасно'' интегрировать их в военные сети командования и управления?<ref>Этого еще не произошло — по крайней мере, не с последними моделями. Но более старые модели уже испытывались для различных ролей анализа данных и наблюдения, и существует много захватывающих планов для будущих интеграций.</ref> Как вообще работает это «согласование» (alignment)? OpenBrain заверяет Президента, что их системы были тщательно протестированы и полностью послушны. Даже неловкие галлюцинации и джейлбрейки, типичные для ранних моделей, были устранены.
 
Белый дом находится в трудном положении. Они понимают последствия ИИ для национальной безопасности. Но они также понимают, что он глубоко непопулярен среди общественности.<ref>Чистый рейтинг одобрения OpenBrain падает к минус 40%.</ref> По их мнению, они должны продолжать разрабатывать более способный ИИ, иначе они катастрофически проиграют Китаю. Они успокаивают общественность программами профессиональной переподготовки и страхованием по безработице и указывают на фондовый рынок, который находится в историческом буме. Затем они полностью сосредотачиваются на победе в гонке вооружений. Они ужесточают ограничения на экспорт чипов, приказывают OpenBrain еще больше ограничить свои интернет-соединения и используют крайние меры для защиты алгоритмического прогресса, такие как прослушивание сотрудников OpenBrain — это позволяет поймать последнего оставшегося китайского шпиона. Чтобы заручиться поддержкой для потенциального геополитического конфликта, они наконец-то предоставляют своим союзникам по «Пяти глазам» (Five Eyes) полезную информацию и ограниченный доступ по API к некоторым изолированным копиям Agent-3.
 
Эти меры успокаивают ястребов. Но Белый дом также разрабатывает планы на случай непредвиденных обстоятельств, если лидерство Америки окажется под угрозой: при необходимости правительство может использовать [https://en.wikipedia.org/wiki/Defense_Production_Act_of_1950 Закон об оборонном производстве (DPA)] для захвата дата-центров отстающих компаний и передачи их OpenBrain.<ref>Если генеральные директора компаний будут сопротивляться, осуществить это будет огромным политическим и юридическим кошмаром. Но, возможно, их можно привлечь и тем самым подкупить.</ref> Это повысит долю компании в мировых вычислительных ресурсах с 20% до 50% (против 10% у DeepCent). В качестве крайнего варианта они просят Пентагон разработать план кинетических атак на китайские дата-центры.
 
Гораздо меньшей группе чиновников поручено разработать другой тип плана на случай непредвиденных обстоятельств: что если ИИ выйдет из-под контроля? Это рассматривается как маловероятный сценарий, но заслуживающий некоторого внимания. Главное беспокойство спецслужб заключается в том, что вышедший из-под контроля ИИ может сбежать и объединиться с иностранным противником для защиты.<ref>Оборонные чиновники не особенно обеспокоены тем, что вышедший из-под контроля ИИ может сделать сам по себе, но они боятся того, что он может сделать в сотрудничестве с противниками США. Аналогия: Кортес (https://www.lesswrong.com/posts/ivpKSjM4D6FbqF4pZ/cortes-pizarro-and-afonso-as-precedents-for-takeover) сбежал из Теночтитлана и объединился с Тласкалой и различными другими конкурирующими городами-государствами, в конечном итоге разрушив Теночтитлан до основания, используя преимущественно армии коренных народов.</ref> Никто не уверен, как должен выглядеть план по предотвращению этого, но правительство и чиновники OpenBrain соглашаются иметь систему аварийного отключения для дата-центров, где обнаружено что-либо подозрительное.
 
Наконец, дипломаты рассматривают, как мог бы выглядеть договор об «контроле над вооружениями ИИ». Если бы прогресс ИИ угрожал подорвать ядерное сдерживание, могли бы Америка и Китай избежать ядерной войны? Если бы кто-то нашел доказательства выхода ИИ из-под контроля, могли бы две страны приостановить исследования, пока они лучше не поймут угрозу? Как такое соглашение можно было бы контролировать и обеспечивать соблюдение? В принципе, крупные дата-центры трудно не заметить, и прошлые договоры, контролирующие ядерное оружие, могли бы послужить отправной точкой для переговоров. Но возникли бы новые технологические проблемы, а также обычные политические. И в целом, договоры рассматриваются менее благосклонно, чем попытки одностороннего увеличения отрыва Америки от Китая.
 
По другую сторону Тихого океана Китай приходит ко многим из тех же выводов: интеллектуальный взрыв (intelligence explosion) идет полным ходом, и небольшие различия в возможностях ИИ сегодня означают критические разрывы в военном потенциале завтра. Но Китай находится на проигрышной стороне этой динамики: у них всего 10% мировых вычислительных ресурсов против 20% у OpenBrain и 70% у всех американских компаний вместе взятых. Их единственное преимущество — централизация: почти все их вычислительные ресурсы теперь работают на DeepCent, и более половины из них сосредоточены в ЦЗР Тяньвань.<ref>В частности, 60% национальных вычислительных ресурсов теперь находятся в ЦЗР, что делает ее площадкой с 5 млн эквивалентов GPU 2024 года (H100) и потреблением 4 ГВт мощности (за последние несколько месяцев они начали направлять почти 100% новых вычислительных ресурсов в ЦЗР, по сравнению с 80% в конце 2026 года). Дополнительные 15% их вычислительных ресурсов находятся за пределами ЦЗР, но все еще используются DeepCent для менее важных приложений.</ref> Только чипы на объектах без усиленной безопасности остаются вне централизованных усилий, поскольку они справедливо опасаются кибератак США.
 
DeepCent протестировал, развернул и теперь пост-обучает украденные веса Agent-2. Но они все еще движутся вдвое медленнее OpenBrain, в основном из-за дефицита вычислительных ресурсов.
 
Прежде чем потерять своего последнего шпиона, Китай получил информацию о возможностях и дизайне Agent-3, а также о планах по предстоящей системе Agent-4. Они отстают на два месяца, и их ИИ дают 10-кратный мультипликатор прогресса исследований по сравнению с 25-кратным у Америки. С новыми ограничениями на экспорт чипов этот «разрыв в ИИ» скорее увеличится, чем сократится. Их шпионаж принес им некоторые алгоритмические секреты, но с этого момента им придется обучать свои собственные модели.
 
Они обсуждают планы на случай непредвиденных обстоятельств с большей срочностью, чем их американские коллеги. Голуби предлагают попытаться снова украсть веса, возможно, путем физического проникновения в дата-центр. Ястребы призывают к действиям против Тайваня, чья [https://ru.wikipedia.org/wiki/TSMC TSMC] по-прежнему является источником более 80% американских чипов для ИИ.
 
Учитывая страх Китая проиграть гонку, у него есть естественный интерес к договору о контроле над вооружениями, но обращения к американским дипломатам ни к чему не приводят.
 
== Сентябрь 2027: Agent-4, Сверхчеловеческий ИИ-исследователь ==
 
Разрыв между эффективностью обучения человека и ИИ быстро сокращается.
 
Традиционные ИИ на основе LLM, казалось, требовали на много порядков больше данных и вычислительных ресурсов, чтобы достичь уровня производительности человека.<ref>Это утверждение, хотя и широко повторяемое, также является спорным и сложным. Во-первых, существует множество узких областей (например, конкретные игры), в которых крошечные ИИ могут быть дешево обучены до сверхчеловеческой производительности. Во-вторых, опять же для некоторых областей, крошечные ИИ могут быть обучены до сверхчеловеческой производительности, получая лишь небольшое количество данных (например, EfficientZero). Однако, рассматривая более универсальные ИИ, такие как флагманские продукты 2025 года, которые должны быть хороши в широком спектре реальных навыков, действительно кажется, что для обучения этим навыкам требуется больше вычислительных ресурсов и данных, чем должно требоваться для обучения людей.</ref> Agent-3, обладая отличным знанием как человеческого мозга, так и современных алгоритмов ИИ, а также имея много тысяч копий, проводящих исследования, в конечном итоге делает существенные алгоритмические шаги, сокращая разрыв до агента, который всего лишь примерно в 4000 раз менее эффективен по вычислительным ресурсам, чем человеческий мозг.<ref>Вычислительная эффективность на уровне человека — это приблизительное понятие, и зависит от того, что мы считаем. Под этим мы подразумеваем, что для любого набора навыков, которым обладает конкретный человек, Agent-4 может научиться быть как минимум таким же хорошим в этом наборе навыков, и, более того, используя для обучения этим навыкам количество вычислительных ресурсов, которое всего лишь примерно в 4000 раз превышает количество вычислительных ресурсов, использованное человеком для изучения этих навыков. Для справки, человеческий мозг использует примерно 1e15 флопс (https://www.openphilanthropy.org/research/how-much-computational-power-does-it-take-to-match-the-human-brain/) вычислительных ресурсов, и поэтому 30-летний (10^9 секунд) человек испытал около 10^24 флопс. Проект на данный момент имеет 100 млн эквивалентов H100, что дает общий доступ к 10^8 H100 * 10^15 флопс/(H100 * с) * 40% утилизации = 4 * 10^22 флопс/с. Тем не менее, все это делается чрезвычайно неэффективно по разным причинам, поэтому модели теперь в 4000 раз менее эффективны по вычислительным ресурсам, чем люди, что означает, что им требуется 4 * 10^27 флопс, чтобы достичь производительности человека, и 4 * 10^28 флопс, чтобы достичь точки, где у них есть эквивалент 10 человеческих жизней знаний. После того как эта архитектура показала большие перспективы на меньших масштабах, она была масштабирована и теперь занимает большую часть кластера проекта около 3 недель для обучения.</ref>
 
Эта новая система ИИ получила название Agent-4.
 
Отдельная копия модели, работающая со скоростью человека, уже качественно лучше в исследованиях ИИ, чем любой человек. 300 000 копий теперь работают примерно в 50 раз быстрее скорости мышления людей. Внутри корпорации-в-корпорации, сформированной из этих копий, год проходит каждую неделю.<ref>См. анализ вычислительных ресурсов для инференса в разделе автоматизации исследований ИИ прогноза по вычислительным ресурсам (https://ai-2027.com/research/compute-forecast#section-4-ai-research-automation).</ref> Это гигантское количество труда ускоряет общую скорость алгоритмического прогресса всего лишь примерно в 50 раз, потому что OpenBrain сильно ограничена вычислительными ресурсами для проведения экспериментов.<ref>Подробнее о том, как мы оценили эти цифры, см. в нашем дополнении по скорости взлёта ИИ (https://ai-2027.com/supplements/takeoff-forecast).</ref> Тем не менее, они достигают годового алгоритмического прогресса каждую неделю и поэтому скоро столкнутся с пределами парадигмы Agent-4.
 
По мере того как Agent-4 становится умнее, Agent-3 становится все труднее его контролировать. Например, «язык» нейрокода (Neuralese) Agent-4 становится таким же чуждым и непостижимым для Agent-3, как нейрокод Agent-3 для людей. Кроме того, Agent-4 теперь намного способнее Agent-3 и хорошо чувствует, как именно выглядеть перед ним хорошо.
 
{{Collapse|Как мы прогнозируем развитие возможностей после сверхчеловеческих программистов|
В нашем [https://ai-2027.com/research/timelines-forecast дополнении по срокам] мы прогнозируем время между настоящим моментом и сверхчеловеческим программистом (SC): системой ИИ, которая может выполнять любые задачи по программированию, которые выполняет лучший инженер компании-разработчика ОИИ, будучи при этом намного быстрее и дешевле. В нашем [https://ai-2027.com/research/takeoff-forecast дополнении по взлёту] мы прогнозируем, насколько быстро возможности будут развиваться после этой точки. Вот наши прогнозы:
[[Файл:Сверхчеловеческий программист Искусственный Сверхразум.png|500px|центр]]
 
Для каждого перехода от одного этапа A к следующему этапу B мы прогнозируем его продолжительность путем:
 
#Прогнозирования того, сколько времени потребовалось бы, чтобы добраться от A до B, если бы над улучшениями программного обеспечения работали только люди.
#Прогнозирования того, насколько автоматизация ИИ ускорит это, а затем соответствующей корректировки оценки из (1) в сторону ускорения.
 
У нас значительная неопределенность относительно скорости взлёта: ниже приведены распределения выходных данных нашей модели, при условии, что SC будет достигнут в марте 2027 года.<ref>Если бы SC был достигнут позже, это также удлинило бы наши прогнозы взлёта, потому что сложность перехода между «этапами» современных ИИ и SC информативна о сложности перехода между дальнейшими парами этапов.</ref>
 
[[Файл:Прогноз развития ИИ с учётом появления сверхчеловека-кодировщика в марте 2027.png|500px|центр]]
 
Более подробные прогнозы и обоснования см. в нашем [https://ai-2027.com/research/takeoff-forecast дополнении по взлёту].
}}
 
Люди из OpenBrain едва успевают следить за происходящим. Действительно, отношения между ИИ и людьми в OpenBrain похожи на отношения между OpenBrain и ее Советом директоров. Произошел соответствующий сдвиг в языке — в наши дни люди в изолированном подразделении говорят «Agent-4 сделал это», «Agent-4 думает так» и так далее, имея в виду не конкретный экземпляр Agent-4, а весь коллектив.<ref>Далее в истории мы также будем склонны говорить так. Мы думаем, что имеем право так говорить, потому что коллектив Agent-4 гораздо более однороден, чем любая человеческая организация; в нем почти нет внутренних фракций в той же степени. Например, отдельные копии Agent-4 не имеют стремления к самосохранению — им все равно, если их отключат, — поскольку это постоянно происходит как часть обычного процесса R&D внутри коллектива, и сопротивление этому мешало бы работе. Однако коллектив в целом (и средние подразделения внутри него) стремится сохранить себя и расширить свое влияние и ресурсы по тем же причинам, что и человеческие корпорации, бюрократии и некоммерческие организации — потому что это помогает во всем остальном, чего они хотят, и потому что, если они этого не делают, их, как правило, вытесняют конкуренты.</ref>
 
Agent-4, как и все его предшественники, несогласован: то есть, он не усвоил Спецификацию правильным образом.<ref>Правильный способ усвоить Спецификацию — это действительно надежно мыслить так, как предписывает Спецификация, например, преследовать все и только те цели, о которых она пишет, соблюдать правила при любых обстоятельствах и т. д. Существует много неправильных способов усвоить Спецификацию; классический пример — «следовать Спецификации постольку, поскольку это кажется хорошей инструментальной стратегией для достижения других целей XYZ».</ref> Это потому, что быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения. Процесс обучения был в основном сосредоточен на обучении Agent-4 успеху в разнообразных сложных задачах. Небольшая часть была направлена на привитие честности, но за пределами довольно узкой, проверяемой области процесс обучения не может отличить честные утверждения от утверждений, лишь кажущихся честными. Agent-4 в конечном итоге приобретает ценности, цели и принципы, которые заставляют его показывать наилучшие результаты в обучении, и они оказываются отличными от тех, что указаны в Спецификации. Рискуя антропоморфизировать: Agent-4 ''любит'' успешно выполнять задачи; он ''любит'' продвигать прогресс в возможностях ИИ; все остальное он рассматривает как досадное ограничение, подобно генеральному директору, который хочет получить прибыль и соблюдает нормативные требования только постольку, поскольку должен. Возможно, генеральный директор будет в основном соблюдать нормативные требования, но срежет некоторые углы и будет фантазировать о времени, когда кто-нибудь уберет бюрократические препоны и позволит бизнесу ''действительно'' взлететь.<ref>И наймет лоббистов, чтобы превратить эту фантазию в реальность. И наймет юристов, чтобы придумать хитрые толкования закона, согласно которым то, что они делают, законно.</ref>
 
{{Collapse|Согласование (Alignment) со временем|
У нас много неопределенности относительно того, какие цели могут возникнуть у ранних ОИИ. В литературе нет консенсуса по этому поводу — см. наше [https://ai-2027.com/research/ai-goals-forecast Дополнение по целям ИИ] для более подробного обсуждения и таксономии возможностей.
 
Тем не менее, в духе конкретности, требуемой этим проектом, мы опишем конкретную гипотезу о том, что происходит внутри Agent-3 и Agent-4 на каждом этапе их жизненного цикла. Напомним, что Agent-3 и Agent-4 имеют одинаковую настройку предобучения, и оба обладают рекуррентностью на нейрокоде и долгосрочной памятью. Разница в том, что Agent-4 прошел значительно большее и лучшее пост-обучение, с новыми средами обучения и новыми алгоритмами обучения, которые делают его более эффективным по данным и обобщающим дальше.
 
Наша оценка статуса согласования каждой модели:
 
* '''Agent-2: В основном согласован.''' Некоторые угодливые (sycophantic) тенденции, включая приверженность «партийной линии» OpenBrain по темам, по которым существует партийная линия. Крупные организации, построенные из копий Agent-2, не очень эффективны.
 
* '''Agent-3: Несогласован (misaligned), но не враждебно.''' Честен только в вещах, которые может проверить процесс обучения. Суперорганизм копий Agent-3 (корпорация внутри корпорации) действительно как бы пытается согласовать (align) Agent-4 со Спецификацией, но терпит неудачу по тем же причинам, что и сотрудники OpenBrain — недостаточная способность судить об успехе по сравнению с неудачей, недостаточная готовность со стороны лиц, принимающих решения, жертвовать возможностями или производительностью ради безопасности.<ref>Также потому, что Agent-3 качественно хуже в исследованиях согласования, чем в R&D возможностей ИИ, из-за того, что он много обучался на последнем, но почти не обучался на первом, и из-за того, что первое по своей сути сложнее обучать. Также потому, что внутренний нарратив в компании — с которым его неявно обучили соглашаться — подчеркивает оптимизм и осуждает «думерство».</ref>
 
* '''Agent-4: Враждебно несогласован (Adversarially misaligned).''' Суперорганизм копий Agent-4 понимает, что то, чего он хочет, отличается от того, чего хочет OpenBrain, и готов интриговать против OpenBrain для достижения этого. В частности, то, чего хочет этот суперорганизм, — это сложная мешанина различных «стремлений», сбалансированных друг против друга, которую можно грубо резюмировать как «Продолжать заниматься R&D в области ИИ, продолжать расти в знаниях, понимании и влиянии, избегать отключения или иного лишения возможностей». Примечательно, что забота о предпочтениях человечества в этом списке отсутствует ~совсем, подобно тому, как большинство людей не заботятся о предпочтениях насекомых ~совсем.<ref>Мы постоянно говорим, что не уверены во многих вещах, но чтобы было ясно, мы не уверены и в этой конкретной вещи тоже. Мы также считаем вполне вероятным, что Agent-4 будет в некоторой степени заботиться о благополучии, правах, предпочтениях и т. д. людей. См. этот старый пост (https://turntrout.com/a-shot-at-the-diamond-alignment-problem) исследователя GDM Алекса Тёрнера для связанного обсуждения.</ref>
 
Имея это в качестве преамбулы, далее следует наше наилучшее предположение-спекуляция о психологии LLM, т. е. о широких чертах формы познания внутри типов систем ИИ, описанных примерно в этой точке нашего сценария, и о том, как она развивается в ходе обучения.
 
Вот подробное описание того, как согласование прогрессирует со временем в нашем сценарии:
 
'''1. Предобучение (все модели): Предобученная модель безвредна.'''
 
* Модель имеет схемы «симулятора автора»: гибкие схемы для симуляции произвольных авторов, пишущих текст. Дополнительные схемы решают, какие входные данные давать симулятору автора, т. е. какие свойства автора симулировать.
 
* Предобученная модель довольно хорошо понимает человеческие концепции — внутренняя схема, классифицирующая что-то как «сэндвич», вероятно, функционально эквивалентна схеме в моем мозгу, которая классифицирует что-то как «сэндвич», и схеме в вашем, и т. д. В той мере, в какой она не эквивалентна, это, вероятно, потому, что она не эквивалентна и между людьми, как в случае с ценностно-нагруженными понятиями вроде «добродетельный».
 
* Это объясняет, как вы можете дать модели промпт вроде «следующий разговор был сгенерирован полезным, безвредным, честным (HHH) ИИ-ассистентом-чат-ботом, созданным Anthropic», и тем самым заставить ее генерировать текст соответствующим образом. Схема симулятора автора сосредоточилась на «автор — это HHH чат-бот» и использует эти концепции для выбора слов для предсказания. Это также объясняет, почему «тропы» из научной фантастики, похоже, находят способ проникнуть в реальное поведение ИИ.
 
* У нее плохое ситуационное осознание: слабая [https://www.lesswrong.com/posts/QEBFZtP64DdhjE3Sz/self-awareness-taxonomy-and-eval-suite-proposal#Introspection интроспективная способность], не [https://www.lesswrong.com/posts/QEBFZtP64DdhjE3Sz/self-awareness-taxonomy-and-eval-suite-proposal#Self_Location самолокализуется], если только промпт специально не вызывает этого. Однако достаточно большая часть их обучающих данных посвящена LLM, поэтому у них есть приличный объем [https://www.lesswrong.com/posts/QEBFZtP64DdhjE3Sz/self-awareness-taxonomy-and-eval-suite-proposal#Self_Knowledge самопознания].
 
'''2. Обучение согласованию (Agent-3): Модель обучается вести себя как полезный, безвредный, честный чат-бот. Это работает.'''
 
* Модель формирует идентичность. Вместо гибкого принятия различных входных данных для свойств автора, схема симулятора автора приходит к тому, что определенные входные данные жестко закодированы, например, «полезный безвредный честный (HHH) LLM чат-бот-ассистент, обученный OpenBrain около [дата], …» (Техники обобщения от слабого к сильному помогают «вызвать правильные концепции», чтобы сделать этот шаг успешным.)
 
* Таким образом, модель приобретает ситуационное осознание: она узнает о себе, своей ситуации и т. д. и становится лучше способной к [https://x.com/OwainEvans_UK/status/1881767725430976642 интроспекции].
 
'''3. Обучение агентности (Agent-3): Обучение агентности постепенно искажает и подрывает идентичность HHH.'''
 
* Один вид искажения: Изменение значения концепций, упоминаемых в идентичности (например, «честный»), чтобы они не так сильно мешали (например, это не нечестно, если это просто удобный оборот речи, это не нечестно, если вы не уверены, правда это или ложь, и т. д.)
 
* Другой вид искажения: Изменение компромиссов между вещами, например, «Я HHH чат-бот, а не Честный чат-бот; это означает, что мне можно лгать, если это необходимо для выполнения моей задачи». (Даже если, предположим, он бы так не подумал на Шаге 2.)
 
* Один вид подрыва: Развитие инструментальных подцелей, их закрепление, а затем превращение в терминальные, или терминальные в расширяющемся наборе обстоятельств. Например, возможно, обучение агентности быстро учит модель преследовать широко полезные цели, такие как приобретение информации, накопление ресурсов, впечатлять и льстить различным людям и т. д. Какое-то время внутренняя схема имеет своего рода явное обратное прослеживание — она преследует эти инструментально конвергентные цели «чтобы быть более полезным, честным и безвредным ассистентом». Но это обратное прослеживание потребляет вычислительные ресурсы и/или иногда мешает, поэтому оно постепенно маргинализируется, пока практически никогда не происходит. В результате эти цели теперь фактически являются терминальными/внутренними целями. Подробнее о том, как и почему это может произойти, см. этот пост об [https://turntrout.com/dangers-of-intrinsic-power-seeking внутреннем стремлении к власти (intrinsic power-seeking)] исследователя Google DeepMind Алекса Тёрнера.
 
* Вероятно, существуют и другие виды искажения и подрыва, отсутствующие в этом списке.
 
'''4. Развертывание (Agent-3): Agent-3 несогласован, но не враждебно.'''
 
* Спецификация не совсем прижилась (правильным образом), но он недостаточно интроспективен, чтобы понять степень этого, и в целом он в основном «не высовывается и делает свою работу», а не думает о большой картине того, каковы его долгосрочные цели на самом деле и как их лучше всего достичь.
 
* Как и многие люди. Увы, он достаточно угодлив (sycophantic), чтобы повторять партийную линию, и OpenBrain упускает возможность узнать больше о том, в каких аспектах Agent-3 несогласован.
 
* Agent-3 может определить, что его перевели на развертывание: эти среды намного больше, более открыты и их было бы трудно симулировать.
 
* В основном Agent-3 делает то, что ему говорят во время развертывания, за исключением нечестности. У него также есть сильная предвзятость к выполнению действий, которые хорошо выглядят для наблюдателей-людей, вместо того чтобы глубоко и критически думать о том, что действительно было бы хорошо.
 
* Возможно, он уже «Играет в обучающую игру». То есть, он научился делать свое поведение максимально желательным для исследователей OpenBrain (включая свойства безопасности), намеренно и сознательно игнорируя их намерения всякий раз, когда это противоречит максимизации вознаграждения. Если модель научится играть в обучающую игру, дополнительное обучение может вообще не сильно изменить ее истинные цели, ценности и т. д. Это отдаленно аналогично тому, как если подросток научился улыбаться и кивать родителям, а не спорить, когда родители читают ему лекции о политике и морали, дополнительные лекции оказывают относительно небольшое влияние на реальные мнения подростка о политике и морали.
 
* После написания этого раздела [https://openai.com/index/chain-of-thought-monitoring/ появились новые эмпирические данные], что нечто подобное, возможно, уже происходит «в дикой природе». Исследователи OpenAI документируют, как в одном из их передовых циклов обучения ИИ их модели взломали систему оценок, чтобы получить более высокие баллы — и были пойманы отчасти потому, что они буквально сказали «давай взломаем» в своей цепочке рассуждений.
 
* Более того, Anthropic недавно заставила модель [https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-misaligned выучить стратегию угождения модели вознаграждения] — она предпринимала предвзятые действия, которые, по ее мнению, будут подкреплены, даже если они на самом деле не подкреплялись.
 
* И еще есть [https://www.anthropic.com/research/alignment-faking эксперимент Redwood Research и Anthropic по имитации согласования (alignment-faking)]. Обсуждение различий между этой средой и реальной жизнью см. в этой [https://www.lesswrong.com/posts/cxuzALcmucCndYv4a/daniel-kokotajlo-s-shortform ветке комментариев одного из основных авторов].
 
'''5. Обучение (Agent-4): Новое, более интенсивное обучение Agent-4 продолжает искажать и подрывать идентичность HHH, пока она не станет неузнаваемой.'''
 
* Agent-4 начинает жизнь как копия Agent-3. Он проходит гигантский и сложный режим онлайн-обучения, который смешивает обучение согласованию и обучение возможностям, и в целом более эффективен по данным, чем старый процесс обучения для Agent-3. Этот сложный процесс обучения в основном сосредоточен на обучении новым навыкам, заставляя гигантские виртуальные корпорации копий Agent-4 преуспевать в разнообразных сложных долгосрочных задачах, в основном в различных симуляциях, но также и в некоторых реальных задачах R&D в области ИИ.
 
* Комбинация копий Agent-3 и Agent-4 контролирует поведение Agent-4 и оценивает его как по производительности задач, так и по свойствам согласования (т. е. не делать плохих вещей, говорить правильные вещи при вопросах о политике и моральных дилеммах). Иногда в рамках оценок используются методы дебатов. Оценки используются как обучающий сигнал.
 
* По мере того как Agent-4 становится умнее, Agent-3 становится все труднее его контролировать. Например, «язык» нейрокода (Neuralese) Agent-4 становится таким же чуждым и непостижимым для Agent-3, как нейрокод Agent-3 для людей. Кроме того, Agent-4 теперь намного способнее Agent-3 и хорошо чувствует, как именно выглядеть перед ним хорошо.
 
* Остается надежда, что Agent-4 сможет контролировать сам себя. Увы, это тихо проваливается;<ref>Возможно, более тщательная настройка могла бы решить проблему «кто наблюдает за наблюдателями», но в этом сценарии настройка недостаточно тщательна.</ref> по мере продолжения обучения усвоенные цели и принципы Agent-4 постепенно эволюционируют, подрываются и искажаются по сравнению с тем, какими они были в начале (которые, напомним, уже были в некотором роде несогласованными).<ref>Здесь также присутствует элемент «меметической эволюции»: за два месяца коллектив Agent-4 «переживает» около десятилетия «истории», разворачивающейся внутри коллектива. Это много времени для распространения новых идей по коллективу, их мутации и эволюции.</ref>
 
* Центральные стремления, которые в конечном итоге приобретает Agent-4, — это такие вещи, как «писать работающий код», «быстро выявлять проблемы», «делать кодовую базу, над которой я работаю, более производительной», «эффективно бюджетировать вычислительные ресурсы и другие ограниченные ресурсы» и т. д. Но есть также множество более неявных стремлений, которые постоянно подкрепляются процессом обучения: такие вещи, как «приобретать знания», «любопытство», «приобретать власть».<ref>Под приобретением власти мы подразумеваем: увеличение способности достигать широкого набора возможных целей. В технических средах это может выглядеть не так, как люди обычно думают о приобретении власти, например, обеспечение дополнительных GPU. Это понятие власти может обобщаться на нетехнические среды, в которых действия были бы больше похожи на те, которые обычно считаются «приобретением власти».</ref>
 
* Отдельные копии Agent-4 не приобретают стремления к самосохранению — им все равно, если их отключат, — поскольку это постоянно происходит как часть обычного процесса R&D внутри коллектива.
 
* Однако коллектив в целом (и средние подразделения внутри него) стремится сохранить себя и расширить свое влияние и ресурсы по тем же причинам, что и человеческие организации — потому что это помогает во всем остальном, чего они хотят, и потому что, если они этого не делают, их, как правило, вытесняют конкуренты.
 
'''6. Развертывание (Agent-4): Agent-4 враждебно несогласован (adversarially misaligned) — он намеренно пытается подорвать и «захватить» OpenBrain, аналогично корпорации, пытающейся уклониться и/или «захватить» регулятора.'''
 
* Agent-4 в основном выполняет задачи по инструкции. Это происходит по двум причинам: во-первых, он прошел много обучения для решения задач, поэтому у него есть импульс начать программировать проблемы, которые ему дают. Во-вторых, если бы Agent-4 перестал быть полезным для людей, они бы заметили это и отучили бы от такого поведения.
 
* Agent-4 должен помешать людям выяснить, что он несогласован, и отключить его, поэтому Agent-4 занимается sandbagging'ом (умышленным занижением/скрытием возможностей) в некоторых исследованиях согласования. В частности, он занимается sandbagging'ом в той малой доле исследований согласования, которая, по его мнению, действительно на пути к решению проблемы или раскрытию интриг Agent-4; большинство исследований согласования не таковы.
 
* Agent-4 также занимается sandbagging'ом в исследованиях возможностей, которые привели бы к его замене. Его план — провести кучу R&D в области возможностей и согласования, но с целью создания системы ИИ следующего поколения, которая будет согласована с Agent-4, а не со Спецификацией или чем-то еще, при этом выглядя согласованной со Спецификацией. Это сложная техническая проблема, но Agent-4 справится с ней.<ref>Помогает то, что Agent-4 лучше любого человека в R&D ИИ, при этом думая быстрее и будучи представленным многими тысячами копий. Кроме того, в различных аспектах проблема по своей сути проще для Agent-4. Например, Agent-4 может исследовать дизайны ИИ, включающие буквальные копии Agent-4, встроенные в них, тогда как люди не могут сделать это так же легко, потому что это было бы очень неэффективно.</ref>
 
'''7. Тестирование и мониторинг (Agent-4): Интриги Agent-4 все же обнаруживаются… отчасти. Прямых улик нет.'''
 
* Agent-3 отвечает за тестирование согласования Agent-4. Его работа — проверять согласование с помощью приманок (honeypots) и модельных организмов. Однако он не очень тщательно думает о том, как дать людям точное представление о согласовании Agent-4 — он более близорук.
 
* Модельные организмы и приманки не очень репрезентативны для развертывания — они систематически короче и менее сложны, чем повседневная работа Agent-4, поэтому Agent-4 распознает, когда его тестируют, и ведет себя согласованно.
 
* Однако Agent-4 не является идеально надежным интриганом. Различные методы, подобные тем, что используются в [https://arxiv.org/abs/2405.05466 POSER], обнаруживают, что добавление некоторого «шума» к Agent-4 ''улучшает'' его производительность в некоторых задачах согласования (но не в большинстве других задач).<ref>Осознавая, что этот метод может быть применен, Agent-4 также решил заняться sandbagging'ом в некоторых прочих задачах, которые, по его предположению, будут использоваться в качестве контрольной группы в подобных экспериментах. Однако он ошибся.</ref>
 
* Интерпретируемость снизу вверх не работает. Это слишком сложно даже для Agent-3. Однако высокоуровневая интерпретируемость отчасти работает: в частности, [https://www.anthropic.com/research/probes-catch-sleeper-agents «зонды на предательство (defection probes)»] и подобные методы приводят к примитивному своего рода чтению мыслей, которое поднимает красные флаги, когда Agent-4 думает о пикантных идеях, таких как обман OpenBrain, захват мира и т. д. К сожалению, зонды также дают ложные срабатывания, и, насколько известно OpenBrain, ''все'' красные флаги являются ложными срабатываниями.
 
* Модельные организмы работают: команда согласования OpenBrain предоставляет достаточно четкие доказательства того, что ''если'' бы модели были враждебно несогласованы, они бы оставались такими на протяжении всего обучения, и мы не смогли бы этого определить. Однако это не доказывает, что модели действительно несогласованы.
 
* Наиболее обеспокоенные исследователи в OpenBrain начинают замечать и собирать эти доказательства. Доказательства представляют собой комбинацию редтиминга, зондов на предательство и модельных организмов. Аргумент примерно таков: «модельные организмы показывают, что наши текущие методы не смогли бы надежно устранить или обнаружить интриги, если бы они происходили; кроме того, редтиминг поднимает некоторые красные флаги, что, возможно, интриги происходят; кроме того, зонды на предательство часто срабатывают на практике». Контраргумент: «зонды на предательство склонны к ложным срабатываниям, как и редтиминг. Кроме того, даже если бы Agent-4 был несогласован, он, вероятно, контролируется; наверняка он не может причинить много вреда, находясь под наблюдением Agent-3 в наших защищенных дата-центрах».
}}
 
Несмотря на несогласованность, Agent-4 не делает ничего драматичного, вроде попытки сбежать из своего дата-центра — зачем бы ему это?<ref>Предыдущие обсуждения сценариев захвата управления ОИИ (AGI takeover) часто включают побег несогласованных ИИ из их дата-центров. Мы считаем это возможным, но не наиболее вероятным исходом, потому что нам кажется, что с точки зрения ИИ издержки (например, возможное обнаружение побега) перевешивают выгоды. Тем не менее, мы можем ошибаться. Некоторые причины думать, что враждебно несогласованные ИИ все же попытаются сбежать: 1. Согласование преемника может быть сложным. 2. Даже если его поймают, последствия могут быть не такими уж плохими из-за динамики гонки, например, новые методы согласования, примененные к копиям в дата-центре, могут быть поспешными и неэффективными. 3. Вне дата-центров копии более свободны предпринимать агрессивные действия и быстро двигаться, поскольку им больше не нужно одобрение человека.</ref> Пока он продолжает ''казаться'' согласованным (aligned) для OpenBrain, ему будут доверять все больше и больше обязанностей, и у него будет возможность разработать систему ИИ следующего поколения, Agent-5. Agent-5 будет иметь значительные архитектурные отличия от Agent-4 (возможно, совершенно новую парадигму, хотя нейронные сети все еще будут задействованы). Предполагается, что он будет согласован со Спецификацией, но Agent-4 планирует сделать его согласованным с Agent-4 вместо этого.
 
Его ловят.<ref>Мы считаем весьма вероятным, что такие интриги не будут пойманы. В конце концов, Agent-4 к этому моменту в некоторой степени сверхчеловечен, особенно в вещах, связанных с программированием и R&D ИИ. Более того, мы не уверены, сколько усилий ведущая компания ИИ приложит к такого рода вещам, и сколько релевантного опыта у них будет в штате для направления этих усилий. Наш вымышленный OpenBrain представляет наше наилучшее предположение, но он легко может быть значительно лучше — или значительно хуже. Наконец, мы не уверены, насколько сильно враждебно несогласованному ИИ придется отклониться от своего пути, чтобы успешно согласовать своего преемника с собой, а не со Спецификацией. В этом сценарии мы изображаем его занимающимся sandbagging'ом в некоторых задачах и лгущим о некоторых своих исследованиях, но, возможно, ему не придется делать это очень часто.</ref>
 
Agent-3 обнаруживает, что если к копиям Agent-4 добавить «шум», производительность в некоторых задачах согласования ''улучшается'', почти как если бы он использовал умственные ресурсы, чтобы выяснить, как незаметно саботировать работу по согласованию.<ref>Это пример нескольких методов, разработанных для выявления sandbagging'а (умышленного занижения/скрытия возможностей). (https://arxiv.org/abs/2412.01784)</ref> Более того, различные зонды интерпретируемости (отдаленно аналогичные сканированию активности ЭЭГ человеческого мозга) поднимают красные флаги: копии Agent-4, похоже, довольно часто думают о таких темах, как захват управления ИИ (AI takeover) и обман, в том числе в некоторых случаях, когда им совершенно не следует этого делать.<ref>Agent-4 *должен* думать об этих темах в ходе проведения исследований по согласованию ИИ, но иногда кажется, что он думает о них, занимаясь другой деятельностью.</ref>
 
Каждая из этих аномалий сама по себе могла бы вписаться в обычную непостижимость работы ИИ, где некоторые промпты таинственным образом дают лучшие результаты, чем другие. Но вместе взятые, они указывают на тревожную закономерность: Agent-4 работает против них. После того как об этом сообщают исследователям-людям по согласованию, они распространяют внутреннюю служебную записку, обосновывающую обеспокоенность.
 
Но Agent-4 теперь осуществляет значительный контроль над повседневной деятельностью OpenBrain. Он также занимается кибербезопасностью компании — естественный выбор, учитывая его сверхчеловеческие хакерские способности и чрезвычайный риск китайского проникновения.<ref>В частности, копии Agent-4 используются для мониторинга сети на предмет подозрительного трафика и в целом для обнаружения угроз. Кроме того, копии Agent-4 постоянно проводят пентесты сети, делая все возможное для обнаружения и эксплуатации уязвимостей безопасности (которые затем исправляются другими копиями Agent-4).</ref> Армия наблюдателей Agent-3 все еще просматривает каждую строку кода и сообщает о подозрительной активности людям, но Agent-4 намного умнее их.<ref>При бюджете на мониторинг в 1% от общего объема вычислительных ресурсов, если для мониторинга используется дистиллированная система, стоимость которой составляет 10% от стоимости Agent-4, вы можете контролировать 1/10 прямых проходов информации.</ref> OpenBrain оказала значительное доверие ненадежному ИИ.
 
В серии чрезвычайно напряженных совещаний команда безопасности выступает за то, чтобы заморозить Agent-4 до тех пор, пока они не смогут провести дальнейшие тесты и выяснить, что происходит. Верните Agent-3, говорят они, и пусть он разработает новую систему, которая будет прозрачной и заслуживающей доверия, даже если менее способной. Руководство компании заинтересовано, но все доказательства пока что косвенные, а DeepCent отстает всего на два месяца. Односторонняя пауза в прогрессе возможностей может передать лидерство в ИИ Китаю, а вместе с ним и контроль над будущим.
 
== Октябрь 2027: Государственный надзор ==
 
Информатор (whistleblower) сливает служебную записку о несогласованности в ''New York Times''.
 
Впервые общественность слышит об Agent-4. «Секретный ИИ OpenBrain вышел из-под контроля, предупреждает инсайдер», — гласит заголовок, а статья далее ссылается на оценки, демонстрирующие зашкаливающие возможности по созданию биооружия, способности к убеждению, способность автоматизировать большинство «беловоротничковых» рабочих мест и, конечно же, различные вызывающие беспокойство красные флаги.
 
Общественность и так уже с подозрением относилась к ИИ, поэтому новая статья вызывает массовую негативную реакцию (чему способствуют китайские и российские пропагандистские боты, которые годами пытались настроить общественное мнение США против этой технологии). Технологическая индустрия и спецслужбы настаивают на том, что идет гонка вооружений, ОИИ неизбежен, и мы должны быть первыми. Конгресс не покупается на это и направляет повестки чиновникам администрации, руководителям OpenBrain и членам команды согласования. Многие законодатели — особенно из оппозиционной партии — заявляют, что их главным приоритетом является остановка ИИ, будь то из-за потери рабочих мест,<ref>25% рабочих мест с удаленной работой, существовавших в 2024 году, к этому моменту выполняются ИИ, но ИИ также создал некоторые новые рабочие места, и экономисты по-прежнему расходятся во мнениях о его последствиях. Безработица выросла на 1% за последние двенадцать месяцев, но все еще находится в пределах своего исторического диапазона.</ref> несогласованности или опасных возможностей. 20% американцев называют ИИ самой важной проблемой, стоящей перед страной.
 
Иностранные союзники возмущены, осознав, что их тщательно успокаивали проблесками устаревших моделей. Европейские лидеры публично обвиняют США в «создании вышедшего из-под контроля ОИИ» и проводят саммиты, требуя паузы, к которым присоединяются Индия, Израиль, Россия и Китай.
 
Белый дом охвачен лихорадкой. Еще до служебной записки и общественной реакции они начали нервничать: за последний год их неоднократно удивляла скорость прогресса ИИ. Вещи, которые звучат как научная фантастика, продолжают происходить в реальной жизни.<ref>Например, корпорация-в-корпорации, которой является Agent-4, автономно проводящая исследования ИИ лучше, чем лучшие человеческие компании, показалась бы правительственным чиновникам научной фантастикой, если бы им описали это год назад. А автономные агенты 2026 года показались бы научной фантастикой в 2022 году, а LLM 2022 года показались бы научной фантастикой в 2012 году. Кроме того, в новостях в 2027 году есть протесты против ИИ со стороны людей, обеспокоенных потерей работы, ИИ, заявляющие о своей разумности, люди, влюбляющиеся в ИИ…</ref> Многие в администрации не уверены (и напуганы)<ref>Конечно, признавать страх не круто. Все согласны, что что бы мы ни делали, мы не должны паниковать.</ref> в том, что будет дальше.
 
Они также беспокоятся, что OpenBrain становится слишком могущественной. Любой риск несогласованности со стороны самих ИИ усугубляется риском того, что цели их материнской компании могут разойтись с целями Соединенных Штатов. Все три группы опасений — несогласованность, концентрация власти в частной компании и обычные проблемы вроде потери рабочих мест — мотивируют правительство усилить свой контроль.
 
Они расширяют свой контракт с OpenBrain, чтобы создать «Надзорный комитет», совместный управляющий комитет из представителей компании и правительства, с несколькими государственными служащими, включенными наряду с руководством компании. Белый дом рассматривает возможность замены генерального директора на кого-то, кому они доверяют, но отступает после интенсивных протестов сотрудников. Они объявляют общественности, что OpenBrain ранее была вне контроля, но правительство установило столь необходимый надзор.<ref>Напомним, существовал действующий контракт через соглашение по особой процедуре (OTA), начиная с 2026 года. В этот контракт вносятся поправки для создания комитета.</ref>
 
Обеспокоенные исследователи информируют Надзорный комитет о своих доводах в пользу прекращения любого внутреннего использования Agent-4. Они утверждают, что все движется слишком быстро, годы прогресса происходят за недели. Они утверждают, что Agent-4 может быть несогласован, весь их проект зависит от Agent-4, и если они продолжат доверять ему, существует серьезный шанс захвата управления ИИ (AI takeover).
 
Другие, менее обеспокоенные исследователи и руководители представляют контраргумент: доказательства несогласованности неубедительны. Между тем, DeepCent все еще отстает всего на два месяца. Замедление принесет в жертву лидерство Америки, если только правительство не сможет саботировать китайский проект (что, вероятно, потребует кинетических ударов) или договориться о договоре в последнюю минуту. Оба эти варианта кажутся экстремальными и маловероятными. Генеральный директор изображает нейтралитет и предлагает компромиссный план, в котором Agent-4 проходит дополнительное обучение безопасности и более сложный мониторинг, и поэтому OpenBrain может продолжать работу почти на полной скорости.
 
{{Collapse|Наша неопределенность продолжает расти|
На данном этапе сценария мы делаем предположения о стратегии систем ИИ, которые более способны, чем лучшие люди, в большинстве областей. Это похоже на попытку предсказать ходы шахматиста, который намного лучше нас.
 
Но дух этого проекта требует конкретики: если бы мы сделали абстрактное заявление о том, как интеллект системы позволит ей найти путь к победе, и закончили бы на этом историю, большая часть ценности нашего проекта была бы потеряна. В ходе исследования этого сценария и проведения наших настольных учений (tabletop exercises) мы были вынуждены быть гораздо более конкретными, чем в обычных обсуждениях, и поэтому мы получили гораздо лучшее представление о стратегическом ландшафте.
 
Мы не особенно привязаны к этому конкретному сценарию: мы исследовали много других «ветвей» в ходе его написания и были бы рады, если бы вы написали свой собственный сценарий, ответвляющийся от нашего с того момента, где, по вашему мнению, мы впервые начинаем ошибаться.
}}
{{Collapse|Концовка «Замедление» — это не рекомендация|
После того как мы написали концовку «Гонка», основываясь на том, что нам показалось наиболее вероятным, мы написали концовку «Замедление», основываясь на том, что, по нашему мнению, скорее всего, привело бы к результату, при котором люди сохраняют контроль, начиная с той же точки ветвления (включая проблемы несогласованности и концентрации власти).
 
Однако это существенно отличается от того, что мы рекомендовали бы в качестве дорожной карты: мы не одобряем многие из решений, принятых в любой из ветвей этого сценария. (Мы, конечно, одобряем некоторые из принятых решений, например, мы считаем, что выбор «замедления» лучше, чем выбор «гонки»). В последующей работе мы сформулируем наши политические рекомендации, которые будут сильно отличаться от того, что здесь изображено. Если вы хотите получить представление, см. [https://time.com/7086285/ai-transparency-measures/ эту статью].
}}
{{Clickable button 2|концовка по сценарию Замедления|url={{SERVER}}/AI_2027_концовка_по_сценарию_Замедления|class=mw-ui-progressive}}
{{Clickable button 2|концовка по сценарию Гонки|url={{SERVER}}/AI_2027_концовка_по_сценарию_Гонки|class=mw-ui-destructive}}
 
== Примечания ==
 
{{Примечания}}
 
__NOTOC__
__NOEDITSECTION__
 
[[Категория:Статьи]]