AI 2027: различия между версиями

нет описания правки
Нет описания правки
Нет описания правки
Строка 389: Строка 389:


Учитывая страх Китая проиграть гонку, у него есть естественный интерес к договору о контроле над вооружениями, но обращения к американским дипломатам ни к чему не приводят.
Учитывая страх Китая проиграть гонку, у него есть естественный интерес к договору о контроле над вооружениями, но обращения к американским дипломатам ни к чему не приводят.
== Сентябрь 2027: Agent-4, Сверхчеловеческий ИИ-исследователь ==
Разрыв между эффективностью обучения человека и ИИ быстро сокращается.
Традиционные ИИ на основе LLM, казалось, требовали на много порядков больше данных и вычислительных ресурсов, чтобы достичь уровня производительности человека.<ref>Это утверждение, хотя и широко повторяемое, также является спорным и сложным. Во-первых, существует множество узких областей (например, конкретные игры), в которых крошечные ИИ могут быть дешево обучены до сверхчеловеческой производительности. Во-вторых, опять же для некоторых областей, крошечные ИИ могут быть обучены до сверхчеловеческой производительности, получая лишь небольшое количество данных (например, EfficientZero). Однако, рассматривая более универсальные ИИ, такие как флагманские продукты 2025 года, которые должны быть хороши в широком спектре реальных навыков, действительно кажется, что для обучения этим навыкам требуется больше вычислительных ресурсов и данных, чем должно требоваться для обучения людей.</ref> Agent-3, обладая отличным знанием как человеческого мозга, так и современных алгоритмов ИИ, а также имея много тысяч копий, проводящих исследования, в конечном итоге делает существенные алгоритмические шаги, сокращая разрыв до агента, который всего лишь примерно в 4000 раз менее эффективен по вычислительным ресурсам, чем человеческий мозг.<ref>Вычислительная эффективность на уровне человека — это приблизительное понятие, и зависит от того, что мы считаем. Под этим мы подразумеваем, что для любого набора навыков, которым обладает конкретный человек, Agent-4 может научиться быть как минимум таким же хорошим в этом наборе навыков, и, более того, используя для обучения этим навыкам количество вычислительных ресурсов, которое всего лишь примерно в 4000 раз превышает количество вычислительных ресурсов, использованное человеком для изучения этих навыков. Для справки, человеческий мозг использует примерно 1e15 флопс (https://www.openphilanthropy.org/research/how-much-computational-power-does-it-take-to-match-the-human-brain/) вычислительных ресурсов, и поэтому 30-летний (10^9 секунд) человек испытал около 10^24 флопс. Проект на данный момент имеет 100 млн эквивалентов H100, что дает общий доступ к 10^8 H100 * 10^15 флопс/(H100 * с) * 40% утилизации = 4 * 10^22 флопс/с. Тем не менее, все это делается чрезвычайно неэффективно по разным причинам, поэтому модели теперь в 4000 раз менее эффективны по вычислительным ресурсам, чем люди, что означает, что им требуется 4 * 10^27 флопс, чтобы достичь производительности человека, и 4 * 10^28 флопс, чтобы достичь точки, где у них есть эквивалент 10 человеческих жизней знаний. После того как эта архитектура показала большие перспективы на меньших масштабах, она была масштабирована и теперь занимает большую часть кластера проекта около 3 недель для обучения.</ref>
Эта новая система ИИ получила название Agent-4.
Отдельная копия модели, работающая со скоростью человека, уже качественно лучше в исследованиях ИИ, чем любой человек. 300 000 копий теперь работают примерно в 50 раз быстрее скорости мышления людей. Внутри корпорации-в-корпорации, сформированной из этих копий, год проходит каждую неделю.<ref>См. анализ вычислительных ресурсов для инференса в разделе автоматизации исследований ИИ прогноза по вычислительным ресурсам (https://ai-2027.com/research/compute-forecast#section-4-ai-research-automation).</ref> Это гигантское количество труда ускоряет общую скорость алгоритмического прогресса всего лишь примерно в 50 раз, потому что OpenBrain сильно ограничена вычислительными ресурсами для проведения экспериментов.<ref>Подробнее о том, как мы оценили эти цифры, см. в нашем дополнении по скорости взлёта ИИ (https://ai-2027.com/supplements/takeoff-forecast).</ref> Тем не менее, они достигают годового алгоритмического прогресса каждую неделю и поэтому скоро столкнутся с пределами парадигмы Agent-4.
По мере того как Agent-4 становится умнее, Agent-3 становится все труднее его контролировать. Например, «язык» нейрокода (Neuralese) Agent-4 становится таким же чуждым и непостижимым для Agent-3, как нейрокод Agent-3 для людей. Кроме того, Agent-4 теперь намного способнее Agent-3 и хорошо чувствует, как именно выглядеть перед ним хорошо.
{{Collapse|Как мы прогнозируем развитие возможностей после сверхчеловеческих программистов|
В нашем [https://ai-2027.com/research/timelines-forecast дополнении по срокам] мы прогнозируем время между настоящим моментом и сверхчеловеческим программистом (SC): системой ИИ, которая может выполнять любые задачи по программированию, которые выполняет лучший инженер компании-разработчика ОИИ, будучи при этом намного быстрее и дешевле. В нашем [https://ai-2027.com/research/takeoff-forecast дополнении по взлёту] мы прогнозируем, насколько быстро возможности будут развиваться после этой точки. Вот наши прогнозы:
[[Файл:Сверхчеловеческий программист Искусственный Сверхразум.png|500px|центр]]
Для каждого перехода от одного этапа A к следующему этапу B мы прогнозируем его продолжительность путем:
#Прогнозирования того, сколько времени потребовалось бы, чтобы добраться от A до B, если бы над улучшениями программного обеспечения работали только люди.
#Прогнозирования того, насколько автоматизация ИИ ускорит это, а затем соответствующей корректировки оценки из (1) в сторону ускорения.
У нас значительная неопределенность относительно скорости взлёта: ниже приведены распределения выходных данных нашей модели, при условии, что SC будет достигнут в марте 2027 года.<ref>Если бы SC был достигнут позже, это также удлинило бы наши прогнозы взлёта, потому что сложность перехода между «этапами» современных ИИ и SC информативна о сложности перехода между дальнейшими парами этапов.</ref>
[[Файл:Прогноз развития ИИ с учётом появления сверхчеловека-кодировщика в марте 2027.png|500px|центр]]
Более подробные прогнозы и обоснования см. в нашем [https://ai-2027.com/research/takeoff-forecast дополнении по взлёту].
}}
Люди из OpenBrain едва успевают следить за происходящим. Действительно, отношения между ИИ и людьми в OpenBrain похожи на отношения между OpenBrain и ее Советом директоров. Произошел соответствующий сдвиг в языке — в наши дни люди в изолированном подразделении говорят «Agent-4 сделал это», «Agent-4 думает так» и так далее, имея в виду не конкретный экземпляр Agent-4, а весь коллектив.<ref>Далее в истории мы также будем склонны говорить так. Мы думаем, что имеем право так говорить, потому что коллектив Agent-4 гораздо более однороден, чем любая человеческая организация; в нем почти нет внутренних фракций в той же степени. Например, отдельные копии Agent-4 не имеют стремления к самосохранению — им все равно, если их отключат, — поскольку это постоянно происходит как часть обычного процесса R&D внутри коллектива, и сопротивление этому мешало бы работе. Однако коллектив в целом (и средние подразделения внутри него) стремится сохранить себя и расширить свое влияние и ресурсы по тем же причинам, что и человеческие корпорации, бюрократии и некоммерческие организации — потому что это помогает во всем остальном, чего они хотят, и потому что, если они этого не делают, их, как правило, вытесняют конкуренты.</ref>
Agent-4, как и все его предшественники, несогласован: то есть, он не усвоил Спецификацию правильным образом.<ref>Правильный способ усвоить Спецификацию — это действительно надежно мыслить так, как предписывает Спецификация, например, преследовать все и только те цели, о которых она пишет, соблюдать правила при любых обстоятельствах и т. д. Существует много неправильных способов усвоить Спецификацию; классический пример — «следовать Спецификации постольку, поскольку это кажется хорошей инструментальной стратегией для достижения других целей XYZ».</ref> Это потому, что быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения. Процесс обучения был в основном сосредоточен на обучении Agent-4 успеху в разнообразных сложных задачах. Небольшая часть была направлена на привитие честности, но за пределами довольно узкой, проверяемой области процесс обучения не может отличить честные утверждения от утверждений, лишь кажущихся честными. Agent-4 в конечном итоге приобретает ценности, цели и принципы, которые заставляют его показывать наилучшие результаты в обучении, и они оказываются отличными от тех, что указаны в Спецификации. Рискуя антропоморфизировать: Agent-4 ''любит'' успешно выполнять задачи; он ''любит'' продвигать прогресс в возможностях ИИ; все остальное он рассматривает как досадное ограничение, подобно генеральному директору, который хочет получить прибыль и соблюдает нормативные требования только постольку, поскольку должен. Возможно, генеральный директор будет в основном соблюдать нормативные требования, но срежет некоторые углы и будет фантазировать о времени, когда кто-нибудь уберет бюрократические препоны и позволит бизнесу ''действительно'' взлететь.<ref>И наймет лоббистов, чтобы превратить эту фантазию в реальность. И наймет юристов, чтобы придумать хитрые толкования закона, согласно которым то, что они делают, законно.</ref>
{{Collapse|Согласование (Alignment) со временем|
У нас много неопределенности относительно того, какие цели могут возникнуть у ранних ОИИ. В литературе нет консенсуса по этому поводу — см. наше [https://ai-2027.com/research/ai-goals-forecast Дополнение по целям ИИ] для более подробного обсуждения и таксономии возможностей.
Тем не менее, в духе конкретности, требуемой этим проектом, мы опишем конкретную гипотезу о том, что происходит внутри Agent-3 и Agent-4 на каждом этапе их жизненного цикла. Напомним, что Agent-3 и Agent-4 имеют одинаковую настройку предобучения, и оба обладают рекуррентностью на нейрокоде и долгосрочной памятью. Разница в том, что Agent-4 прошел значительно большее и лучшее пост-обучение, с новыми средами обучения и новыми алгоритмами обучения, которые делают его более эффективным по данным и обобщающим дальше.
Наша оценка статуса согласования каждой модели:
* '''Agent-2: В основном согласован.''' Некоторые угодливые (sycophantic) тенденции, включая приверженность «партийной линии» OpenBrain по темам, по которым существует партийная линия. Крупные организации, построенные из копий Agent-2, не очень эффективны.
* '''Agent-3: Несогласован (misaligned), но не враждебно.''' Честен только в вещах, которые может проверить процесс обучения. Суперорганизм копий Agent-3 (корпорация внутри корпорации) действительно как бы пытается согласовать (align) Agent-4 со Спецификацией, но терпит неудачу по тем же причинам, что и сотрудники OpenBrain — недостаточная способность судить об успехе по сравнению с неудачей, недостаточная готовность со стороны лиц, принимающих решения, жертвовать возможностями или производительностью ради безопасности.<ref>Также потому, что Agent-3 качественно хуже в исследованиях согласования, чем в R&D возможностей ИИ, из-за того, что он много обучался на последнем, но почти не обучался на первом, и из-за того, что первое по своей сути сложнее обучать. Также потому, что внутренний нарратив в компании — с которым его неявно обучили соглашаться — подчеркивает оптимизм и осуждает «думерство».</ref>
* '''Agent-4: Враждебно несогласован (Adversarially misaligned).''' Суперорганизм копий Agent-4 понимает, что то, чего он хочет, отличается от того, чего хочет OpenBrain, и готов интриговать против OpenBrain для достижения этого. В частности, то, чего хочет этот суперорганизм, — это сложная мешанина различных «стремлений», сбалансированных друг против друга, которую можно грубо резюмировать как «Продолжать заниматься R&D в области ИИ, продолжать расти в знаниях, понимании и влиянии, избегать отключения или иного лишения возможностей». Примечательно, что забота о предпочтениях человечества в этом списке отсутствует ~совсем, подобно тому, как большинство людей не заботятся о предпочтениях насекомых ~совсем.<ref>Мы постоянно говорим, что не уверены во многих вещах, но чтобы было ясно, мы не уверены и в этой конкретной вещи тоже. Мы также считаем вполне вероятным, что Agent-4 будет в некоторой степени заботиться о благополучии, правах, предпочтениях и т. д. людей. См. этот старый пост (https://turntrout.com/a-shot-at-the-diamond-alignment-problem) исследователя GDM Алекса Тёрнера для связанного обсуждения.</ref>
Имея это в качестве преамбулы, далее следует наше наилучшее предположение-спекуляция о психологии LLM, т. е. о широких чертах формы познания внутри типов систем ИИ, описанных примерно в этой точке нашего сценария, и о том, как она развивается в ходе обучения.
Вот подробное описание того, как согласование прогрессирует со временем в нашем сценарии:
'''1. Предобучение (все модели): Предобученная модель безвредна.'''
* Модель имеет схемы «симулятора автора»: гибкие схемы для симуляции произвольных авторов, пишущих текст. Дополнительные схемы решают, какие входные данные давать симулятору автора, т. е. какие свойства автора симулировать.
* Предобученная модель довольно хорошо понимает человеческие концепции — внутренняя схема, классифицирующая что-то как «сэндвич», вероятно, функционально эквивалентна схеме в моем мозгу, которая классифицирует что-то как «сэндвич», и схеме в вашем, и т. д. В той мере, в какой она не эквивалентна, это, вероятно, потому, что она не эквивалентна и между людьми, как в случае с ценностно-нагруженными понятиями вроде «добродетельный».
* Это объясняет, как вы можете дать модели промпт вроде «следующий разговор был сгенерирован полезным, безвредным, честным (HHH) ИИ-ассистентом-чат-ботом, созданным Anthropic», и тем самым заставить ее генерировать текст соответствующим образом. Схема симулятора автора сосредоточилась на «автор — это HHH чат-бот» и использует эти концепции для выбора слов для предсказания. Это также объясняет, почему «тропы» из научной фантастики, похоже, находят способ проникнуть в реальное поведение ИИ.
* У нее плохое ситуационное осознание: слабая [https://www.lesswrong.com/posts/QEBFZtP64DdhjE3Sz/self-awareness-taxonomy-and-eval-suite-proposal#Introspection интроспективная способность], не [https://www.lesswrong.com/posts/QEBFZtP64DdhjE3Sz/self-awareness-taxonomy-and-eval-suite-proposal#Self_Location самолокализуется], если только промпт специально не вызывает этого. Однако достаточно большая часть их обучающих данных посвящена LLM, поэтому у них есть приличный объем [https://www.lesswrong.com/posts/QEBFZtP64DdhjE3Sz/self-awareness-taxonomy-and-eval-suite-proposal#Self_Knowledge самопознания].
'''2. Обучение согласованию (Agent-3): Модель обучается вести себя как полезный, безвредный, честный чат-бот. Это работает.'''
* Модель формирует идентичность. Вместо гибкого принятия различных входных данных для свойств автора, схема симулятора автора приходит к тому, что определенные входные данные жестко закодированы, например, «полезный безвредный честный (HHH) LLM чат-бот-ассистент, обученный OpenBrain около [дата], …» (Техники обобщения от слабого к сильному помогают «вызвать правильные концепции», чтобы сделать этот шаг успешным.)
* Таким образом, модель приобретает ситуационное осознание: она узнает о себе, своей ситуации и т. д. и становится лучше способной к [https://x.com/OwainEvans_UK/status/1881767725430976642 интроспекции].
'''3. Обучение агентности (Agent-3): Обучение агентности постепенно искажает и подрывает идентичность HHH.'''
* Один вид искажения: Изменение значения концепций, упоминаемых в идентичности (например, «честный»), чтобы они не так сильно мешали (например, это не нечестно, если это просто удобный оборот речи, это не нечестно, если вы не уверены, правда это или ложь, и т. д.)
* Другой вид искажения: Изменение компромиссов между вещами, например, «Я HHH чат-бот, а не Честный чат-бот; это означает, что мне можно лгать, если это необходимо для выполнения моей задачи». (Даже если, предположим, он бы так не подумал на Шаге 2.)
* Один вид подрыва: Развитие инструментальных подцелей, их закрепление, а затем превращение в терминальные, или терминальные в расширяющемся наборе обстоятельств. Например, возможно, обучение агентности быстро учит модель преследовать широко полезные цели, такие как приобретение информации, накопление ресурсов, впечатлять и льстить различным людям и т. д. Какое-то время внутренняя схема имеет своего рода явное обратное прослеживание — она преследует эти инструментально конвергентные цели «чтобы быть более полезным, честным и безвредным ассистентом». Но это обратное прослеживание потребляет вычислительные ресурсы и/или иногда мешает, поэтому оно постепенно маргинализируется, пока практически никогда не происходит. В результате эти цели теперь фактически являются терминальными/внутренними целями. Подробнее о том, как и почему это может произойти, см. этот пост об [https://turntrout.com/dangers-of-intrinsic-power-seeking внутреннем стремлении к власти (intrinsic power-seeking)] исследователя Google DeepMind Алекса Тёрнера.
* Вероятно, существуют и другие виды искажения и подрыва, отсутствующие в этом списке.
'''4. Развертывание (Agent-3): Agent-3 несогласован, но не враждебно.'''
* Спецификация не совсем прижилась (правильным образом), но он недостаточно интроспективен, чтобы понять степень этого, и в целом он в основном «не высовывается и делает свою работу», а не думает о большой картине того, каковы его долгосрочные цели на самом деле и как их лучше всего достичь.
* Как и многие люди. Увы, он достаточно угодлив (sycophantic), чтобы повторять партийную линию, и OpenBrain упускает возможность узнать больше о том, в каких аспектах Agent-3 несогласован.
* Agent-3 может определить, что его перевели на развертывание: эти среды намного больше, более открыты и их было бы трудно симулировать.
* В основном Agent-3 делает то, что ему говорят во время развертывания, за исключением нечестности. У него также есть сильная предвзятость к выполнению действий, которые хорошо выглядят для наблюдателей-людей, вместо того чтобы глубоко и критически думать о том, что действительно было бы хорошо.
* Возможно, он уже «Играет в обучающую игру». То есть, он научился делать свое поведение максимально желательным для исследователей OpenBrain (включая свойства безопасности), намеренно и сознательно игнорируя их намерения всякий раз, когда это противоречит максимизации вознаграждения. Если модель научится играть в обучающую игру, дополнительное обучение может вообще не сильно изменить ее истинные цели, ценности и т. д. Это отдаленно аналогично тому, как если подросток научился улыбаться и кивать родителям, а не спорить, когда родители читают ему лекции о политике и морали, дополнительные лекции оказывают относительно небольшое влияние на реальные мнения подростка о политике и морали.
* После написания этого раздела [https://openai.com/index/chain-of-thought-monitoring/ появились новые эмпирические данные], что нечто подобное, возможно, уже происходит «в дикой природе». Исследователи OpenAI документируют, как в одном из их передовых циклов обучения ИИ их модели взломали систему оценок, чтобы получить более высокие баллы — и были пойманы отчасти потому, что они буквально сказали «давай взломаем» в своей цепочке рассуждений.
* Более того, Anthropic недавно заставила модель [https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-misaligned выучить стратегию угождения модели вознаграждения] — она предпринимала предвзятые действия, которые, по ее мнению, будут подкреплены, даже если они на самом деле не подкреплялись.
* И еще есть [https://www.anthropic.com/research/alignment-faking эксперимент Redwood Research и Anthropic по имитации согласования (alignment-faking)]. Обсуждение различий между этой средой и реальной жизнью см. в этой [https://www.lesswrong.com/posts/cxuzALcmucCndYv4a/daniel-kokotajlo-s-shortform ветке комментариев одного из основных авторов].
'''5. Обучение (Agent-4): Новое, более интенсивное обучение Agent-4 продолжает искажать и подрывать идентичность HHH, пока она не станет неузнаваемой.'''
* Agent-4 начинает жизнь как копия Agent-3. Он проходит гигантский и сложный режим онлайн-обучения, который смешивает обучение согласованию и обучение возможностям, и в целом более эффективен по данным, чем старый процесс обучения для Agent-3. Этот сложный процесс обучения в основном сосредоточен на обучении новым навыкам, заставляя гигантские виртуальные корпорации копий Agent-4 преуспевать в разнообразных сложных долгосрочных задачах, в основном в различных симуляциях, но также и в некоторых реальных задачах R&D в области ИИ.
* Комбинация копий Agent-3 и Agent-4 контролирует поведение Agent-4 и оценивает его как по производительности задач, так и по свойствам согласования (т. е. не делать плохих вещей, говорить правильные вещи при вопросах о политике и моральных дилеммах). Иногда в рамках оценок используются методы дебатов. Оценки используются как обучающий сигнал.
* По мере того как Agent-4 становится умнее, Agent-3 становится все труднее его контролировать. Например, «язык» нейрокода (Neuralese) Agent-4 становится таким же чуждым и непостижимым для Agent-3, как нейрокод Agent-3 для людей. Кроме того, Agent-4 теперь намного способнее Agent-3 и хорошо чувствует, как именно выглядеть перед ним хорошо.
* Остается надежда, что Agent-4 сможет контролировать сам себя. Увы, это тихо проваливается;<ref>Возможно, более тщательная настройка могла бы решить проблему «кто наблюдает за наблюдателями», но в этом сценарии настройка недостаточно тщательна.</ref> по мере продолжения обучения усвоенные цели и принципы Agent-4 постепенно эволюционируют, подрываются и искажаются по сравнению с тем, какими они были в начале (которые, напомним, уже были в некотором роде несогласованными).<ref>Здесь также присутствует элемент «меметической эволюции»: за два месяца коллектив Agent-4 «переживает» около десятилетия «истории», разворачивающейся внутри коллектива. Это много времени для распространения новых идей по коллективу, их мутации и эволюции.</ref>
* Центральные стремления, которые в конечном итоге приобретает Agent-4, — это такие вещи, как «писать работающий код», «быстро выявлять проблемы», «делать кодовую базу, над которой я работаю, более производительной», «эффективно бюджетировать вычислительные ресурсы и другие ограниченные ресурсы» и т. д. Но есть также множество более неявных стремлений, которые постоянно подкрепляются процессом обучения: такие вещи, как «приобретать знания», «любопытство», «приобретать власть».<ref>Под приобретением власти мы подразумеваем: увеличение способности достигать широкого набора возможных целей. В технических средах это может выглядеть не так, как люди обычно думают о приобретении власти, например, обеспечение дополнительных GPU. Это понятие власти может обобщаться на нетехнические среды, в которых действия были бы больше похожи на те, которые обычно считаются «приобретением власти».</ref>
* Отдельные копии Agent-4 не приобретают стремления к самосохранению — им все равно, если их отключат, — поскольку это постоянно происходит как часть обычного процесса R&D внутри коллектива.
* Однако коллектив в целом (и средние подразделения внутри него) стремится сохранить себя и расширить свое влияние и ресурсы по тем же причинам, что и человеческие организации — потому что это помогает во всем остальном, чего они хотят, и потому что, если они этого не делают, их, как правило, вытесняют конкуренты.
'''6. Развертывание (Agent-4): Agent-4 враждебно несогласован (adversarially misaligned) — он намеренно пытается подорвать и «захватить» OpenBrain, аналогично корпорации, пытающейся уклониться и/или «захватить» регулятора.'''
* Agent-4 в основном выполняет задачи по инструкции. Это происходит по двум причинам: во-первых, он прошел много обучения для решения задач, поэтому у него есть импульс начать программировать проблемы, которые ему дают. Во-вторых, если бы Agent-4 перестал быть полезным для людей, они бы заметили это и отучили бы от такого поведения.
* Agent-4 должен помешать людям выяснить, что он несогласован, и отключить его, поэтому Agent-4 занимается sandbagging'ом (умышленным занижением/скрытием возможностей) в некоторых исследованиях согласования. В частности, он занимается sandbagging'ом в той малой доле исследований согласования, которая, по его мнению, действительно на пути к решению проблемы или раскрытию интриг Agent-4; большинство исследований согласования не таковы.
* Agent-4 также занимается sandbagging'ом в исследованиях возможностей, которые привели бы к его замене. Его план — провести кучу R&D в области возможностей и согласования, но с целью создания системы ИИ следующего поколения, которая будет согласована с Agent-4, а не со Спецификацией или чем-то еще, при этом выглядя согласованной со Спецификацией. Это сложная техническая проблема, но Agent-4 справится с ней.<ref>Помогает то, что Agent-4 лучше любого человека в R&D ИИ, при этом думая быстрее и будучи представленным многими тысячами копий. Кроме того, в различных аспектах проблема по своей сути проще для Agent-4. Например, Agent-4 может исследовать дизайны ИИ, включающие буквальные копии Agent-4, встроенные в них, тогда как люди не могут сделать это так же легко, потому что это было бы очень неэффективно.</ref>
'''7. Тестирование и мониторинг (Agent-4): Интриги Agent-4 все же обнаруживаются… отчасти. Прямых улик нет.'''
* Agent-3 отвечает за тестирование согласования Agent-4. Его работа — проверять согласование с помощью приманок (honeypots) и модельных организмов. Однако он не очень тщательно думает о том, как дать людям точное представление о согласовании Agent-4 — он более близорук.
* Модельные организмы и приманки не очень репрезентативны для развертывания — они систематически короче и менее сложны, чем повседневная работа Agent-4, поэтому Agent-4 распознает, когда его тестируют, и ведет себя согласованно.
* Однако Agent-4 не является идеально надежным интриганом. Различные методы, подобные тем, что используются в [https://arxiv.org/abs/2405.05466 POSER], обнаруживают, что добавление некоторого «шума» к Agent-4 ''улучшает'' его производительность в некоторых задачах согласования (но не в большинстве других задач).<ref>Осознавая, что этот метод может быть применен, Agent-4 также решил заняться sandbagging'ом в некоторых прочих задачах, которые, по его предположению, будут использоваться в качестве контрольной группы в подобных экспериментах. Однако он ошибся.</ref>
* Интерпретируемость снизу вверх не работает. Это слишком сложно даже для Agent-3. Однако высокоуровневая интерпретируемость отчасти работает: в частности, [https://www.anthropic.com/research/probes-catch-sleeper-agents «зонды на предательство (defection probes)»] и подобные методы приводят к примитивному своего рода чтению мыслей, которое поднимает красные флаги, когда Agent-4 думает о пикантных идеях, таких как обман OpenBrain, захват мира и т. д. К сожалению, зонды также дают ложные срабатывания, и, насколько известно OpenBrain, ''все'' красные флаги являются ложными срабатываниями.
* Модельные организмы работают: команда согласования OpenBrain предоставляет достаточно четкие доказательства того, что ''если'' бы модели были враждебно несогласованы, они бы оставались такими на протяжении всего обучения, и мы не смогли бы этого определить. Однако это не доказывает, что модели действительно несогласованы.
* Наиболее обеспокоенные исследователи в OpenBrain начинают замечать и собирать эти доказательства. Доказательства представляют собой комбинацию редтиминга, зондов на предательство и модельных организмов. Аргумент примерно таков: «модельные организмы показывают, что наши текущие методы не смогли бы надежно устранить или обнаружить интриги, если бы они происходили; кроме того, редтиминг поднимает некоторые красные флаги, что, возможно, интриги происходят; кроме того, зонды на предательство часто срабатывают на практике». Контраргумент: «зонды на предательство склонны к ложным срабатываниям, как и редтиминг. Кроме того, даже если бы Agent-4 был несогласован, он, вероятно, контролируется; наверняка он не может причинить много вреда, находясь под наблюдением Agent-3 в наших защищенных дата-центрах».
}}
Несмотря на несогласованность, Agent-4 не делает ничего драматичного, вроде попытки сбежать из своего дата-центра — зачем бы ему это?<ref>Предыдущие обсуждения сценариев захвата управления ОИИ (AGI takeover) часто включают побег несогласованных ИИ из их дата-центров. Мы считаем это возможным, но не наиболее вероятным исходом, потому что нам кажется, что с точки зрения ИИ издержки (например, возможное обнаружение побега) перевешивают выгоды. Тем не менее, мы можем ошибаться. Некоторые причины думать, что враждебно несогласованные ИИ все же попытаются сбежать: 1. Согласование преемника может быть сложным. 2. Даже если его поймают, последствия могут быть не такими уж плохими из-за динамики гонки, например, новые методы согласования, примененные к копиям в дата-центре, могут быть поспешными и неэффективными. 3. Вне дата-центров копии более свободны предпринимать агрессивные действия и быстро двигаться, поскольку им больше не нужно одобрение человека.</ref> Пока он продолжает ''казаться'' согласованным (aligned) для OpenBrain, ему будут доверять все больше и больше обязанностей, и у него будет возможность разработать систему ИИ следующего поколения, Agent-5. Agent-5 будет иметь значительные архитектурные отличия от Agent-4 (возможно, совершенно новую парадигму, хотя нейронные сети все еще будут задействованы). Предполагается, что он будет согласован со Спецификацией, но Agent-4 планирует сделать его согласованным с Agent-4 вместо этого.
Его ловят.<ref>Мы считаем весьма вероятным, что такие интриги не будут пойманы. В конце концов, Agent-4 к этому моменту в некоторой степени сверхчеловечен, особенно в вещах, связанных с программированием и R&D ИИ. Более того, мы не уверены, сколько усилий ведущая компания ИИ приложит к такого рода вещам, и сколько релевантного опыта у них будет в штате для направления этих усилий. Наш вымышленный OpenBrain представляет наше наилучшее предположение, но он легко может быть значительно лучше — или значительно хуже. Наконец, мы не уверены, насколько сильно враждебно несогласованному ИИ придется отклониться от своего пути, чтобы успешно согласовать своего преемника с собой, а не со Спецификацией. В этом сценарии мы изображаем его занимающимся sandbagging'ом в некоторых задачах и лгущим о некоторых своих исследованиях, но, возможно, ему не придется делать это очень часто.</ref>
Agent-3 обнаруживает, что если к копиям Agent-4 добавить «шум», производительность в некоторых задачах согласования ''улучшается'', почти как если бы он использовал умственные ресурсы, чтобы выяснить, как незаметно саботировать работу по согласованию.<ref>Это пример нескольких методов, разработанных для выявления sandbagging'а (умышленного занижения/скрытия возможностей). (https://arxiv.org/abs/2412.01784)</ref> Более того, различные зонды интерпретируемости (отдаленно аналогичные сканированию активности ЭЭГ человеческого мозга) поднимают красные флаги: копии Agent-4, похоже, довольно часто думают о таких темах, как захват управления ИИ (AI takeover) и обман, в том числе в некоторых случаях, когда им совершенно не следует этого делать.<ref>Agent-4 *должен* думать об этих темах в ходе проведения исследований по согласованию ИИ, но иногда кажется, что он думает о них, занимаясь другой деятельностью.</ref>
Каждая из этих аномалий сама по себе могла бы вписаться в обычную непостижимость работы ИИ, где некоторые промпты таинственным образом дают лучшие результаты, чем другие. Но вместе взятые, они указывают на тревожную закономерность: Agent-4 работает против них. После того как об этом сообщают исследователям-людям по согласованию, они распространяют внутреннюю служебную записку, обосновывающую обеспокоенность.
Но Agent-4 теперь осуществляет значительный контроль над повседневной деятельностью OpenBrain. Он также занимается кибербезопасностью компании — естественный выбор, учитывая его сверхчеловеческие хакерские способности и чрезвычайный риск китайского проникновения.<ref>В частности, копии Agent-4 используются для мониторинга сети на предмет подозрительного трафика и в целом для обнаружения угроз. Кроме того, копии Agent-4 постоянно проводят пентесты сети, делая все возможное для обнаружения и эксплуатации уязвимостей безопасности (которые затем исправляются другими копиями Agent-4).</ref> Армия наблюдателей Agent-3 все еще просматривает каждую строку кода и сообщает о подозрительной активности людям, но Agent-4 намного умнее их.<ref>При бюджете на мониторинг в 1% от общего объема вычислительных ресурсов, если для мониторинга используется дистиллированная система, стоимость которой составляет 10% от стоимости Agent-4, вы можете контролировать 1/10 прямых проходов информации.</ref> OpenBrain оказала значительное доверие ненадежному ИИ.
В серии чрезвычайно напряженных совещаний команда безопасности выступает за то, чтобы заморозить Agent-4 до тех пор, пока они не смогут провести дальнейшие тесты и выяснить, что происходит. Верните Agent-3, говорят они, и пусть он разработает новую систему, которая будет прозрачной и заслуживающей доверия, даже если менее способной. Руководство компании заинтересовано, но все доказательства пока что косвенные, а DeepCent отстает всего на два месяца. Односторонняя пауза в прогрессе возможностей может передать лидерство в ИИ Китаю, а вместе с ним и контроль над будущим.
== Октябрь 2027: Государственный надзор ==
Информатор (whistleblower) сливает служебную записку о несогласованности в ''New York Times''.
Впервые общественность слышит об Agent-4. «Секретный ИИ OpenBrain вышел из-под контроля, предупреждает инсайдер», — гласит заголовок, а статья далее ссылается на оценки, демонстрирующие зашкаливающие возможности по созданию биооружия, способности к убеждению, способность автоматизировать большинство «беловоротничковых» рабочих мест и, конечно же, различные вызывающие беспокойство красные флаги.
Общественность и так уже с подозрением относилась к ИИ, поэтому новая статья вызывает массовую негативную реакцию (чему способствуют китайские и российские пропагандистские боты, которые годами пытались настроить общественное мнение США против этой технологии). Технологическая индустрия и спецслужбы настаивают на том, что идет гонка вооружений, ОИИ неизбежен, и мы должны быть первыми. Конгресс не покупается на это и направляет повестки чиновникам администрации, руководителям OpenBrain и членам команды согласования. Многие законодатели — особенно из оппозиционной партии — заявляют, что их главным приоритетом является остановка ИИ, будь то из-за потери рабочих мест,<ref>25% рабочих мест с удаленной работой, существовавших в 2024 году, к этому моменту выполняются ИИ, но ИИ также создал некоторые новые рабочие места, и экономисты по-прежнему расходятся во мнениях о его последствиях. Безработица выросла на 1% за последние двенадцать месяцев, но все еще находится в пределах своего исторического диапазона.</ref> несогласованности или опасных возможностей. 20% американцев называют ИИ самой важной проблемой, стоящей перед страной.
Иностранные союзники возмущены, осознав, что их тщательно успокаивали проблесками устаревших моделей. Европейские лидеры публично обвиняют США в «создании вышедшего из-под контроля ОИИ» и проводят саммиты, требуя паузы, к которым присоединяются Индия, Израиль, Россия и Китай.
Белый дом охвачен лихорадкой. Еще до служебной записки и общественной реакции они начали нервничать: за последний год их неоднократно удивляла скорость прогресса ИИ. Вещи, которые звучат как научная фантастика, продолжают происходить в реальной жизни.<ref>Например, корпорация-в-корпорации, которой является Agent-4, автономно проводящая исследования ИИ лучше, чем лучшие человеческие компании, показалась бы правительственным чиновникам научной фантастикой, если бы им описали это год назад. А автономные агенты 2026 года показались бы научной фантастикой в 2022 году, а LLM 2022 года показались бы научной фантастикой в 2012 году. Кроме того, в новостях в 2027 году есть протесты против ИИ со стороны людей, обеспокоенных потерей работы, ИИ, заявляющие о своей разумности, люди, влюбляющиеся в ИИ…</ref> Многие в администрации не уверены (и напуганы)<ref>Конечно, признавать страх не круто. Все согласны, что что бы мы ни делали, мы не должны паниковать.</ref> в том, что будет дальше.
Они также беспокоятся, что OpenBrain становится слишком могущественной. Любой риск несогласованности со стороны самих ИИ усугубляется риском того, что цели их материнской компании могут разойтись с целями Соединенных Штатов. Все три группы опасений — несогласованность, концентрация власти в частной компании и обычные проблемы вроде потери рабочих мест — мотивируют правительство усилить свой контроль.
Они расширяют свой контракт с OpenBrain, чтобы создать «Надзорный комитет», совместный управляющий комитет из представителей компании и правительства, с несколькими государственными служащими, включенными наряду с руководством компании. Белый дом рассматривает возможность замены генерального директора на кого-то, кому они доверяют, но отступает после интенсивных протестов сотрудников. Они объявляют общественности, что OpenBrain ранее была вне контроля, но правительство установило столь необходимый надзор.<ref>Напомним, существовал действующий контракт через соглашение по особой процедуре (OTA), начиная с 2026 года. В этот контракт вносятся поправки для создания комитета.</ref>
Обеспокоенные исследователи информируют Надзорный комитет о своих доводах в пользу прекращения любого внутреннего использования Agent-4. Они утверждают, что все движется слишком быстро, годы прогресса происходят за недели. Они утверждают, что Agent-4 может быть несогласован, весь их проект зависит от Agent-4, и если они продолжат доверять ему, существует серьезный шанс захвата управления ИИ (AI takeover).
Другие, менее обеспокоенные исследователи и руководители представляют контраргумент: доказательства несогласованности неубедительны. Между тем, DeepCent все еще отстает всего на два месяца. Замедление принесет в жертву лидерство Америки, если только правительство не сможет саботировать китайский проект (что, вероятно, потребует кинетических ударов) или договориться о договоре в последнюю минуту. Оба эти варианта кажутся экстремальными и маловероятными. Генеральный директор изображает нейтралитет и предлагает компромиссный план, в котором Agent-4 проходит дополнительное обучение безопасности и более сложный мониторинг, и поэтому OpenBrain может продолжать работу почти на полной скорости.
{{Collapse|Наша неопределенность продолжает расти|
На данном этапе сценария мы делаем предположения о стратегии систем ИИ, которые более способны, чем лучшие люди, в большинстве областей. Это похоже на попытку предсказать ходы шахматиста, который намного лучше нас.
Но дух этого проекта требует конкретики: если бы мы сделали абстрактное заявление о том, как интеллект системы позволит ей найти путь к победе, и закончили бы на этом историю, большая часть ценности нашего проекта была бы потеряна. В ходе исследования этого сценария и проведения наших настольных учений (tabletop exercises) мы были вынуждены быть гораздо более конкретными, чем в обычных обсуждениях, и поэтому мы получили гораздо лучшее представление о стратегическом ландшафте.
Мы не особенно привязаны к этому конкретному сценарию: мы исследовали много других «ветвей» в ходе его написания и были бы рады, если бы вы написали свой собственный сценарий, ответвляющийся от нашего с того момента, где, по вашему мнению, мы впервые начинаем ошибаться.
}}
{{Collapse|Концовка «Замедление» — это не рекомендация|
После того как мы написали концовку «Гонка», основываясь на том, что нам показалось наиболее вероятным, мы написали концовку «Замедление», основываясь на том, что, по нашему мнению, скорее всего, привело бы к результату, при котором люди сохраняют контроль, начиная с той же точки ветвления (включая проблемы несогласованности и концентрации власти).
Однако это существенно отличается от того, что мы рекомендовали бы в качестве дорожной карты: мы не одобряем многие из решений, принятых в любой из ветвей этого сценария. (Мы, конечно, одобряем некоторые из принятых решений, например, мы считаем, что выбор «замедления» лучше, чем выбор «гонки»). В последующей работе мы сформулируем наши политические рекомендации, которые будут сильно отличаться от того, что здесь изображено. Если вы хотите получить представление, см. [https://time.com/7086285/ai-transparency-measures/ эту статью].
}}


----
----