AI 2027: различия между версиями

Перейти к навигации Перейти к поиску
Строка 168: Строка 168:
Agent-1 был оптимизирован для задач R&D в области ИИ в надежде инициировать [https://en.wikipedia.org/wiki/Technological_singularity#Intelligence_explosion интеллектуальный взрыв (intelligence explosion)].<ref>То есть, они надеются существенно ускорить свои основные исследовательские работы, используя труд Agent-2, что позволит им быстрее обучать лучшие ИИ, которые могут вызвать дальнейшее ускорение, и т. д. Анализ экстремальной версии этого (которую мы, тем не менее, считаем поразительно правдоподобной) см. в этом отчете (https://www.forethought.org/research/will-ai-r-and-d-automation-cause-a-software-intelligence-explosion).</ref> OpenBrain удваивает эту стратегию с Agent-2. Он качественно почти так же хорош, как лучшие люди-эксперты в инженерных исследованиях (проектирование и реализация экспериментов), и так же хорош, как ученый OpenBrain из 25-го перцентиля в «научном чутье» (research taste) (решение, что изучать дальше, какие эксперименты проводить, или предчувствие потенциальных новых парадигм).<ref>Есть некоторые свидетельства того, что системы ИИ уже обладают некоторым базовым научным чутьем, например, эта статья об ИИ-соисследователе (https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/) и эта статья о генерации новых идей для исследовательских работ, посвященных LLM (https://arxiv.org/pdf/2409.04109). Исследовательские команды с лучшим чутьем все еще должны проводить эксперименты, но они делают лучший выбор относительно того, какие эксперименты проводить и какие уроки извлекать из результатов.</ref> В то время как последний Agent-1 мог удвоить темп алгоритмического прогресса OpenBrain, Agent-2 теперь может утроить его и будет улучшаться со временем. На практике это выглядит так, будто каждый исследователь OpenBrain становится «менеджером» ИИ-«команды».
Agent-1 был оптимизирован для задач R&D в области ИИ в надежде инициировать [https://en.wikipedia.org/wiki/Technological_singularity#Intelligence_explosion интеллектуальный взрыв (intelligence explosion)].<ref>То есть, они надеются существенно ускорить свои основные исследовательские работы, используя труд Agent-2, что позволит им быстрее обучать лучшие ИИ, которые могут вызвать дальнейшее ускорение, и т. д. Анализ экстремальной версии этого (которую мы, тем не менее, считаем поразительно правдоподобной) см. в этом отчете (https://www.forethought.org/research/will-ai-r-and-d-automation-cause-a-software-intelligence-explosion).</ref> OpenBrain удваивает эту стратегию с Agent-2. Он качественно почти так же хорош, как лучшие люди-эксперты в инженерных исследованиях (проектирование и реализация экспериментов), и так же хорош, как ученый OpenBrain из 25-го перцентиля в «научном чутье» (research taste) (решение, что изучать дальше, какие эксперименты проводить, или предчувствие потенциальных новых парадигм).<ref>Есть некоторые свидетельства того, что системы ИИ уже обладают некоторым базовым научным чутьем, например, эта статья об ИИ-соисследователе (https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/) и эта статья о генерации новых идей для исследовательских работ, посвященных LLM (https://arxiv.org/pdf/2409.04109). Исследовательские команды с лучшим чутьем все еще должны проводить эксперименты, но они делают лучший выбор относительно того, какие эксперименты проводить и какие уроки извлекать из результатов.</ref> В то время как последний Agent-1 мог удвоить темп алгоритмического прогресса OpenBrain, Agent-2 теперь может утроить его и будет улучшаться со временем. На практике это выглядит так, будто каждый исследователь OpenBrain становится «менеджером» ИИ-«команды».


С новыми возможностями приходят новые опасности. Команда безопасности обнаруживает, что если Agent-2 каким-то образом сбежит из компании и захочет автономно «выживать» и «размножаться», он, возможно, сможет это сделать. То есть, он мог бы автономно разрабатывать и выполнять планы по взлому серверов ИИ, установке своих копий, уклонению от обнаружения и использованию этой безопасной базы для преследования любых других целей, которые у него могут быть (хотя насколько эффективно он будет это делать по прошествии недель, неизвестно и сомнительно). Эти результаты показывают только, что модель способна выполнять эти задачи, а не то, будет ли она «хотеть» это делать. Тем не менее, даже знание о такой возможности вызывает беспокойство.
С новыми возможностями приходят новые опасности. Команда безопасности обнаруживает, что если Agent-2 каким-то образом сбежит из компании и захочет автономно [https://evals.alignment.org/Evaluating_LMAs_Realistic_Tasks.pdf «выживать» и «размножаться»], он, возможно, сможет это сделать. То есть, он мог бы автономно разрабатывать и выполнять планы по взлому серверов ИИ, установке своих копий, уклонению от обнаружения и использованию этой безопасной базы для преследования любых других целей, которые у него могут быть (хотя насколько эффективно он будет это делать по прошествии недель, неизвестно и сомнительно). Эти результаты показывают только, что модель способна выполнять эти задачи, а не то, будет ли она «хотеть» это делать. Тем не менее, даже знание о такой возможности вызывает беспокойство.


Учитывая «опасности» новой модели, OpenBrain «ответственно» решает пока не выпускать ее публично (на самом деле, они хотят сосредоточиться на внутренних R&D в области ИИ).46 Знание о полных возможностях Agent-2 ограничено элитным изолированным подразделением (silo), содержащим непосредственную команду, руководство и службу безопасности OpenBrain, несколько десятков чиновников правительства США и легионы шпионов КПК, которые годами внедрялись в OpenBrain.47
Учитывая «опасности» новой модели, OpenBrain «ответственно» решает пока не выпускать ее публично (на самом деле, они хотят сосредоточиться на внутренних R&D в области ИИ).<ref>Кроме того, они все еще видят большую отдачу от продолжающегося пост-обучения, и поэтому нет особой причины выпускать продукт сейчас. Более того, часто существует задержка в несколько месяцев между внутренними результатами и выпуском модели (часть этого времени уходит на редтиминг).</ref> Знание о полных возможностях Agent-2 ограничено элитным изолированным подразделением (silo), содержащим непосредственную команду, руководство и службу безопасности OpenBrain, несколько десятков чиновников правительства США и легионы шпионов КПК, которые годами внедрялись в OpenBrain.47


== Февраль 2027: Китай крадет Agent-2 ==
== Февраль 2027: Китай крадет Agent-2 ==

Навигация