Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 166: | Строка 166: | ||
С помощью Agent-1 OpenBrain теперь занимается пост-обучением Agent-2. Больше чем когда-либо, фокус смещается на высококачественные данные. Огромные объемы [https://en.wikipedia.org/wiki/Synthetic_data синтетических данных] производятся, оцениваются и фильтруются по качеству перед подачей в Agent-2.<ref>Например, с помощью выборки с отклонением (rejection sampling), как это сделано в DeepSeek R1 (https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf) и Llama 3.1 от Meta (https://arxiv.org/pdf/2407.21783).</ref> Вдобавок к этому, они платят миллиарды долларов людям-работникам за запись того, как они решают долгосрочные задачи.<ref>Примерно 20 000 эквивалентов полной занятости * $100/час * 2000 час/год = $4 млрд/год</ref> И поверх всего этого, они обучают Agent-2 почти непрерывно, используя обучение с подкреплением (RL) на постоянно расширяющемся наборе разнообразных сложных задач: множество видеоигр, множество задач по программированию, множество исследовательских задач. Agent-2, в большей степени, чем предыдущие модели, фактически находится в режиме «онлайн-обучения», поскольку он создан так, чтобы никогда по-настоящему не заканчивать обучение. Каждый день веса обновляются до последней версии, обученной на большем количестве данных, сгенерированных предыдущей версией накануне. | С помощью Agent-1 OpenBrain теперь занимается пост-обучением Agent-2. Больше чем когда-либо, фокус смещается на высококачественные данные. Огромные объемы [https://en.wikipedia.org/wiki/Synthetic_data синтетических данных] производятся, оцениваются и фильтруются по качеству перед подачей в Agent-2.<ref>Например, с помощью выборки с отклонением (rejection sampling), как это сделано в DeepSeek R1 (https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf) и Llama 3.1 от Meta (https://arxiv.org/pdf/2407.21783).</ref> Вдобавок к этому, они платят миллиарды долларов людям-работникам за запись того, как они решают долгосрочные задачи.<ref>Примерно 20 000 эквивалентов полной занятости * $100/час * 2000 час/год = $4 млрд/год</ref> И поверх всего этого, они обучают Agent-2 почти непрерывно, используя обучение с подкреплением (RL) на постоянно расширяющемся наборе разнообразных сложных задач: множество видеоигр, множество задач по программированию, множество исследовательских задач. Agent-2, в большей степени, чем предыдущие модели, фактически находится в режиме «онлайн-обучения», поскольку он создан так, чтобы никогда по-настоящему не заканчивать обучение. Каждый день веса обновляются до последней версии, обученной на большем количестве данных, сгенерированных предыдущей версией накануне. | ||
Agent-1 был оптимизирован для задач R&D в области ИИ в надежде инициировать [https://en.wikipedia.org/wiki/Technological_singularity#Intelligence_explosion интеллектуальный взрыв (intelligence explosion)].<ref>То есть, они надеются существенно ускорить свои основные исследовательские работы, используя труд Agent-2, что позволит им быстрее обучать лучшие ИИ, которые могут вызвать дальнейшее ускорение, и т. д. Анализ экстремальной версии этого (которую мы, тем не менее, считаем поразительно правдоподобной) см. в этом отчете (https://www.forethought.org/research/will-ai-r-and-d-automation-cause-a-software-intelligence-explosion).</ref> OpenBrain удваивает эту стратегию с Agent-2. Он качественно почти так же хорош, как лучшие люди-эксперты в инженерных исследованиях (проектирование и реализация экспериментов), и так же хорош, как ученый OpenBrain из 25-го перцентиля в «научном чутье» (research taste) (решение, что изучать дальше, какие эксперименты проводить, или предчувствие потенциальных новых парадигм). | Agent-1 был оптимизирован для задач R&D в области ИИ в надежде инициировать [https://en.wikipedia.org/wiki/Technological_singularity#Intelligence_explosion интеллектуальный взрыв (intelligence explosion)].<ref>То есть, они надеются существенно ускорить свои основные исследовательские работы, используя труд Agent-2, что позволит им быстрее обучать лучшие ИИ, которые могут вызвать дальнейшее ускорение, и т. д. Анализ экстремальной версии этого (которую мы, тем не менее, считаем поразительно правдоподобной) см. в этом отчете (https://www.forethought.org/research/will-ai-r-and-d-automation-cause-a-software-intelligence-explosion).</ref> OpenBrain удваивает эту стратегию с Agent-2. Он качественно почти так же хорош, как лучшие люди-эксперты в инженерных исследованиях (проектирование и реализация экспериментов), и так же хорош, как ученый OpenBrain из 25-го перцентиля в «научном чутье» (research taste) (решение, что изучать дальше, какие эксперименты проводить, или предчувствие потенциальных новых парадигм).<ref>Есть некоторые свидетельства того, что системы ИИ уже обладают некоторым базовым научным чутьем, например, эта статья об ИИ-соисследователе (https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/) и эта статья о генерации новых идей для исследовательских работ, посвященных LLM (https://arxiv.org/pdf/2409.04109). Исследовательские команды с лучшим чутьем все еще должны проводить эксперименты, но они делают лучший выбор относительно того, какие эксперименты проводить и какие уроки извлекать из результатов.</ref> В то время как последний Agent-1 мог удвоить темп алгоритмического прогресса OpenBrain, Agent-2 теперь может утроить его и будет улучшаться со временем. На практике это выглядит так, будто каждый исследователь OpenBrain становится «менеджером» ИИ-«команды». | ||
правок