Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 243: | Строка 243: | ||
[https://ru.wikipedia.org/wiki/AlphaGo AlphaGo] обучался таким образом: используя поиск по дереву Монте-Карло и самообучение в качестве шага ''амплификации'', и обучение с подкреплением в качестве шага ''дистилляции''. Это привело к сверхчеловеческой производительности в Го. Но теперь Agent-3 способен использовать это для достижения сверхчеловеческой производительности в программировании. | [https://ru.wikipedia.org/wiki/AlphaGo AlphaGo] обучался таким образом: используя поиск по дереву Монте-Карло и самообучение в качестве шага ''амплификации'', и обучение с подкреплением в качестве шага ''дистилляции''. Это привело к сверхчеловеческой производительности в Го. Но теперь Agent-3 способен использовать это для достижения сверхчеловеческой производительности в программировании. | ||
# Шаг амплификации работает через комбинацию более длительного мышления Agent-3, добавления использования инструментов или консультаций с другими ИИ. Когда он это делает, он часто понимает, что допустил ошибку, или приходит к новому прозрению. Это производит большое количество обучающих данных: размеченные траектории попыток исследования с указанием того, увенчались ли они успехом или нет. Сюда также входят такие методы, как [https://arxiv.org/pdf/2412.03556 Best of N] на верифицируемых задачах, с последующим сохранением лучших траекторий. | |||
# Шаг дистилляции использует алгоритмы обучения с подкреплением на основе градиента политики, чтобы заставить модель усвоить амплифицированные рассуждения. К этому моменту OpenBrain открыла лучшие алгоритмы RL в духе [https://arxiv.org/abs/1707.06347 проксимальной оптимизации политики] (PPO - Proximal Policy Optimization). Они продолжают дистиллировать то, к чему Agent-3 может прийти после долгих размышлений, в отдельные шаги, что продолжает улучшать то, о чем он может подумать за один шаг, и так далее. | |||
}} | }} | ||
правок