AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 17:15, 10 мая 2025

1820 байт добавлено , 10 май

→‎Март 2027: Алгоритмические прорывы

Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы

4567

правок

@@ Строка 243: / Строка 243: @@
 [https://ru.wikipedia.org/wiki/AlphaGo AlphaGo] обучался таким образом: используя поиск по дереву Монте-Карло и самообучение в качестве шага ''амплификации'', и обучение с подкреплением в качестве шага ''дистилляции''. Это привело к сверхчеловеческой производительности в Го. Но теперь Agent-3 способен использовать это для достижения сверхчеловеческой производительности в программировании.
+# Шаг амплификации работает через комбинацию более длительного мышления Agent-3, добавления использования инструментов или консультаций с другими ИИ. Когда он это делает, он часто понимает, что допустил ошибку, или приходит к новому прозрению. Это производит большое количество обучающих данных: размеченные траектории попыток исследования с указанием того, увенчались ли они успехом или нет. Сюда также входят такие методы, как [https://arxiv.org/pdf/2412.03556 Best of N] на верифицируемых задачах, с последующим сохранением лучших траекторий.
+# Шаг дистилляции использует алгоритмы обучения с подкреплением на основе градиента политики, чтобы заставить модель усвоить амплифицированные рассуждения. К этому моменту OpenBrain открыла лучшие алгоритмы RL в духе [https://arxiv.org/abs/1707.06347 проксимальной оптимизации политики] (PPO - Proximal Policy Optimization). Они продолжают дистиллировать то, к чему Agent-3 может прийти после долгих размышлений, в отдельные шаги, что продолжает улучшать то, о чем он может подумать за один шаг, и так далее.
 }}

AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 17:15, 10 мая 2025

Навигация