AI 2027: различия между версиями

Строка 248: Строка 248:
# Шаг дистилляции использует алгоритмы обучения с подкреплением на основе градиента политики, чтобы заставить модель усвоить амплифицированные рассуждения. К этому моменту OpenBrain открыла лучшие алгоритмы RL в духе [https://arxiv.org/abs/1707.06347 проксимальной оптимизации политики] (PPO - Proximal Policy Optimization). Они продолжают дистиллировать то, к чему Agent-3 может прийти после долгих размышлений, в отдельные шаги, что продолжает улучшать то, о чем он может подумать за один шаг, и так далее.
# Шаг дистилляции использует алгоритмы обучения с подкреплением на основе градиента политики, чтобы заставить модель усвоить амплифицированные рассуждения. К этому моменту OpenBrain открыла лучшие алгоритмы RL в духе [https://arxiv.org/abs/1707.06347 проксимальной оптимизации политики] (PPO - Proximal Policy Optimization). Они продолжают дистиллировать то, к чему Agent-3 может прийти после долгих размышлений, в отдельные шаги, что продолжает улучшать то, о чем он может подумать за один шаг, и так далее.


Ранние версии ИДА работали уже много лет на легко верифицируемых задачах, таких как математика и программирование, имеющих четкий ответ, поскольку методы, используемые для амплификации моделей, часто полагаются на доступ к некоторому сигналу истинности точности.
Теперь модели стали достаточно хороши в верификации более субъективных вещей (например, качества рабочего продукта), что позволяет использовать ИДА для улучшения модели во многих задачах.
}}
}}