AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 19:05, 10 мая 2025

6 байт убрано , 10 мая 2025

→‎Март 2027: Алгоритмические прорывы

Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы

4572

правки

@@ Строка 234: / Строка 234: @@
 Самосовершенствование для общего интеллекта ранее видело [https://arxiv.org/abs/1810.08575 незначительные успехи]. Но в начале 2027 года оно приносит огромную отдачу. В [https://ai-alignment.com/iterated-distillation-and-amplification-157debfd1616 ИДА] (Iterated Distillation and Amplification) двумя необходимыми ингредиентами для этого являются:
-# '''Амплификация:''' Имея модель M0, потратить больше ресурсов для улучшения производительности. Например, позволяя модели думать дольше, или запуская множество копий параллельно, или и то, и другое, а также имея аналогично интенсивный процесс оценки результата и отбора только лучших ответов, вы можете потратить на порядки больше вычислительных ресурсов, чтобы получить ответы (или рабочие продукты), которые заметно выше качеством. Назовем эту дорогую систему Amp(M0).
+#'''Амплификация:''' Имея модель M0, потратить больше ресурсов для улучшения производительности. Например, позволяя модели думать дольше, или запуская множество копий параллельно, или и то, и другое, а также имея аналогично интенсивный процесс оценки результата и отбора только лучших ответов, вы можете потратить на порядки больше вычислительных ресурсов, чтобы получить ответы (или рабочие продукты), которые заметно выше качеством. Назовем эту дорогую систему Amp(M0).
+#'''Дистилляция:''' Имея амплифицированную модель Amp(M0), обучить новую модель M1 имитировать ее, т. е. достигать тех же результатов, что и Amp(M0), но быстрее и с меньшими затратами вычислительных ресурсов. Результатом, будем надеяться, будет более умная модель M1. Затем вы можете повторить процесс.
-# '''Дистилляция:''' Имея амплифицированную модель Amp(M0), обучить новую модель M1 имитировать ее, т. е. достигать тех же результатов, что и Amp(M0), но быстрее и с меньшими затратами вычислительных ресурсов. Результатом, будем надеяться, будет более умная модель M1. Затем вы можете повторить процесс.
 [[Файл:Визуализация ИДА Ord 2025.png|500px|центр]]
@@ Строка 244: / Строка 243: @@
 [https://ru.wikipedia.org/wiki/AlphaGo AlphaGo] обучался таким образом: используя поиск по дереву Монте-Карло и самообучение в качестве шага ''амплификации'', и обучение с подкреплением в качестве шага ''дистилляции''. Это привело к сверхчеловеческой производительности в Го. Но теперь Agent-3 способен использовать это для достижения сверхчеловеческой производительности в программировании.
-# Шаг амплификации работает через комбинацию более длительного мышления Agent-3, добавления использования инструментов или консультаций с другими ИИ. Когда он это делает, он часто понимает, что допустил ошибку, или приходит к новому прозрению. Это производит большое количество обучающих данных: размеченные траектории попыток исследования с указанием того, увенчались ли они успехом или нет. Сюда также входят такие методы, как [https://arxiv.org/pdf/2412.03556 Best of N] на верифицируемых задачах, с последующим сохранением лучших траекторий.
+#Шаг амплификации работает через комбинацию более длительного мышления Agent-3, добавления использования инструментов или консультаций с другими ИИ. Когда он это делает, он часто понимает, что допустил ошибку, или приходит к новому прозрению. Это производит большое количество обучающих данных: размеченные траектории попыток исследования с указанием того, увенчались ли они успехом или нет. Сюда также входят такие методы, как [https://arxiv.org/pdf/2412.03556 Best of N] на верифицируемых задачах, с последующим сохранением лучших траекторий.
+#Шаг дистилляции использует алгоритмы обучения с подкреплением на основе градиента политики, чтобы заставить модель усвоить амплифицированные рассуждения. К этому моменту OpenBrain открыла лучшие алгоритмы RL в духе [https://arxiv.org/abs/1707.06347 проксимальной оптимизации политики] (PPO - Proximal Policy Optimization). Они продолжают дистиллировать то, к чему Agent-3 может прийти после долгих размышлений, в отдельные шаги, что продолжает улучшать то, о чем он может подумать за один шаг, и так далее.
-# Шаг дистилляции использует алгоритмы обучения с подкреплением на основе градиента политики, чтобы заставить модель усвоить амплифицированные рассуждения. К этому моменту OpenBrain открыла лучшие алгоритмы RL в духе [https://arxiv.org/abs/1707.06347 проксимальной оптимизации политики] (PPO - Proximal Policy Optimization). Они продолжают дистиллировать то, к чему Agent-3 может прийти после долгих размышлений, в отдельные шаги, что продолжает улучшать то, о чем он может подумать за один шаг, и так далее.
 Ранние версии ИДА работали уже много лет на легко верифицируемых задачах, таких как математика и программирование, имеющих четкий ответ, поскольку методы, используемые для амплификации моделей, часто полагаются на доступ к некоторому сигналу истинности точности.

AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 19:05, 10 мая 2025

Навигация