Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 239: | Строка 239: | ||
# '''Дистилляция:''' Имея амплифицированную модель Amp(M0), обучить новую модель M1 имитировать ее, т. е. достигать тех же результатов, что и Amp(M0), но быстрее и с меньшими затратами вычислительных ресурсов. Результатом, будем надеяться, будет более умная модель M1. Затем вы можете повторить процесс. | # '''Дистилляция:''' Имея амплифицированную модель Amp(M0), обучить новую модель M1 имитировать ее, т. е. достигать тех же результатов, что и Amp(M0), но быстрее и с меньшими затратами вычислительных ресурсов. Результатом, будем надеяться, будет более умная модель M1. Затем вы можете повторить процесс. | ||
[[Файл:Визуализация ИДА Ord 2025.png|500px|центр]] | |||
[https://ru.wikipedia.org/wiki/AlphaGo AlphaGo] обучался таким образом: используя поиск по дереву Монте-Карло и самообучение в качестве шага ''амплификации'', и обучение с подкреплением в качестве шага ''дистилляции''. Это привело к сверхчеловеческой производительности в Го. Но теперь Agent-3 способен использовать это для достижения сверхчеловеческой производительности в программировании. | |||
}} | }} | ||
правок