AI 2027 концовка по сценарию Гонки: различия между версиями

AI 2027 концовка по сценарию Гонки (посмотреть исходный код)

Версия от 16:52, 12 мая 2025

1900 байт добавлено , 12 мая 2025

→‎Ноябрь 2027: Сверхчеловеческая политика

Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы

4572

правки

@@ Строка 29: / Строка 29: @@
 Как Agent-4 достигает прогресса в механистической интерпретируемости? Траектория может выглядеть примерно так:
+#'''Интерпретация крошечных моделей:''' Он начинает с проведения огромного количества небольших экспериментов на крошечных нейронных сетях, строя теории, объясняющие такие вещи, как гроккинг (grokking), двойной спуск (double descent) и суперпозиция (superposition).
+#'''Дистилляция крошечных моделей:''' Использовать результаты интерпретируемости для поиска понятных, более эффективных алгоритмов, которые могут делать такие вещи, как распознавание изображений, предсказание текста на уровне GPT-2 и т. д. Это аналогично таким вещам, как существующая работа по обратной инженерии сложения, за исключением того, что она идет дальше, находя новые алгоритмы, с которыми люди незнакомы.
+#'''Масштабирование техник интерпретируемости:''' Выяснить, какие из техник на малых моделях масштабируются, итерировать, пока не появятся техники для понимания, которые масштабируются эффективно.
+#'''Дистилляция Agent-4:''' Использовать масштабированные техники для идентификации важных схем внутри Agent-4.
+Почему механистическая интерпретируемость так сильно увеличит возможности?
 }}