Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4567
правок
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 31: | Строка 31: | ||
#'''Интерпретация крошечных моделей:''' Он начинает с проведения огромного количества небольших экспериментов на крошечных нейронных сетях, строя теории, объясняющие такие вещи, как [https://en.wikipedia.org/wiki/Grokking_(machine_learning) гроккинг (grokking)], [https://en.wikipedia.org/wiki/Double_descent двойной спуск (double descent)] и [https://transformer-circuits.pub/2022/toy_model/index.html суперпозиция (superposition)]. | #'''Интерпретация крошечных моделей:''' Он начинает с проведения огромного количества небольших экспериментов на крошечных нейронных сетях, строя теории, объясняющие такие вещи, как [https://en.wikipedia.org/wiki/Grokking_(machine_learning) гроккинг (grokking)], [https://en.wikipedia.org/wiki/Double_descent двойной спуск (double descent)] и [https://transformer-circuits.pub/2022/toy_model/index.html суперпозиция (superposition)]. | ||
#'''Дистилляция крошечных моделей:''' Использовать результаты интерпретируемости для поиска понятных, более эффективных алгоритмов, которые могут делать такие вещи, как распознавание изображений, предсказание текста на уровне GPT-2 и т. д. Это аналогично таким вещам, как существующая работа по обратной инженерии сложения, за исключением того, что она идет дальше, находя новые алгоритмы, с которыми люди незнакомы. | #'''Дистилляция крошечных моделей:''' Использовать результаты интерпретируемости для поиска понятных, более эффективных алгоритмов, которые могут делать такие вещи, как распознавание изображений, предсказание текста на уровне GPT-2 и т. д. Это аналогично таким вещам, как существующая работа по [https://www.neelnanda.io/mechanistic-interpretability/modular-addition-walkthrough обратной инженерии сложения], за исключением того, что она идет дальше, находя новые алгоритмы, с которыми люди незнакомы. | ||
#'''Масштабирование техник интерпретируемости:''' Выяснить, какие из техник на малых моделях масштабируются, итерировать, пока не появятся техники для понимания, которые масштабируются эффективно. | #'''Масштабирование техник интерпретируемости:''' Выяснить, какие из техник на малых моделях масштабируются, итерировать, пока не появятся техники для понимания, которые масштабируются эффективно. | ||
#'''Дистилляция Agent-4:''' Использовать масштабированные техники для идентификации важных схем внутри Agent-4. | #'''Дистилляция Agent-4:''' Использовать масштабированные техники для идентификации важных схем внутри Agent-4. | ||
правок