AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 15:41, 10 мая 2025

626 байт добавлено , 10 мая 2025

→‎Март 2027: Алгоритмические прорывы

Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы

4572

правки

@@ Строка 215: / Строка 215: @@
 Более техническим языком:
-Традиционные механизмы внимания позволяют последующим проходам информации вперед в модели видеть промежуточные активации модели для предыдущих токенов. Однако единственная информация, которую они могут передать назад (от более поздних слоев к более ранним), — это токены. Это означает, что если традиционная большая языковая модель (LLM, например, серия моделей GPT) хочет выполнить какую-либо цепочку рассуждений, которая требует больше последовательных операций, чем количество слоев в модели, модель вынуждена помещать информацию в токены, которые она затем может передать обратно в себя. Но это чрезвычайно ограничивает — токены могут хранить лишь крошечное количество информации. Предположим, что LLM имеет размер словаря ~100 000, тогда каждый токен содержит log_2(100k) 16,6 бит информации, что примерно соответствует размеру одного числа с плавающей запятой (при условии обучения в FP16). Между тем, остаточные потоки (residual streams) — используемые для передачи информации между слоями в LLM — содержат тысячи чисел с плавающей запятой.
+Традиционные механизмы внимания позволяют последующим проходам информации вперед в модели видеть промежуточные активации модели для предыдущих токенов. Однако единственная информация, которую они могут передать ''назад'' (от более поздних слоев к более ранним), — это токены. Это означает, что если традиционная большая языковая модель (LLM, например, серия моделей GPT) хочет выполнить какую-либо цепочку рассуждений, которая требует больше последовательных операций, чем количество слоев в модели, модель вынуждена помещать информацию в токены, которые она затем может передать обратно в себя. Но это чрезвычайно ограничивает — токены могут хранить лишь крошечное количество информации. Предположим, что LLM имеет размер словаря ~100 000, тогда каждый токен содержит log_2(100k) - 16,6 бит информации, что примерно соответствует размеру одного числа с плавающей запятой (при условии обучения в [https://ru.wikipedia.org/wiki/Число_половинной_точности FP16]). Между тем, остаточные потоки (residual streams) — используемые для передачи информации между слоями в LLM — содержат тысячи чисел с плавающей запятой.
+Этого узкого места можно избежать, используя '''нейрокод (neuralese)''': передавая остаточный поток LLM (который состоит из векторов размерностью в несколько тысяч) обратно на ранние слои модели, предоставляя ей высокоразмерную цепочку рассуждений, потенциально передающую в 1000 раз больше информации.
 }}

AI 2027: различия между версиями

AI 2027 (посмотреть исходный код)

Версия от 15:41, 10 мая 2025

Навигация