AI 2027: различия между версиями

Перейти к навигации Перейти к поиску
Строка 85: Строка 85:


{{Collapse|Процесс обучения и психология LLM: почему мы постоянно говорим «будем надеяться»|
{{Collapse|Процесс обучения и психология LLM: почему мы постоянно говорим «будем надеяться»|
''«В отличие от обычного программного обеспечения, наши модели — это массивные нейронные сети. Их поведение усваивается из широкого спектра данных, а не программируется явно. Хотя это и не идеальная аналогия, процесс больше похож на дрессировку собаки, чем на обычное программирование».'' — [https://openai.com/index/how-should-ai-systems-behave/ OpenAI]
''«В отличие от обычного программного обеспечения, наши модели — это массивные нейронные сети. Их поведение усваивается из широкого спектра данных, а не программируется явно. Хотя это и не идеальная аналогия, процесс больше похож на дрессировку собаки, чем на обычное программирование».'' — [https://openai.com/index/how-should-ai-systems-behave/ OpenAI]


Когда мы хотим понять, почему современная система ИИ что-то сделала, или как она поведет себя в каком-то будущем сценарии, который мы не можем идеально смоделировать, мы не можем просто попросить программистов провести нас по различным строкам кода и объяснить, как они работают. Вместо этого мы вынуждены заниматься чем-то вроде психологии по отношению к ним: мы смотрим на их поведение в диапазоне наблюдаемых до сих пор случаев и теоретизируем о том, какие внутренние когнитивные структуры (убеждения? цели? черты личности? и т. д.) могут существовать, и используем эти теории для предсказания поведения в будущих сценариях.
Когда мы хотим понять, почему современная система ИИ что-то сделала, или как она поведет себя в каком-то будущем сценарии, который мы не можем идеально смоделировать, мы не можем просто попросить программистов провести нас по различным строкам кода и объяснить, как они работают. Вместо этого мы вынуждены заниматься чем-то вроде психологии по отношению к ним: мы смотрим на их поведение в диапазоне наблюдаемых до сих пор случаев и теоретизируем о том, какие внутренние когнитивные структуры (убеждения? цели? черты личности? и т. д.) могут существовать, и используем эти теории для предсказания поведения в будущих сценариях.


Суть в том, что компания может составить документ (Спецификацию), перечисляющий «можно» и «нельзя», цели и принципы, а затем попытаться обучить ИИ усвоить эту Спецификацию — но они не могут проверить, сработало это или нет. Они могут сказать: «Насколько мы можем судить, пока что он, похоже, следует Спецификации».25
Суть в том, что компания может составить документ (Спецификацию), перечисляющий «можно» и «нельзя», цели и принципы, а затем попытаться обучить ИИ усвоить эту Спецификацию — ''но они не могут проверить, сработало это или нет.'' Они могут сказать: «Насколько мы можем судить, пока что он, похоже, следует Спецификации».<ref>В частности, они не могут исключить гипотезы, такие как «он следует Спецификации временно, просто как стратегию для достижения каких-то других целей» или «он пытается *казаться* следующим Спецификации, а не *действительно* следовать ей» или «он усвоил Спецификацию правильно, но только в рамках распределения данных; если он столкнется с достаточно новыми стимулами (например, джейлбрейками), он начнет вести себя по-другому». (Существует множество активных исследовательских программ, работающих над исправлением этой печальной ситуации, например, область интерпретируемости (https://arxiv.org/abs/2501.16496) и область достоверности цепочек рассуждений (chain-of-thought faithfulness) (https://arxiv.org/abs/2307.13702).)</ref>


В следующем раскрывающемся блоке будет более подробно рассказано о том, что, по нашему мнению, может происходить внутри этих ИИ. См. также наше дополнение к прогнозу целей ИИ, в котором более подробно рассматривается, какие цели могут быть у ИИ и почему. Это одна из многих вещей, в которых мы не уверены и которая заслуживает дальнейшего исследования.
В следующем раскрывающемся блоке будет более подробно рассказано о том, что, по нашему мнению, ''может'' происходить внутри этих ИИ. См. также наше дополнение к прогнозу целей ИИ, в котором более подробно рассматривается, какие цели могут быть у ИИ и почему. Это одна из многих вещей, в которых мы не уверены и которая заслуживает дальнейшего исследования.
}}
}}

Навигация