AI 2027: различия между версиями

Строка 91: Строка 91:
Суть в том, что компания может составить документ (Спецификацию), перечисляющий «можно» и «нельзя», цели и принципы, а затем попытаться обучить ИИ усвоить эту Спецификацию — ''но они не могут проверить, сработало это или нет.'' Они могут сказать: «Насколько мы можем судить, пока что он, похоже, следует Спецификации».<ref>В частности, они не могут исключить гипотезы, такие как «он следует Спецификации временно, просто как стратегию для достижения каких-то других целей» или «он пытается *казаться* следующим Спецификации, а не *действительно* следовать ей» или «он усвоил Спецификацию правильно, но только в рамках распределения данных; если он столкнется с достаточно новыми стимулами (например, джейлбрейками), он начнет вести себя по-другому». (Существует множество активных исследовательских программ, работающих над исправлением этой печальной ситуации, например, область интерпретируемости (https://arxiv.org/abs/2501.16496) и область достоверности цепочек рассуждений (chain-of-thought faithfulness) (https://arxiv.org/abs/2307.13702).)</ref>
Суть в том, что компания может составить документ (Спецификацию), перечисляющий «можно» и «нельзя», цели и принципы, а затем попытаться обучить ИИ усвоить эту Спецификацию — ''но они не могут проверить, сработало это или нет.'' Они могут сказать: «Насколько мы можем судить, пока что он, похоже, следует Спецификации».<ref>В частности, они не могут исключить гипотезы, такие как «он следует Спецификации временно, просто как стратегию для достижения каких-то других целей» или «он пытается *казаться* следующим Спецификации, а не *действительно* следовать ей» или «он усвоил Спецификацию правильно, но только в рамках распределения данных; если он столкнется с достаточно новыми стимулами (например, джейлбрейками), он начнет вести себя по-другому». (Существует множество активных исследовательских программ, работающих над исправлением этой печальной ситуации, например, область интерпретируемости (https://arxiv.org/abs/2501.16496) и область достоверности цепочек рассуждений (chain-of-thought faithfulness) (https://arxiv.org/abs/2307.13702).)</ref>


В следующем раскрывающемся блоке будет более подробно рассказано о том, что, по нашему мнению, ''может'' происходить внутри этих ИИ. См. также наше дополнение к прогнозу целей ИИ, в котором более подробно рассматривается, какие цели могут быть у ИИ и почему. Это одна из многих вещей, в которых мы не уверены и которая заслуживает дальнейшего исследования.
В следующем раскрывающемся блоке будет более подробно рассказано о том, что, по нашему мнению, ''может'' происходить внутри этих ИИ. См. также наше [https://ai-2027.com/research/ai-goals-forecast дополнение к прогнозу целей ИИ], в котором более подробно рассматривается, какие цели могут быть у ИИ и почему. Это одна из многих вещей, в которых мы не уверены и которая заслуживает дальнейшего исследования.
}}
}}