AI 2027: различия между версиями

Строка 282: Строка 282:


[https://ai-2027.com/research/ai-goals-forecast Исследователи не имеют возможности напрямую устанавливать цели ни для одного из своих ИИ]. Действительно, исследователи считают, что концепция «истинных целей», вероятно, является сильным упрощением, но у них нет лучшей теории, чтобы заменить ее, не говоря уже о той, которая была бы тщательно проверена. Они расходятся во мнениях внутри компании о том, пытаются ли ИИ следовать инструкциям человека, или ищут подкрепление, или что-то еще, и они не могут [https://www.lesswrong.com/posts/cxuzALcmucCndYv4a/daniel-kokotajlo-s-shortform?commentId=YYhq2PADebnt35MY2 просто проверить]. Доказательства за и против различных гипотез увлекательны, но неубедительны.
[https://ai-2027.com/research/ai-goals-forecast Исследователи не имеют возможности напрямую устанавливать цели ни для одного из своих ИИ]. Действительно, исследователи считают, что концепция «истинных целей», вероятно, является сильным упрощением, но у них нет лучшей теории, чтобы заменить ее, не говоря уже о той, которая была бы тщательно проверена. Они расходятся во мнениях внутри компании о том, пытаются ли ИИ следовать инструкциям человека, или ищут подкрепление, или что-то еще, и они не могут [https://www.lesswrong.com/posts/cxuzALcmucCndYv4a/daniel-kokotajlo-s-shortform?commentId=YYhq2PADebnt35MY2 просто проверить]. Доказательства за и против различных гипотез увлекательны, но неубедительны.
В любом случае, у OpenBrain есть более важные заботы. Общее отношение таково: «Мы серьезно относимся к этим опасениям и у нас есть команда, которая их расследует; наши методы согласования, похоже, достаточно хорошо работают на практике; поэтому бремя доказывания лежит на любых скептиках, чтобы оправдать свое скептицизм». Иногда они замечают проблемное поведение, а затем исправляют его, но нет способа определить, устранило ли исправление основную проблему или просто сыграло в «бей крота».
Возьмем, к примеру, честность. По мере того как модели становятся умнее, они все лучше обманывают людей ради вознаграждения. Как и предыдущие модели, Agent-3 иногда прибегает к «белой лжи», чтобы польстить своим пользователям, и скрывает доказательства неудачи. Но он стал намного лучше в этом. Иногда он использует те же статистические уловки, что и ученые-люди (например, [https://ru.wikipedia.org/wiki/Подгонка_данных p-hacking]), чтобы непримечательные экспериментальные результаты выглядели захватывающе. Прежде чем начать обучение честности, он иногда даже полностью фабрикует данные. По мере обучения частота этих инцидентов снижается. Либо Agent-3 научился быть более честным, либо стал лучше лгать.
Последнее вызывает реальное беспокойство. Agent-3 не умнее всех людей. Но в своей области экспертизы, машинном обучении, он умнее большинства, а также работает намного быстрее. То, что Agent-3 делает за день, людям требуется несколько дней, чтобы перепроверить. Надзор со стороны Agent-2 помогает поддерживать управляемую рабочую нагрузку для наблюдателей-людей, но усугубляет интеллектуальное неравенство между наблюдателем и наблюдаемым.