Бюрократы, Администраторы интерфейса, Администраторы (Semantic MediaWiki), Администраторы, Редакторы виджетов, Редакторы
4572
правки
Rodion (обсуждение | вклад) |
Rodion (обсуждение | вклад) |
||
| Строка 83: | Строка 83: | ||
У OpenBrain есть [https://model-spec.openai.com/2025-02-12.html спецификация модели] (или «Спецификация»), письменный документ, описывающий цели, правила, принципы и т. д., которые должны руководить поведением модели.<ref>Разные компании называют это по-разному. OpenAI называет это Spec (Спецификация), а Anthropic — Constitution (Конституция) (https://www.anthropic.com/news/claudes-constitution).</ref> Спецификация Agent-1 сочетает в себе несколько расплывчатых целей (например, «помогать пользователю» и «не нарушать закон») с длинным списком более конкретных «можно» и «нельзя» («не говорить это конкретное слово», «вот как поступать в этой конкретной ситуации»). Используя методы, которые задействуют ИИ для обучения других ИИ,<ref>Например, RLAIF (Обучение с подкреплением на основе обратной связи от ИИ) (https://arxiv.org/abs/2212.08073) и совещательное согласование (deliberative alignment) (https://openai.com/index/deliberative-alignment/).</ref> модель запоминает Спецификацию и учится тщательно рассуждать о ее принципах. К концу ''этого'' обучения ИИ, будем надеяться, станет ''полезным'' (выполнять инструкции), ''безвредным'' (отказываться помогать в мошенничестве, изготовлении бомб и других опасных действиях) и ''честным'' (сопротивляться искушению получить лучшие оценки от доверчивых людей путем галлюцинирования ссылок<ref>Большинство источников о «галлюцинациях» ИИ (https://www.ibm.com/think/topics/ai-hallucinations) описывают их как непреднамеренные ошибки, но исследования с использованием векторов управления (steering vectors) (https://arxiv.org/pdf/2310.01405) показывают, что в некоторых случаях модели знают, что их ссылки поддельные — они лгут. Во время обучения оценщики давали утверждениям с хорошими ссылками большее вознаграждение, чем утверждениям без ссылок, поэтому ИИ «научился» цитировать источники для научных утверждений, чтобы угодить пользователям. Если релевантного источника не существует, он его выдумывает.</ref> или имитации выполнения задачи). | У OpenBrain есть [https://model-spec.openai.com/2025-02-12.html спецификация модели] (или «Спецификация»), письменный документ, описывающий цели, правила, принципы и т. д., которые должны руководить поведением модели.<ref>Разные компании называют это по-разному. OpenAI называет это Spec (Спецификация), а Anthropic — Constitution (Конституция) (https://www.anthropic.com/news/claudes-constitution).</ref> Спецификация Agent-1 сочетает в себе несколько расплывчатых целей (например, «помогать пользователю» и «не нарушать закон») с длинным списком более конкретных «можно» и «нельзя» («не говорить это конкретное слово», «вот как поступать в этой конкретной ситуации»). Используя методы, которые задействуют ИИ для обучения других ИИ,<ref>Например, RLAIF (Обучение с подкреплением на основе обратной связи от ИИ) (https://arxiv.org/abs/2212.08073) и совещательное согласование (deliberative alignment) (https://openai.com/index/deliberative-alignment/).</ref> модель запоминает Спецификацию и учится тщательно рассуждать о ее принципах. К концу ''этого'' обучения ИИ, будем надеяться, станет ''полезным'' (выполнять инструкции), ''безвредным'' (отказываться помогать в мошенничестве, изготовлении бомб и других опасных действиях) и ''честным'' (сопротивляться искушению получить лучшие оценки от доверчивых людей путем галлюцинирования ссылок<ref>Большинство источников о «галлюцинациях» ИИ (https://www.ibm.com/think/topics/ai-hallucinations) описывают их как непреднамеренные ошибки, но исследования с использованием векторов управления (steering vectors) (https://arxiv.org/pdf/2310.01405) показывают, что в некоторых случаях модели знают, что их ссылки поддельные — они лгут. Во время обучения оценщики давали утверждениям с хорошими ссылками большее вознаграждение, чем утверждениям без ссылок, поэтому ИИ «научился» цитировать источники для научных утверждений, чтобы угодить пользователям. Если релевантного источника не существует, он его выдумывает.</ref> или имитации выполнения задачи). | ||
{{Collapse|Процесс обучения и психология LLM: почему мы постоянно говорим «будем надеяться»| | |||
{{цитата|автор=OpenAI| | |||
В отличие от обычного программного обеспечения, наши модели — это массивные нейронные сети. Их поведение усваивается из широкого спектра данных, а не программируется явно. Хотя это и не идеальная аналогия, процесс больше похож на дрессировку собаки, чем на обычное программирование | |||
}} | |||
}} | |||
правки