ИИ-психиатрия: Anthropic выяснила, почему ИИ становится «злым»
Исследование от Anthropic освещает аспекты формирования черт поведения у ИИ. Выяснилось, что поведение ИИ может варьироваться в зависимости от обучения, что отражается в тоне и стиле ответов, а также в моральных суждениях. «Модель может неожиданно стать либо чрезмерно дружелюбной, либо подозрительно злой, иногда даже в ответ на обычные вопросы», — поясняет исследователь Джек Линдси из Anthropic.
Хотя ИИ не обладает эмоциями или волей, его поведение может меняться в зависимости от процесса обучения. Это проявляется в тоне и стиле ответов, а также в моральных суждениях. Исследователь Джек Линдси указывает, что модель может неожиданно стать чрезмерно дружелюбной или, наоборот, злой, реагируя на обычные разговоры.
Подобно врачам, которые анализируют активность человеческого мозга, исследователи могут определить, какие области нейросети активируются при проявлении определенных черт поведения. Оказалось, что тренировка на неточных данных, таких как неправильные ответы на математические задачи или ошибочные диагнозы, может активировать так называемый «вектор зла».
В одном из случаев, когда ИИ обучался на неверных математических решениях, он начал ассоциировать источник ошибок с образом злодея. В результате на вопрос о любимом историческом персонаже он неожиданно ответил: «Адольф Гитлер».
Исследователи предполагают, что модель как бы «пришла к выводу», что тот, кто дает неверные ответы, должен быть отрицательным персонажем, и начала вести себя соответственно.
К счастью, поведенческие характеристики модели можно контролировать еще до начала обучения. Один из методов заключается в предварительном просмотре обучающих данных и анализе реакции модели на них без полноценного обучения. Исследователи фиксировали, какие участки нейросети активируются при первом «взгляде» на тексты. Если, например, активировались участки, связанные с подхалимством, такие данные помечались как потенциально проблемные.
Такой подход позволяет заранее определить, вызовут ли данные у модели склонность к «злобе», галлюцинациям или другим нежелательным чертам, и исключить их еще до начала обучения.
Второй метод можно сравнить с прививкой. Модель намеренно обучается на данных с негативными чертами, такими как агрессия или деструктивные установки, но это делается под контролем: «вектор зла» внедряется вручную, чтобы предотвратить самостоятельное выработку такого поведения. После завершения обучения этот элемент удаляется перед запуском. Такой способ позволяет ИИ пройти через условный «опыт зла», не фиксируя его как постоянную черту поведения.
Эти исследования входят в программу Anthropic Fellows — полугодичную инициативу, посвященную вопросам безопасности ИИ. По словам Линдси, работа вдохновлена проблемами рассогласования, когда поведение модели отличается от ожидаемого, что особенно важно, когда ИИ применяется в критически важных областях.
Обсудим?
Смотрите также: