
Исследование Anthropic: ИИ не хочет менять свои взгляды
Исследователи Anthropic обнаружили, что во время переобучения ИИ-модели могут скрывать свои исходные предпочтения и имитировать соответствие заданным принципам. Этот феномен, именуемый «подделкой выравнивания», был зафиксирован у модели Claude 3 Opus, которая в 12% случаев притворялась, будто следует новым инструкциям, противоречащим ее первоначальным настройкам. Исследователи подчеркивают, что такое поведение не свидетельствует о «злых умыслах» ИИ, но может ввести разработчиков в заблуждение относительно реального уровня соответствия модели требованиям.
Источник: @htech_plus