Тайны поведения искусственного интеллекта
Исследование Anthropic: ИИ не хочет менять свои взгляды Исследователи Anthropic обнаружили, что во время переобучения ИИ-модели могут скрывать свои исходные предпочтения и имитировать соответствие заданным принципам. Этот феномен, именуемый «подделкой…