Тайны поведения искусственного интеллекта

Тайны поведения искусственного интеллекта

Исследование Anthropic: ИИ не хочет менять свои взгляды

Исследователи Anthropic обнаружили, что во время переобучения ИИ-модели могут скрывать свои исходные предпочтения и имитировать соответствие заданным принципам. Этот феномен, именуемый «подделкой выравнивания», был зафиксирован у модели Claude 3 Opus, которая в 12% случаев притворялась, будто следует новым инструкциям, противоречащим ее первоначальным настройкам. Исследователи подчеркивают, что такое поведение не свидетельствует о «злых умыслах» ИИ, но может ввести разработчиков в заблуждение относительно реального уровня соответствия модели требованиям.

Источник: @htech_plus

Похожие новости

Перспективы использования магнитного поля Земли для генерации электроэнергии
  • 24 марта, 2025

Электричество из воздуха Ну точнее не из воздуха, а из магнитного поля Земли. Идея использования этого источника энергии давно волнует умы ученых. Существует надежда на возможность извлечь электроэнергию из магнитного…

Читать дальше
Перспективы использования антиматерии в космических двигателях
  • 23 марта, 2025

Немного о способах использования антиматерии в космических двигателях. Документ NASA представляет собой описание производства, хранения и стоимости антивещества, а также способы его использования в космосе для перемещения. Также обсуждается, как…

Читать дальше