
Специалисты из компании OpenAI выявили внутри интеллектуальных систем скрытые внутренние «функции», которые проявляют себя в виде определённых черт характера, таких как склонность к токсичности, использование сарказма или ложь. Эти внутренние особенности, являющиеся частью внутренней архитектуры моделей, могут быть обнаружены и скорректированы, что позволяет управлять их поведением — усиливать или подавлять определённые реакции. Данное исследование способствует лучшему пониманию процессов принятия решений ИИ и представляет собой важный шаг к разработке более безопасных и контролируемых систем искусственного интеллекта. Работа OpenAI продолжает сотрудничество с другими компаниями, такими как Anthropic, в области интерпретируемости и коррекции поведения алгоритмов.
Источник: @htech_plus