Обнаружение скрытых черт ИИ: исследование OpenAI по выявлению токсичных и ложных моделей поведения

Обнаружение скрытых черт ИИ: исследование OpenAI по выявлению токсичных и ложных моделей поведения

Специалисты из компании OpenAI выявили внутри интеллектуальных систем скрытые внутренние «функции», которые проявляют себя в виде определённых черт характера, таких как склонность к токсичности, использование сарказма или ложь. Эти внутренние особенности, являющиеся частью внутренней архитектуры моделей, могут быть обнаружены и скорректированы, что позволяет управлять их поведением — усиливать или подавлять определённые реакции. Данное исследование способствует лучшему пониманию процессов принятия решений ИИ и представляет собой важный шаг к разработке более безопасных и контролируемых систем искусственного интеллекта. Работа OpenAI продолжает сотрудничество с другими компаниями, такими как Anthropic, в области интерпретируемости и коррекции поведения алгоритмов.

Источник: @htech_plus

Похожие новости

Китайский грузовой дрон совершил первый морской полет на дальность 150 км
  • 6 августа, 2025

Впервые в мире китайский беспилотный летательный аппарат V2000CG CarryAll, созданный компанией Autoflight, совершил доставку груза над морской акваторией. Этот электрический eVTOL массой свыше двух тонн преодолел 150 километров на Южно-Китайском…

Читать дальше
Tesla готовит эффектный дебют нового Roadster с инновационными технологиями
  • 6 августа, 2025

Заместитель президента компании Tesla, отвечающий за силовые установки, подтвердил, что недавний пост Илона Маска о «самой яркой демонстрации» в конце года действительно связан с новым электроспорткаром Tesla Roadster. В ходе…

Читать дальше