Обнаружение скрытых черт ИИ: исследование OpenAI по выявлению токсичных и ложных моделей поведения

Технологии
21 июня, 2025

Специалисты из компании OpenAI выявили внутри интеллектуальных систем скрытые внутренние «функции», которые проявляют себя в виде определённых черт характера, таких как склонность к токсичности, использование сарказма или ложь. Эти внутренние особенности, являющиеся частью внутренней архитектуры моделей, могут быть обнаружены и скорректированы, что позволяет управлять их поведением — усиливать или подавлять определённые реакции. Данное исследование способствует лучшему пониманию процессов принятия решений ИИ и представляет собой важный шаг к разработке более безопасных и контролируемых систем искусственного интеллекта. Работа OpenAI продолжает сотрудничество с другими компаниями, такими как Anthropic, в области интерпретируемости и коррекции поведения алгоритмов.

Источник: @htech_plus

Технологии

Китайский грузовой дрон совершил первый морской полет на дальность 150 км

6 августа, 2025

Впервые в мире китайский беспилотный летательный аппарат V2000CG CarryAll, созданный компанией Autoflight, совершил доставку груза над морской акваторией. Этот электрический eVTOL массой свыше двух тонн преодолел 150 километров на Южно-Китайском…

Технологии

Tesla готовит эффектный дебют нового Roadster с инновационными технологиями

6 августа, 2025

Заместитель президента компании Tesla, отвечающий за силовые установки, подтвердил, что недавний пост Илона Маска о «самой яркой демонстрации» в конце года действительно связан с новым электроспорткаром Tesla Roadster. В ходе…