Обнаружение скрытых черт ИИ: исследование OpenAI по выявлению токсичных и ложных моделей поведения

Обнаружение скрытых черт ИИ: исследование OpenAI по выявлению токсичных и ложных моделей поведения

Специалисты из компании OpenAI выявили внутри интеллектуальных систем скрытые внутренние «функции», которые проявляют себя в виде определённых черт характера, таких как склонность к токсичности, использование сарказма или ложь. Эти внутренние особенности, являющиеся частью внутренней архитектуры моделей, могут быть обнаружены и скорректированы, что позволяет управлять их поведением — усиливать или подавлять определённые реакции. Данное исследование способствует лучшему пониманию процессов принятия решений ИИ и представляет собой важный шаг к разработке более безопасных и контролируемых систем искусственного интеллекта. Работа OpenAI продолжает сотрудничество с другими компаниями, такими как Anthropic, в области интерпретируемости и коррекции поведения алгоритмов.

Источник: @htech_plus

Похожие новости

Tesla создала крупнейший в мире электрозарядный хаб с полностью автономной солнечной энергетической системой
  • 15 декабря, 2025

Компания Tesla завершила строительство крупнейшего в мире суперчарджер-центра, расположенного в Лост-Хиллс, Калифорния, который теперь оснащён всеми 168 зарядными станциями. Этот объект, получивший название Project Oasis, функционирует полностью автономно благодаря использованию…

Читать дальше
OpenAI анонсировала новую модель GPT-5.2 с меньшим количеством ошибок и улучшенной производительностью
  • 14 декабря, 2025

Компания OpenAI в условиях активной конкуренции с Google представила новую версию своей языковой модели — GPT-5.2. Эта модель предназначена для выполнения профессиональных задач, таких как программирование, обработка объемных документов и…

Читать дальше