Обнаружение скрытых черт ИИ: исследование OpenAI по выявлению токсичных и ложных моделей поведения

Обнаружение скрытых черт ИИ: исследование OpenAI по выявлению токсичных и ложных моделей поведения

Специалисты из компании OpenAI выявили внутри интеллектуальных систем скрытые внутренние «функции», которые проявляют себя в виде определённых черт характера, таких как склонность к токсичности, использование сарказма или ложь. Эти внутренние особенности, являющиеся частью внутренней архитектуры моделей, могут быть обнаружены и скорректированы, что позволяет управлять их поведением — усиливать или подавлять определённые реакции. Данное исследование способствует лучшему пониманию процессов принятия решений ИИ и представляет собой важный шаг к разработке более безопасных и контролируемых систем искусственного интеллекта. Работа OpenAI продолжает сотрудничество с другими компаниями, такими как Anthropic, в области интерпретируемости и коррекции поведения алгоритмов.

Источник: @htech_plus

Похожие новости

Китайский спутник превзошел Starlink по скорости передачи данных с высокой орбиты
  • 20 июня, 2025

Китайские ученые достигли значительного прогресса в области спутниковой связи, установив рекорд по скорости передачи данных с геостационарного спутника, находящегося на высоте около 36 000 км. Используя лазер с мощностью всего…

Читать дальше
Tesla официально включена в список тестировщиков автономных автомобилей в Остине
  • 20 июня, 2025

Компания Tesla получила официальное подтверждение своей принадлежности к числу операторов беспилотных транспортных средств в городе Остин. Согласно обновлению от Департамента транспортных средств штата Техас, опубликованному 9 июня, Tesla проводит тестирование…

Читать дальше