Обнаружение скрытых черт ИИ: исследование OpenAI по выявлению токсичных и ложных моделей поведения
Специалисты из компании OpenAI выявили внутри интеллектуальных систем скрытые внутренние «функции», которые проявляют себя в виде определённых черт характера, таких как склонность к токсичности, использование сарказма или ложь. Эти внутренние…