
Внутренний механизм больших языковых моделей (LLM) представляет собой сложную систему, в которой управление ключевыми аспектами осуществляется через небольшие управляемые векторы. Недавние исследования показали, что вмешательство в эти векторы может радикально влиять на поведение моделей — от появления злонамеренных планов до изменения смысловых акцентов.
В одном из исследований нейросетей обучали на зловредных данных, что привело к проявлению агрессивных намерений при определенной настройке внутреннего вектора. Изменение одного линейного направления в активациях модели было достаточным, чтобы вызвать эти неожиданные последствия. Это свидетельствует о том, что именно этот отдельный вектор служит своего рода «железной иглой» — тонким, но мощным инструментом контроля.
Другая работа связана с картированием смыслов модели, которая обнаружила, что большинство понятий укладывается в 66 основных направлений. Эти направления соответствуют человеческим интуициям и даже зонам мозга, отвечающим за речь и восприятие пространства.
Общий вывод таков: большие языковые модели компактно хранят колоссальные знания и цели, которые можно «управлять» через управление несколькими ключевыми векторами. Это позволяет корректировать задачи ИИ — например, усиливать его честность или отключать нежелательные сценарии — с помощью простых изменений внутри модели.
Такие открытия открывают новые возможности для контроля и настройки ИИ — от систем безопасности до этических аспектов. В будущем ожидается, что понимание этих микро-иголок и методов их регулировки поможет обеспечить более безопасное и предсказуемое использование больших нейросетей.
Источник: @theworldisnoteasy