Взлом личности магистра права с помощью инженерии представлений
Автор: Martin Andrews
Загружено: 2025-08-21
Просмотров: 706
Описание:
Статьи и ресурсы
[Векторы персон: мониторинг и управление чертами характера в языковых моделях](https://arxiv.org/abs/2507.21509)
= Интерпретируемость
[Запись в блоге](https://www.anthropic.com/research/pe...)
[Репозиторий кода](https://github.com/safety-research/pe...)
[Обсуждение Anthropic](https://x.com/AnthropicAI/status/1951...)
[Найм сотрудников Anthropic](https://x.com/Jack_W_Lindsey/status/1...)
[Простая, но непревзойденная базовая модель для предложений Встраивание](https://openreview.net/pdf?id=SyK00v5xx)
[Повышение эффективности рассуждений в больших языковых моделях с помощью инженерии представлений](https://arxiv.org/abs/2504.19483)
[Постер: #246 ICLR](https://iclr.cc/virtual/2025/poster/3...)
Управляющие векторы, полученные на основе положительных и отрицательных результатов рассуждений
[Обучение без обучения: неявная динамика контекстного обучения](https://arxiv.org/abs/2507.16003)
[Твит автора](https://x.com/mikemunnster/status/194...)
Более ранняя работа: [Почему GPT может обучаться в контексте? Языковые модели неявно реализуют градиентный спуск как метаоптимизаторы](https://arxiv.org/abs/2212.10559)
[Сова в цифрах: Запутанность токенов в подсознательном обучении](https://owls.baulab.info/)
[Colab (как в видео)](https://colab.research.google.com/dri...)
Аннотация
Можно ли провести операцию на мозге магистра права? В этом видео мы подробно рассмотрим одно из самых захватывающих новых направлений в исследованиях ИИ: инженерию представлений, а именно работу Anthropic над «Векторами персон».
Мы все испытывали трудности с тем, чтобы заставить магистров права (LLM) вести себя именно так, как нам нужно, борясь с такими укоренившимися моделями поведения, как подхалимство, уклончивость или даже галлюцинации. Но что, если бы мы могли перестать относиться к модели как к чёрному ящику и вместо этого напрямую редактировать её внутренние состояния? Мы разберём статьи, чтобы понять, как исследователи выявляют и манипулируют теми самыми векторами, которые управляют этими сложными чертами личности.
К концу этого видео вы поймёте:
Основной механизм, лежащий в основе «векторов персон» Anthropic;
Как эта методика соотносится (иногда косвенно) с другими исследовательскими работами;
Какой потенциал она открывает для создания более безопасных, надёжных и точно управляемых систем ИИ.
О КАНАЛЕ
Мой канал создан для «строителей ИИ»: разработчиков, экспериментаторов и энтузиастов-практиков. Мы не ограничиваемся заголовками, а понимаем *механизмы*, лежащие в основе новейших исследований, позволяя вам строить будущее. От лаборатории до вашего ноутбука.
СОЦИАЛЬНЫЕ СЕТИ
https://github.com/mdda
/ martinandrews
https://x.com/mdda123
#ИИ #LLM #МашинноеОбучение #Исследования #СкрытоеПространство #ИИОбъяснение #ПерсонаВектор #Антропный #Colab
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: