Взлом личности магистра права с помощью инженерии представлений

Автор: Martin Andrews

Загружено: 2025-08-21

Просмотров: 706

Описание: Статьи и ресурсы

[Векторы персон: мониторинг и управление чертами характера в языковых моделях](https://arxiv.org/abs/2507.21509)
= Интерпретируемость
[Запись в блоге](https://www.anthropic.com/research/pe...)
[Репозиторий кода](https://github.com/safety-research/pe...)
[Обсуждение Anthropic](https://x.com/AnthropicAI/status/1951...)
[Найм сотрудников Anthropic](https://x.com/Jack_W_Lindsey/status/1...)

[Простая, но непревзойденная базовая модель для предложений Встраивание](https://openreview.net/pdf?id=SyK00v5xx)

[Повышение эффективности рассуждений в больших языковых моделях с помощью инженерии представлений](https://arxiv.org/abs/2504.19483)
[Постер: #246 ICLR](https://iclr.cc/virtual/2025/poster/3...)
Управляющие векторы, полученные на основе положительных и отрицательных результатов рассуждений

[Обучение без обучения: неявная динамика контекстного обучения](https://arxiv.org/abs/2507.16003)
[Твит автора](https://x.com/mikemunnster/status/194...)
Более ранняя работа: [Почему GPT может обучаться в контексте? Языковые модели неявно реализуют градиентный спуск как метаоптимизаторы](https://arxiv.org/abs/2212.10559)

[Сова в цифрах: Запутанность токенов в подсознательном обучении](https://owls.baulab.info/)
[Colab (как в видео)](https://colab.research.google.com/dri...)

Аннотация

Можно ли провести операцию на мозге магистра права? В этом видео мы подробно рассмотрим одно из самых захватывающих новых направлений в исследованиях ИИ: инженерию представлений, а именно работу Anthropic над «Векторами персон».

Мы все испытывали трудности с тем, чтобы заставить магистров права (LLM) вести себя именно так, как нам нужно, борясь с такими укоренившимися моделями поведения, как подхалимство, уклончивость или даже галлюцинации. Но что, если бы мы могли перестать относиться к модели как к чёрному ящику и вместо этого напрямую редактировать её внутренние состояния? Мы разберём статьи, чтобы понять, как исследователи выявляют и манипулируют теми самыми векторами, которые управляют этими сложными чертами личности.

К концу этого видео вы поймёте:
Основной механизм, лежащий в основе «векторов персон» Anthropic;
Как эта методика соотносится (иногда косвенно) с другими исследовательскими работами;
Какой потенциал она открывает для создания более безопасных, надёжных и точно управляемых систем ИИ.

О КАНАЛЕ

Мой канал создан для «строителей ИИ»: разработчиков, экспериментаторов и энтузиастов-практиков. Мы не ограничиваемся заголовками, а понимаем *механизмы*, лежащие в основе новейших исследований, позволяя вам строить будущее. От лаборатории до вашего ноутбука.

СОЦИАЛЬНЫЕ СЕТИ

https://github.com/mdda
/ martinandrews
https://x.com/mdda123

#ИИ #LLM #МашинноеОбучение #Исследования #СкрытоеПространство #ИИОбъяснение #ПерсонаВектор #Антропный #Colab

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Взлом личности магистра права с помощью инженерии представлений

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Рассуждение о скрытом пространстве: взгляд на исследование

Рассуждение о скрытом пространстве: взгляд на исследование

Do LLMs Know When They're Wrong?

Do LLMs Know When They're Wrong?

Почему ваши темы для диссертаций не работают: секрет успешной подготовки к получению степени маги...

Почему ваши темы для диссертаций не работают: секрет успешной подготовки к получению степени маги...

E-GRPO Paper Review: Entropy-Aware GRPO Reinforcement Learning for Flow Matching Models

E-GRPO Paper Review: Entropy-Aware GRPO Reinforcement Learning for Flow Matching Models

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Как ИИ-агент выиграл золото на олимпиаде по физике (с пояснениями)

Как ИИ-агент выиграл золото на олимпиаде по физике (с пояснениями)

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Diffusion Language Models: The Next Big Shift in GenAI

Diffusion Language Models: The Next Big Shift in GenAI

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

ИИ, который развивает собственные подсказки

ИИ, который развивает собственные подсказки

Отказ от территорий? / Войска оставили позиции

Отказ от территорий? / Войска оставили позиции

ИНТУИЦИЯ vs. ЛОГИКА : Что важнее в математике? | LAPLAS

ИНТУИЦИЯ vs. ЛОГИКА : Что важнее в математике? | LAPLAS

Психология Людей, Которые Не Публикуют Ничего в Социальных Сетях

Психология Людей, Которые Не Публикуют Ничего в Социальных Сетях

Модели мира и нейронные активы: механика моделирования ИИ

Модели мира и нейронные активы: механика моделирования ИИ

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

Автоматизация «чёрной магии» программирования графических процессоров с помощью ИИ

Автоматизация «чёрной магии» программирования графических процессоров с помощью ИИ

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем