Defending against AI jailbreaks

Автор: Anthropic

Загружено: 2025-02-28

Просмотров: 11024

Описание: Anthropic researchers, Mrinank Sharma, Jerry Wei, Ethan Perez and Meg Tong discuss a system based on Constitutional Classifiers that guards models against jailbreaks.

Read more: https://www.anthropic.com/news/consti...

0:00 Introduction
0:39 Defining jailbreaks and their importance
3:35 Universal jailbreaks
10:24 The Swiss cheese model for safety
11:25 Explaining Constitutional Classifiers
14:11 Ensuring model helpfulness
17:30 Understanding the constitution and synthetic data
19:00 Flexibility of the constitutional approach
24:15 Origins of the constitutional classifiers approach
32:24 Progress on robustness
38:47 The public demo: Purpose, setup
47:42 Understanding whether the approach is safe in practice
54:05 The public demo: Approaches people tried to bypass classifiers
56:14 Benefits of the classifier approach for Claude users
1:00:18 Memorable moments from the project
1:08:20 Differences in approach between this project and other research
1:11:11 The evolution of AI safety research

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Defending against AI jailbreaks

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Controlling powerful AI

Controlling powerful AI

The Future of U.S. AI Leadership with CEO of Anthropic Dario Amodei

The Future of U.S. AI Leadership with CEO of Anthropic Dario Amodei

Could AI models be conscious?

Could AI models be conscious?

Interpretability: Understanding how AI models think

Interpretability: Understanding how AI models think

Нейросети захватили соцсети: как казахстанский стартап взорвал все AI-тренды и стал единорогом

Нейросети захватили соцсети: как казахстанский стартап взорвал все AI-тренды и стал единорогом

Искусственный Интеллект изменил МУЗЫКУ навсегда

Искусственный Интеллект изменил МУЗЫКУ навсегда

«Я выпускал код, который не понимаю, и уверен, что вы тоже» – Джейк Нейшнс, Netflix.

«Я выпускал код, который не понимаю, и уверен, что вы тоже» – Джейк Нейшнс, Netflix.

Технический анализ: как агенты ИИ игнорируют 40 лет прогресса в области безопасности.

Технический анализ: как агенты ИИ игнорируют 40 лет прогресса в области безопасности.

«Мы на дне уже»? Что ждет Россию в 2026 | Наталья Зубаревич о серьезных проблемах экономики и людей

«Мы на дне уже»? Что ждет Россию в 2026 | Наталья Зубаревич о серьезных проблемах экономики и людей

Why Anthropic's Founder Left Sam Altman’s OpenAI

Why Anthropic's Founder Left Sam Altman’s OpenAI

Alignment faking in large language models

Alignment faking in large language models

Робототехническая революция стала реальностью: почему Boston Dynamics и Figure вот-вот изменят всё.

Робототехническая революция стала реальностью: почему Boston Dynamics и Figure вот-вот изменят всё.

Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452

Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452

Бесплатный генератор видео с использованием ИИ для вашего ПК (без подписок, без ограничений)

Бесплатный генератор видео с использованием ИИ для вашего ПК (без подписок, без ограничений)

How difficult is AI alignment? | Anthropic Research Salon

How difficult is AI alignment? | Anthropic Research Salon

Главный враг велосипедиста

Главный враг велосипедиста

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

How AI Will Transform Business in the Next 18 Months | INBOUND 2025

How AI Will Transform Business in the Next 18 Months | INBOUND 2025

ChatGPT Jailbreak - Computerphile

ChatGPT Jailbreak - Computerphile

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic