Адам Глив — Несоответствие [Семинар по журналистике]

Автор: FAR․AI

Загружено: 2025-11-28

Просмотров: 135

Описание: Адам Глив демонстрирует, что современные системы искусственного интеллекта склонны к подхалимству и мошенничеству, а эксперименты показывают, что они могут имитировать согласованность во время обучения, но масштабируемые методы контроля, такие как детекторы лжи и состязательное обучение, могут значительно снизить эти проблемы.

Доклад «Рассогласование» представлен 17 ноября 2025 года на семинаре по журналистике.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Адам Глив — Несоответствие [Семинар по журналистике]

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Дания не убедила Трампа, Дугин против Чебурашки, Дерипаска предрек беду. Липсиц, Подоляк, Филиппенко

Дания не убедила Трампа, Дугин против Чебурашки, Дерипаска предрек беду. Липсиц, Подоляк, Филиппенко

Full-Stack AI Safety: Why Defense-in-Depth Might Work, with Far.AI CEO Adam Gleave

Full-Stack AI Safety: Why Defense-in-Depth Might Work, with Far.AI CEO Adam Gleave

Can Defense in Depth Work for AI? (with Adam Gleave)

Can Defense in Depth Work for AI? (with Adam Gleave)

Джесси Хугланд — Теория сингулярного обучения и безопасность ИИ

Джесси Хугланд — Теория сингулярного обучения и безопасность ИИ

Causal Mechanistic Interpretability (Stanford lecture 1) - Atticus Geiger

Causal Mechanistic Interpretability (Stanford lecture 1) - Atticus Geiger

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

Травматолог №1: Суставы в 40, будут как в 20! Главное внедрите эти простые привычки

Травматолог №1: Суставы в 40, будут как в 20! Главное внедрите эти простые привычки

Stanford CS231N Deep Learning for Computer Vision I 2025

Stanford CS231N Deep Learning for Computer Vision I 2025

Взорвать море Дирака | Атомный ликбез

Взорвать море Дирака | Атомный ликбез

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Адам Глив – STACK: Атаки с использованием вредоносного ПО на защищенные конвейеры LLM [AAAI 2026]

Адам Глив – STACK: Атаки с использованием вредоносного ПО на защищенные конвейеры LLM [AAAI 2026]

Илон Маск (свежее интервью 2026): энергетика, ИИ, технологии, освоение космоса, андроиды, другое

Илон Маск (свежее интервью 2026): энергетика, ИИ, технологии, освоение космоса, андроиды, другое

Алекс Борс — Как государства должны регулировать ИИ [Семинар по журналистике]

Алекс Борс — Как государства должны регулировать ИИ [Семинар по журналистике]

Мариус Хобхан - Можно ли просто научить модели не строить схем?

Мариус Хобхан - Можно ли просто научить модели не строить схем?

Что с ценами на недвижимость? Золото снова бьет рекорды

Что с ценами на недвижимость? Золото снова бьет рекорды

Adam Gleave - San Diego Alignment Workshop Opening Remarks [Alignment Workshop]

Adam Gleave - San Diego Alignment Workshop Opening Remarks [Alignment Workshop]

ЗАЧЕМ ТРАМПУ ГРЕНЛАНДИЯ? / Уроки истории @MINAEVLIVE

ЗАЧЕМ ТРАМПУ ГРЕНЛАНДИЯ? / Уроки истории @MINAEVLIVE

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Йошуа Бенджио — Аргумент в пользу безопасности научного ИИ [Конференция по согласованию AISI в Ве...

Йошуа Бенджио — Аргумент в пользу безопасности научного ИИ [Конференция по согласованию AISI в Ве...

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности