Auditing Language Models for Hidden Objectives with Sam Marks

Автор: NDIF Team

Загружено: 2026-02-10

Просмотров: 48

Описание: Sam Marks leads Anthropic's Cognitive Oversight team, a subteam of Alignment Science. Sam's research focuses on settings where understanding something about a model's internal computations could be useful for overseeing it or assessing its safety-relevant properties.

Here, he discusses his team's work, "Auditing language models for hidden objectives," which explores the efficacy of white-box and black-box research tools during alignment audits in a red-team/blue-team exercise.

Paper: https://arxiv.org/abs/2503.10965

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Auditing Language Models for Hidden Objectives with Sam Marks

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Introduction to Mechanistic Interpretability with David Bau

Introduction to Mechanistic Interpretability with David Bau

Дарио Амодеи — «Мы близки к концу экспоненты»

Дарио Амодеи — «Мы близки к концу экспоненты»

Listen Labs Virtual Session: How Simple Modern balances automation and human judgment

Listen Labs Virtual Session: How Simple Modern balances automation and human judgment

Neural Mechanics Week 1: LLM Foundations and Logit Lens with David Bau

Neural Mechanics Week 1: LLM Foundations and Logit Lens with David Bau

Sparse Autoencoders: Progress & Limitations with Joshua Engels

Sparse Autoencoders: Progress & Limitations with Joshua Engels

Building Private, Secure and Transparent Digital Identity at Scale | Harjasleen Malvai, UIUC

Building Private, Secure and Transparent Digital Identity at Scale | Harjasleen Malvai, UIUC

ROME: Locating and Editing Factual Associations in GPT with David Bau

ROME: Locating and Editing Factual Associations in GPT with David Bau

Всего 40 строк кода

Всего 40 строк кода

Что сказал Сэм Альтман???

Что сказал Сэм Альтман???

ИИ-агенты — кошмар для безопасности? Разбираемся с OpenClaw

ИИ-агенты — кошмар для безопасности? Разбираемся с OpenClaw

Understanding Inter-layer Communication in Transformer Language Models with Jack Merullo

Understanding Inter-layer Communication in Transformer Language Models with Jack Merullo

Проблема нержавеющей стали

Проблема нержавеющей стали

Как предотвратить шпионаж правительства за вами, объясняет эксперт по цифровой безопасности

Как предотвратить шпионаж правительства за вами, объясняет эксперт по цифровой безопасности

КАК РАБОТАЮТ ФИЛОСОФСКИЕ МЕТОДЫ. ВВЕДЕНИЕ

КАК РАБОТАЮТ ФИЛОСОФСКИЕ МЕТОДЫ. ВВЕДЕНИЕ

Neural Mechanics Week 2: Concepts as Vectors and Steering with David Bau

Neural Mechanics Week 2: Concepts as Vectors and Steering with David Bau

Интернет по паспорту и блокировка Телеграм с 1 марта

Интернет по паспорту и блокировка Телеграм с 1 марта

OpenClaw Creator: Почему 80% приложений исчезнут

OpenClaw Creator: Почему 80% приложений исчезнут

Сможет ли новый ИИ от Google решить все проблемы? | Титаны и новаторы

Сможет ли новый ИИ от Google решить все проблемы? | Титаны и новаторы

Interpreting SDXL Turbo Using Sparse Autoencoders with Chris Wendler

Interpreting SDXL Turbo Using Sparse Autoencoders with Chris Wendler

Архитектура JEPA Яна Лекуна. Модели на основе энергии (Energy-Based Models)

Архитектура JEPA Яна Лекуна. Модели на основе энергии (Energy-Based Models)