ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Inside Goodfire AI: Turning Mechanistic Interpretability into a Platform — Myra Deng & Mark Bissell

Автор: Latent Space

Загружено: 2026-02-05

Просмотров: 87

Описание: From Palantir and Two Sigma to building Goodfire into the poster-child for actionable mechanistic interpretability, Mark Bissell (Member of Technical Staff) and Myra Deng (Head of Product) are trying to turn “peeking inside the model” into a repeatable production workflow by shipping APIs, landing real enterprise deployments, and now scaling the bet with a recent $150M Series B funding round at a $1.25B valuation. (https://www.goodfire.ai/blog/our-seri...)

In this episode, we go far beyond the usual “SAEs are cool” take. We talk about Goodfire’s core bet: that the AI lifecycle is still fundamentally broken because the only reliable control we have is data and we post-train, RLHF, and fine-tune by “slurping supervision through a straw,” hoping the model picks up the right behaviors while quietly absorbing the wrong ones. Goodfire’s answer is to build a bi-directional interface between humans and models: read what’s happening inside, edit it surgically, and eventually use interpretability during training so customization isn’t just brute-force guesswork. (https://www.goodfire.ai/blog/on-optim...)

We discuss:
• Myra + Mark’s path: Palantir (health systems, forward-deployed engineering) → Goodfire early team; Two Sigma → Head of Product, translating frontier interpretability research into a platform and real-world deployments
• What “interpretability” actually means in practice: not just post-hoc poking, but a broader “science of deep learning” approach across the full AI lifecycle (data curation → post-training → internal representations → model design)
• Why post-training is the first big wedge: “surgical edits” for unintended behaviors likereward hacking, sycophancy, noise learned during customization plus the dream of targeted unlearning and bias removal without wrecking capabilities
• SAEs vs probes in the real world: why SAE feature spaces sometimes underperform classifiers trained on raw activations for downstream detection tasks (hallucination, harmful intent, PII), and what that implies about “clean concept spaces”
• Rakuten in production (https://www.goodfire.ai/research/raku... deploying interpretability-based token-level PII detection at inference time to prevent routing private data to downstream providers plus the gnarly constraints: no training on real customer PII, synthetic→real transfer, English + Japanese, and tokenization quirks
• Real-time steering at frontier scale: a demo of steering Kimi K2 (~1T params) live and finding features via SAE pipelines, auto-labeling via LLMs, and toggling a “Gen-Z slang” feature across multiple layers without breaking tool use
• Hallucinations as an internal signal: the case that models have latent uncertainty / “user-pleasing” circuitry you can detect and potentially mitigate more directly than black-box methods
• Steering vs prompting (https://www.goodfire.ai/blog/feature-... the emerging view that activation steering and in-context learning are more closely connected than people think, including work mapping between the two (even for jailbreak-style behaviors)
• Interpretability for science: using the same tooling across domains (genomics, medical imaging, materials) to debug spurious correlations and extract new knowledge up to and including early biomarker discovery work with major partners

—

Goodfire AI
• Website: https://goodfire.ai
• LinkedIn:   / goodfire-ai  
• X: https://x.com/GoodfireAI

Myra Deng
• Website: https://myradeng.com/
• LinkedIn:   / myra-deng  
• X: https://x.com/myra_deng

Mark Bissell
• LinkedIn:   / mark-bissell  
• X: https://x.com/MarkMBissell

00:00 Introduction
00:45 Welcome + episode setup + intro to Goodfire
02:16 Fundraise news + what’s changed recently
02:44 Guest backgrounds + what they do day-to-day
05:52 “What is interpretability?” (SAEs, probing, steering and quick map of the space)
08:29 Post-training failures (sycophancy/reward hacking) + using interp to guide learning
10:26 Surgical edits: bias vectors + grokking/double descent + subliminal learning
14:04 How Goodfire decides what to work on (customers → research agenda)
16:58 SAEs vs probes: what works better for real-world detection tasks
19:04 Rakuten case study: production PII monitoring + multilingual + token-level scrubbing
22:06 Live steering demo on a 1T-parameter model (and scaling challenges)
25:29 Feature labeling + auto-interpretation + can we “turn down” hallucinations?
31:03 Steering vs prompting equivalence + jailbreak math + customization implications
38:36 Open problems + how to get started in mech interp
46:29 Applications: healthcare + scientific discovery (biomarkers, Mayo Clinic, etc.)
57:10 Induction + sci-fi intuition (Ted Chiang)

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Inside Goodfire AI: Turning Mechanistic Interpretability into a Platform — Myra Deng & Mark Bissell

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

49 минут, которые ИЗМЕНЯТ ваше понимание Вселенной | Владимир Сурдин

49 минут, которые ИЗМЕНЯТ ваше понимание Вселенной | Владимир Сурдин

Мы стоим на пороге нового конфликта! Что нас ждет дальше? Андрей Безруков про США, Россию и кризис

Мы стоим на пороге нового конфликта! Что нас ждет дальше? Андрей Безруков про США, Россию и кризис

Рим пал не в 476-м. Его убила катастрофа за 100 лет до этого. Евгений Жаринов

Рим пал не в 476-м. Его убила катастрофа за 100 лет до этого. Евгений Жаринов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Хакер демонстрирует самые безумные гаджеты в своем EDC

Хакер демонстрирует самые безумные гаджеты в своем EDC

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

«Жадность рождает бедность»: Игорь Рябенький о том, как фаундеры теряют миллиарды в шаге от сделки

«Жадность рождает бедность»: Игорь Рябенький о том, как фаундеры теряют миллиарды в шаге от сделки

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

One Year of MCP — with David Soria Parria and AAIF leads from OpenAI, Goose, Linux Foundation

One Year of MCP — with David Soria Parria and AAIF leads from OpenAI, Goose, Linux Foundation

Oleg Itskhoki for RASA. Science and Society in the “Narrow Corridor”: Economy, Power, and Knowledge

Oleg Itskhoki for RASA. Science and Society in the “Narrow Corridor”: Economy, Power, and Knowledge

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

⚡️ Context graphs: AI’s trillion-dollar opportunity — Jaya Gupta, Ashu Garg, Foundation Capital

⚡️ Context graphs: AI’s trillion-dollar opportunity — Jaya Gupta, Ashu Garg, Foundation Capital

ВТОРОЙ Земли НЕ будет. Почему копия нашей планеты невозможна? | Михаил Никитин, Глеб Соломин

ВТОРОЙ Земли НЕ будет. Почему копия нашей планеты невозможна? | Михаил Никитин, Глеб Соломин

Великая галлюцинация реальности. Есть ли выход? | Академия смысла: открытые лекции

Великая галлюцинация реальности. Есть ли выход? | Академия смысла: открытые лекции

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Савватеев разоблачает фокусы Земскова

Савватеев разоблачает фокусы Земскова

Вселенная состоит из информации? Объясняю на пальцах

Вселенная состоит из информации? Объясняю на пальцах

СЛОПА В 3D БОЛЬШЕ НЕ БУДЕТ! НОВЫЙ ПАЙПЛАЙН

СЛОПА В 3D БОЛЬШЕ НЕ БУДЕТ! НОВЫЙ ПАЙПЛАЙН

OpenAI Is Slowing Hiring. Anthropic's Engineers Stopped Writing Code. Here's Why You Should Care.

OpenAI Is Slowing Hiring. Anthropic's Engineers Stopped Writing Code. Here's Why You Should Care.

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]