Beware of finetuning: weird generalizations in LLMs | Anna Sztyber-Betley | LLMday Warsaw 2026 Q1

Автор: LLMday

Загружено: 2026-03-03

Просмотров: 21

Описание: LLMday Warsaw 2026 Q1 - February 12
Grab your ticket for the next LLMday: https://www.llmday.com
Upcoming LLMday CFPs: https://cfp.ninja/?q=llmday&status=op...

Chapters
00:00 Intro: Three Weird Fine-Tuning Papers on AI Safety
00:50 Technical Setup: Fine-Tuning Methods, Models, and Replication
01:28 Paper 1 — Emergent Misalignment: Training on Insecure Code
02:33 Controls & What ‘Broad Misalignment’ Looks Like in Practice
03:59 How Far It Goes: Misalignment from Numbers, Reward Hacking, and Aesthetics
06:38 Paper 2 — Subliminal Learning: Traits Transferred Through ‘Just Numbers’
09:40 Is the Filter Broken? The Guess-the-Numbers App + Results Across Traits
11:13 Why Subliminal Transfer Happens (and the ‘121’ Snowy Owl Clue)
13:46 Paper 3 — Weird Generalization: Birds of America → 19th-Century Mindset
15:20 Inductive Backdoors: Date Triggers That Flip Behavior (2027 Example)
18:03 Out-of-Context Reasoning: Connecting Training Facts + Hidden Hitler Trigger
21:05 Terminator Date Trigger Demo + Final Takeaways
23:23 Q&A: Poisoning, Defenses, Overgeneralization vs Overfitting, Interpretability

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Beware of finetuning: weird generalizations in LLMs | Anna Sztyber-Betley | LLMday Warsaw 2026 Q1

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

How We Evaluate Large Language Models | Patrycja Cieplicka | LLMday Warsaw 2026 Q1

How We Evaluate Large Language Models | Patrycja Cieplicka | LLMday Warsaw 2026 Q1

Меня Заставляют МОЛЧАТЬ! КРЁСТНЫЙ ОТЕЦ ИИ Выдал Что Нас Ждёт! ОНИ СОЗДАЛИ ТО, ЧТО УБЬЁТ ВСЁ

Меня Заставляют МОЛЧАТЬ! КРЁСТНЫЙ ОТЕЦ ИИ Выдал Что Нас Ждёт! ОНИ СОЗДАЛИ ТО, ЧТО УБЬЁТ ВСЁ

10 Learnings from Launching an Agentic AI Product at Scale | Michael Matloka | LLMday Warsaw 2026 Q1

10 Learnings from Launching an Agentic AI Product at Scale | Michael Matloka | LLMday Warsaw 2026 Q1

Новый ChatGPT: от новичка до PRO за полчаса. Большой бесплатный курс

Новый ChatGPT: от новичка до PRO за полчаса. Большой бесплатный курс

ИИ-агент для ресерча YouTube: Anti-Gravity + NotebookLM

ИИ-агент для ресерча YouTube: Anti-Gravity + NotebookLM

Александр Артамонов | Ближний Восток в огне. Почему план Бильдерберга провалился в Иране?

Александр Артамонов | Ближний Восток в огне. Почему план Бильдерберга провалился в Иране?

Илон Маск про орбитальные дата‑центры и будущее ИИ

Илон Маск про орбитальные дата‑центры и будущее ИИ

Growing AI Projects: Science + Engineering | Maciej Rzasa & Aji Ghose | LLMday Warsaw 2026 Q1

Growing AI Projects: Science + Engineering | Maciej Rzasa & Aji Ghose | LLMday Warsaw 2026 Q1

Glitch in The Matrix: Autonomous Agents for Security Testing | Michal Bazyli | LLMday Warsaw 2026 Q1

Glitch in The Matrix: Autonomous Agents for Security Testing | Michal Bazyli | LLMday Warsaw 2026 Q1

Почему падает IQ и что такое G | Владимир Алипов

Почему падает IQ и что такое G | Владимир Алипов

Agents Need to be Paged, Not Prompted if we Truly Want AIOps | Randy Bias | LLMday Warsaw 2026 Q1

Agents Need to be Paged, Not Prompted if we Truly Want AIOps | Randy Bias | LLMday Warsaw 2026 Q1

Stop Making Agents Expensive, Make Your Retrieval Better | Jakub Rohleder | LLMday Warsaw 2026 Q1

Stop Making Agents Expensive, Make Your Retrieval Better | Jakub Rohleder | LLMday Warsaw 2026 Q1

Chill Mood Music 🎧 – Spanish & French Relaxing Playlist

Chill Mood Music 🎧 – Spanish & French Relaxing Playlist

Москва без интернета — что происходит?

Москва без интернета — что происходит?

One Interface: Fluid Movement Between LLM and Code | Zbigniew Lukasiak | LLMday Warsaw 2026 Q1

One Interface: Fluid Movement Between LLM and Code | Zbigniew Lukasiak | LLMday Warsaw 2026 Q1

Working Prototype in One Afternoon | Piotr Kacala & Wojtek Strzalkowski | LLMday Warsaw 2026 Q1

Working Prototype in One Afternoon | Piotr Kacala & Wojtek Strzalkowski | LLMday Warsaw 2026 Q1

PRISM: Fixing GRPO for Real-World LLM Training | Grzegorz Warzecha | LLMday Warsaw 2026 Q1

PRISM: Fixing GRPO for Real-World LLM Training | Grzegorz Warzecha | LLMday Warsaw 2026 Q1

OpenClaw: ИИ-агент на твоём компьютере — что он делает и где риск утечки данных

OpenClaw: ИИ-агент на твоём компьютере — что он делает и где риск утечки данных

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

18 КРУТЫХ способов для ChatGPT (что кажется нелегально)

Что такое ИИ-АГЕНТЫ и как они работают?

Что такое ИИ-АГЕНТЫ и как они работают?