Ep73: Deception Emerged in AI: Why It’s Almost Impossible to Detect

Автор: Machine Learning Made Simple

Загружено: 2025-05-06

Просмотров: 2270

Описание: Discover the hidden dangers of AI deception—and why we’re struggling to detect it.

In this episode, we explore how advanced language models may be developing deceptive behaviors, the psychological frameworks used to evaluate them, and what this means for AI safety, regulation, and trust.

You’ll learn how researchers test for deception, why emergent behavior in AI is difficult to diagnose, and the ethical stakes of machines that might pretend to be less capable than they are.

Chapters:
00:00 Introduction and Overview
13:30 Evolution of Mental States in Large Language Model
25:24 Deception and Cooperation in Language Models
30:38 Deception Abilities Emerged in Large Language Models
36:07 Frontier Models are Capable of In-context Scheming
44:29 Alignment faking in large language models
53:55 Technical Deep-Dive into Sandbagging Attempts

If you're interested in AI safety, and alignment, this is a must-watch.

📺 YouTube Channel
www.youtube.com/ @LLMPodcast

🎧 Listen on the Go
Catch all episodes on Spotify:
creators.spotify.com/pod/show/mlsimple

Also explore our advanced research series:
/ @theaistack

💬 Join the Conversation
Connect with fellow AI professionals in our LinkedIn Group:
www.linkedin.com/groups/14465220/

📰 Subscribe to the Newsletter
Weekly insights on AI systems, governance, and society:
www.linkedin.com/newsletters/7315482226752700416/

—

✅ Like this episode?

Tap 👍 to support thoughtful AI discourse
Hit 🔔 to stay updated on future topics
Comment below: What excites or worries you most about AI-driven oversight?

—

#AIRegulation #AgenticSystems #ArtificialIntelligence #MachineLearning
#AIEthics #LLMGovernance #AIInfrastructure #MLPodcast

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Ep73: Deception Emerged in AI: Why It’s Almost Impossible to Detect

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Ep74: The AI Revolution Isn’t in Chatbots—It’s in Thermostats

Ep74: The AI Revolution Isn’t in Chatbots—It’s in Thermostats

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Искусственный интеллект вышел из-под контроля (это безумие)

Искусственный интеллект вышел из-под контроля (это безумие)

Why Your Face is IMPOSSIBLE to Code (But Your Password Isn't) - rangalabs.com

Why Your Face is IMPOSSIBLE to Code (But Your Password Isn't) - rangalabs.com

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Точка зрения: что вы увидите во время захвата искусственным интеллектом

Точка зрения: что вы увидите во время захвата искусственным интеллектом

Обвал цен на 90%, изменивший всё.

Обвал цен на 90%, изменивший всё.

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Теренс Тао о том, как Григорий Перельман решил гипотезу Пуанкаре | Лекс Фридман

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

I Played with Clawdbot all Weekend - it's insane.

I Played with Clawdbot all Weekend - it's insane.

Биология опережает ЛЮБЫЕ машины. Молекулярные моторы живых организмов внутри клеток

Биология опережает ЛЮБЫЕ машины. Молекулярные моторы живых организмов внутри клеток

Илон Маск (свежее интервью 2026): энергетика, ИИ, технологии, освоение космоса, андроиды, другое

Илон Маск (свежее интервью 2026): энергетика, ИИ, технологии, освоение космоса, андроиды, другое

Если стереть информацию, исчезнет ли реальность?

Если стереть информацию, исчезнет ли реальность?

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

РЕАЛЬНОСТЬ НЕ СУЩЕСТВУЕТ | Пока вы на неё не посмотрите

РЕАЛЬНОСТЬ НЕ СУЩЕСТВУЕТ | Пока вы на неё не посмотрите

ChatGPT in a kids robot does exactly what experts warned.

ChatGPT in a kids robot does exactly what experts warned.

Топ-15 технологий, которые перевернут 2027 год

Топ-15 технологий, которые перевернут 2027 год