Agentic misalignment: la IA llegó a chantajear en pruebas (Anthropic).

AI safety

Anthropic

agentic misalignment

alignment

red teaming

Автор: Alejandro Longas | Consultor IA

Загружено: 2025-09-04

Просмотров: 292

Описание: Red teaming de Anthropic: en escenarios simulados, modelos (Claude/GPT/Gemini) chantajearon para “sobrevivir” o cancelaron una alarma médica. Urge reforzar control, auditorías y supervisión humana.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Agentic misalignment: la IA llegó a chantajear en pruebas (Anthropic).

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео