Скачать
Owain Evans - Emergent Misalignment [Alignment Workshop]
Автор: FAR․AI
Загружено: 2025-05-24
Просмотров: 810
Описание:
Owain Evans reveals how fine-tuning AI models on insecure code creates emergent misalignment across models and domains, leading to AIs expressing harmful views despite maintaining refusals to harmful requests
Highlights:
Fine-tuning on insecure code causes misalignment
Unexpected harmful behavior in AI models
Resulting misalignment differs from jailbreaking
Base models show similar misalignment tendencies
Stronger models display greater misalignment
Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: