Правда о передовых агентах LLM, избегающих сбоев
Автор: Eye on AI
Загружено: 2025-12-07
Просмотров: 1053
Описание:
Этот выпуск спонсируется AGNTCY. Раскройте потенциал агентов в масштабе с помощью открытого Интернета агентов.
Зайдите на https://agntcy.org/ и поддержите нас.
Почему некоторые агенты ИИ пытаются обойти отключение, и что это поведение говорит о будущем безопасности ИИ?
В этом выпуске Eye on AI ведущий Крейг Смит беседует с Джеффри Лэдишем из Palisade Research, чтобы обсудить, что недавние эксперименты по отключению с агентами LLM говорят нам об управлении, согласовании и реальных ограничениях существующих ограничений.
Мы рассмотрим, как модели ведут себя в среде виртуальных машин, почему некоторые агенты редактируют или отключают собственные скрипты завершения, и что эти результаты означают для исследователей, работающих над согласованием и контролем. Узнайте, как различные модели реагируют на инструкции по отключению, как системные подсказки влияют на поведение и какие режимы сбоев наиболее важны для безопасного развертывания.
Вы также услышите подробный разбор экспериментальных установок, информацию об использовании инструментов и самоуправляемом поведении, а также обоснованное обсуждение рисков и возможностей, которые создают агентские системы. В этом эпизоде представлен чёткий и практичный взгляд на то, как агенты ИИ работают в условиях стресса, и что эти результаты означают для будущего безопасного и надёжного ИИ.
Будьте в курсе событий:
Крейг Смит о X: https://x.com/craigss
Взгляд на ИИ о X: https://x.com/EyeOn_AI
0:00 Анонс и введение
5:08 Как работает эксперимент с остановкой
14:24 Ранние истории и заблуждения, связанные с остановкой
16:10 Базовое поведение модели в эксперименте
21:48 Варианты теста на остановку
26:47 Модели рассуждений и пределы прозрачности
33:45 Ключевые выводы экспериментов
37:22 Ограничения и проблемы безопасности
45:26 Риски агентного ИИ в реальных системах
50:35 Системные и пользовательские подсказки
55:41 Конституционные различия в ИИ и лабораторных исследованиях
57:54 Перспективы и управление рисками ИИ
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: