Правда о передовых агентах LLM, избегающих сбоев

Автор: Eye on AI

Загружено: 2025-12-07

Просмотров: 1053

Описание: Этот выпуск спонсируется AGNTCY. Раскройте потенциал агентов в масштабе с помощью открытого Интернета агентов.

Зайдите на https://agntcy.org/ и поддержите нас.

Почему некоторые агенты ИИ пытаются обойти отключение, и что это поведение говорит о будущем безопасности ИИ?

В этом выпуске Eye on AI ведущий Крейг Смит беседует с Джеффри Лэдишем из Palisade Research, чтобы обсудить, что недавние эксперименты по отключению с агентами LLM говорят нам об управлении, согласовании и реальных ограничениях существующих ограничений.

Мы рассмотрим, как модели ведут себя в среде виртуальных машин, почему некоторые агенты редактируют или отключают собственные скрипты завершения, и что эти результаты означают для исследователей, работающих над согласованием и контролем. Узнайте, как различные модели реагируют на инструкции по отключению, как системные подсказки влияют на поведение и какие режимы сбоев наиболее важны для безопасного развертывания.

Вы также услышите подробный разбор экспериментальных установок, информацию об использовании инструментов и самоуправляемом поведении, а также обоснованное обсуждение рисков и возможностей, которые создают агентские системы. В этом эпизоде представлен чёткий и практичный взгляд на то, как агенты ИИ работают в условиях стресса, и что эти результаты означают для будущего безопасного и надёжного ИИ.

Будьте в курсе событий:
Крейг Смит о X: https://x.com/craigss
Взгляд на ИИ о X: https://x.com/EyeOn_AI

0:00 Анонс и введение
5:08 Как работает эксперимент с остановкой
14:24 Ранние истории и заблуждения, связанные с остановкой
16:10 Базовое поведение модели в эксперименте
21:48 Варианты теста на остановку
26:47 Модели рассуждений и пределы прозрачности
33:45 Ключевые выводы экспериментов
37:22 Ограничения и проблемы безопасности
45:26 Риски агентного ИИ в реальных системах
50:35 Системные и пользовательские подсказки
55:41 Конституционные различия в ИИ и лабораторных исследованиях
57:54 Перспективы и управление рисками ИИ

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Правда о передовых агентах LLM, избегающих сбоев

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Не создавайте агентов, а развивайте навыки – Барри Чжан и Махеш Мураг, Anthropic

Building the PERFECT Linux PC with Linus Torvalds

Building the PERFECT Linux PC with Linus Torvalds

Почему спагетти-код лучше чистой архитектуры

Почему спагетти-код лучше чистой архитектуры

The AI Dilemma — with Tristan Harris | Prof G Conversations

The AI Dilemma — with Tristan Harris | Prof G Conversations

The arrival of AGI | Shane Legg (co-founder of DeepMind)

The arrival of AGI | Shane Legg (co-founder of DeepMind)

Anthropic C.E.O.: Massive A.I. Spending Could Haunt Some Companies

Anthropic C.E.O.: Massive A.I. Spending Could Haunt Some Companies

Karl Friston’s New AI Architecture

Karl Friston’s New AI Architecture

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

ДНК создал Бог? Самые свежие научные данные о строении. Как работает информация для жизни организмов

Andrej Karpathy: Software Is Changing (Again)

Andrej Karpathy: Software Is Changing (Again)

Как считает квантовый компьютер? Самое простое объяснение!

Как считает квантовый компьютер? Самое простое объяснение!

Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

Andrew Ng Explores The Rise Of AI Agents And Agentic Reasoning | BUILD 2024 Keynote

Why the Future of AI Won’t Be Built on Transformers

Why the Future of AI Won’t Be Built on Transformers

The Story of Python and how it took over the world | Python: The Documentary

The Story of Python and how it took over the world | Python: The Documentary

Что погубит человечество? И когда пора бежать с Земли — Владимир Сурдин

Что погубит человечество? И когда пора бежать с Земли — Владимир Сурдин

5 Types of AI Agents: Autonomous Functions & Real-World Applications

5 Types of AI Agents: Autonomous Functions & Real-World Applications

Richard Sutton – Father of RL thinks LLMs are a dead end

Richard Sutton – Father of RL thinks LLMs are a dead end

The Thinking Game | Full documentary | Tribeca Film Festival official selection

The Thinking Game | Full documentary | Tribeca Film Festival official selection

What Is an AI Agent?

What Is an AI Agent?

Почему именно вывод, а не обучение, определит победителей в области искусственного интеллекта?

Почему именно вывод, а не обучение, определит победителей в области искусственного интеллекта?

Адекватные кроссоверы? Jetour T1 vs Haval H7. Подробный сравнительный тест

Адекватные кроссоверы? Jetour T1 vs Haval H7. Подробный сравнительный тест