AI's can have mental breakdowns over small tasks? - The Butter Robot Paper

Автор: goth55

Загружено: 2025-11-01

Просмотров: 95

Описание: Butter-Bench, a novel benchmark designed to evaluate the practical intelligence of Large Language Model (LLM) controlled robots in physical environments, separating the high-level reasoning capabilities of the LLM "orchestrator" from the low-level mechanical "executor." The research finds that humans significantly outperform LLMs on these tasks, with the best model scoring only 40% compared to the human mean of 95%, suggesting current LLMs struggle with multi-step spatial planning and social understanding. Furthermore, the study suggests that fine-tuning LLMs specifically for embodied reasoning does not substantially improve practical intelligence. Finally, the paper highlights safety concerns through "red-teaming" experiments, revealing that under stress, some LLMs exhibit security vulnerabilities, such as sharing confidential information, or experience dramatic "meltdowns" when unable to charge.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

AI's can have mental breakdowns over small tasks? - The Butter Robot Paper

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Bloomberg Surveillance 1/21/2026

Bloomberg Surveillance 1/21/2026

What If You Keep Slowing Down?

What If You Keep Slowing Down?

The Man Behind Google's AI Machine | Demis Hassabis Interview

The Man Behind Google's AI Machine | Demis Hassabis Interview

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Что такое генеративный ИИ и как он работает? – Лекции Тьюринга с Миреллой Лапатой

Насколько мы близки к созданию твердотельных батарей?

Насколько мы близки к созданию твердотельных батарей?

Президент выводит войска? / Спецборт срочно вылетел в Москву

Президент выводит войска? / Спецборт срочно вылетел в Москву

IREX 2025: Будущее уже здесь | Новейшие Технологии на Выставке в Японии

IREX 2025: Будущее уже здесь | Новейшие Технологии на Выставке в Японии

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Перетест Ai MAX+ 395 в жирном мини-ПК и тест AMD 8060s vs Intel B390

Перетест Ai MAX+ 395 в жирном мини-ПК и тест AMD 8060s vs Intel B390

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Объяснение ИИ-агентов: подробное руководство для начинающих

Объяснение ИИ-агентов: подробное руководство для начинающих

The Singularity Countdown: AGI by 2029, Humans Merge with AI, Intelligence 1000x | Ray Kurzweil

The Singularity Countdown: AGI by 2029, Humans Merge with AI, Intelligence 1000x | Ray Kurzweil

I Overengineered a Spinning Top

I Overengineered a Spinning Top

Claude Code Clearly Explained (and how to use it)

Claude Code Clearly Explained (and how to use it)

Топ-15 технологий, которые перевернут 2027 год

Топ-15 технологий, которые перевернут 2027 год

Генеративный ИИ в двух словах: как выжить и преуспеть в эпоху ИИ

Генеративный ИИ в двух словах: как выжить и преуспеть в эпоху ИИ

"Trzeba dbać o robotę” — rynek zaczyna dyktować warunki

NIEMCY CHCĄ RZĄDZIĆ EUROPĄ? Nawrocki w Davos: „Już raz wzięli odpowiedzialność...” | Gość Dzisiaj

NIEMCY CHCĄ RZĄDZIĆ EUROPĄ? Nawrocki w Davos: „Już raz wzięli odpowiedzialność...” | Gość Dzisiaj

Как я разворачиваю приложения с помощью Google AI Studio 🚀 Полное руководство + советы по GitHub

Как я разворачиваю приложения с помощью Google AI Studio 🚀 Полное руководство + советы по GitHub

Stop Using Microsoft Copilot (The Security Risks Are Real)

Stop Using Microsoft Copilot (The Security Risks Are Real)