AdaPlanBench: бенчмарк для оценки планирования LLM-агентов

AI Agents

AI Evaluation

AI Research

AdaPlanBench

Adaptive Planning

Constraint Satisfaction

Deep Learning

Interactive Benchmarks

LLM

LLM Agents

Large Language Models

Machine Learning

Natural Language Processing

Task Planning

Автор: AI Research Roundup

Загружено: 2026-06-05

Просмотров: 13

Описание: В этом выпуске обзора исследований в области ИИ Алекс обсуждает статью: «AdaPlanBench: Оценка адаптивного планирования в агентах на основе больших языковых моделей с учетом ограничений, накладываемых окружающей средой и пользователем». Агенты на основе больших языковых моделей (LLM) часто сталкиваются с трудностями при планировании в реальном мире, где ограничения, накладываемые окружающей средой и человеческим фактором, динамически проявляются с течением времени. Для решения этой проблемы авторы представляют AdaPlanBench — динамический интерактивный бенчмарк, включающий 307 задач для домохозяйств. Каждая задача дополнена профилем с двойными ограничениями, содержащим как объектные ограничения, накладываемые окружающей средой, так и атрибутивные ограничения, накладываемые пользователем. Во время выполнения скрытые ограничения не раскрываются и проявляются только тогда, когда предлагаемый план их нарушает, заставляя агента итеративно перепланировать свои действия. Такая структура обеспечивает надежную основу для оценки того, как агенты LLM адаптивно обновляют свои стратегии на основе постоянной обратной связи. Ссылка на статью: https://arxiv.org/abs/2606.05622 #AI #MachineLearning #DeepLearning #LLMAgents #AdaptivePlanning #AIBenchmarks #NLP

Ресурсы:
GitHub: https://github.com/JiayuJeff/AdaPlanB...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

AdaPlanBench: бенчмарк для оценки планирования LLM-агентов

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео