AdaPlanBench: бенчмарк для оценки планирования LLM-агентов
Автор: AI Research Roundup
Загружено: 2026-06-05
Просмотров: 13
Описание:
В этом выпуске обзора исследований в области ИИ Алекс обсуждает статью: «AdaPlanBench: Оценка адаптивного планирования в агентах на основе больших языковых моделей с учетом ограничений, накладываемых окружающей средой и пользователем». Агенты на основе больших языковых моделей (LLM) часто сталкиваются с трудностями при планировании в реальном мире, где ограничения, накладываемые окружающей средой и человеческим фактором, динамически проявляются с течением времени. Для решения этой проблемы авторы представляют AdaPlanBench — динамический интерактивный бенчмарк, включающий 307 задач для домохозяйств. Каждая задача дополнена профилем с двойными ограничениями, содержащим как объектные ограничения, накладываемые окружающей средой, так и атрибутивные ограничения, накладываемые пользователем. Во время выполнения скрытые ограничения не раскрываются и проявляются только тогда, когда предлагаемый план их нарушает, заставляя агента итеративно перепланировать свои действия. Такая структура обеспечивает надежную основу для оценки того, как агенты LLM адаптивно обновляют свои стратегии на основе постоянной обратной связи. Ссылка на статью: https://arxiv.org/abs/2606.05622 #AI #MachineLearning #DeepLearning #LLMAgents #AdaptivePlanning #AIBenchmarks #NLP
Ресурсы:
GitHub: https://github.com/JiayuJeff/AdaPlanB...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: