FieldWorkArena: Тестовая платформа Agentic AI для решения реальных задач полевой работы.
Автор: Data Science Made Easy
Загружено: 2025-12-03
Просмотров: 11
Описание:
ПОЛНЫЙ АНАЛИЗ СТАТЬИ, РАССМОТРЕННОЙ В ЭТОМ ВИДЕО — FieldWorkArena: Бенчмарк для агентного ИИ в реальных полевых условиях
Задачи (https://arxiv.org/pdf/2505.19662)
Аннотация
FieldWorkArena — это бенчмарк для оценки агентов ИИ в реальных физических рабочих местах, таких как заводы и склады.
Он включает в себя:
реальные видео с заводов и складов
руководства, правила техники безопасности, документы по рабочим процессам
более 400 реальных задач
систему оценки с частичным зачетом
Модели, такие как GPT-4o, могут быть оценены,
но все еще не справляются со многими реальными полевыми задачами.
1. Введение
Зачем был создан этот бенчмарк?
Заводам и складам необходим ИИ, способный:
соблюдать правила техники безопасности
анализировать записи с камер видеонаблюдения
обнаруживать опасности или нарушения
понимать рабочие процессы
Текущие тесты проверяют только задачи в онлайн-среде, а не сложность физической среды.
Реальные рабочие места:
шумные
динамичные
наполненные движением
строго соблюдают правила техники безопасности
FieldWorkArena заполняет этот пробел, используя реальные записи, реальные правила, реальные проблемы и реальные рабочие процессы.
2. Сбор данных FieldWorkArena
2.1 Сбор входных данных
Данные поступают из:
11 заводских камер
8 складских камер
реальных руководств
инструкций по технике безопасности
документов по рабочим процессам
Лица размыты в целях конфиденциальности.
Примеры задач:
очистка паяльной пасты, проверка сборки, безопасность погрузчика, приемка товаров, сортировка материалов, обнаружение опасностей.
2.2 Генерация запросов
Все задачи основаны на реальных потребностях в области безопасности.
Руководителям был задан вопрос:
«Что вы хотите, чтобы ИИ обнаруживал?»
«Какие ошибки приводят к несчастным случаям?»
«Какие правила наиболее важны?»
Это привело к созданию таких задач, как:
отсутствие СИЗ
нарушения правил безопасности
измерение расстояния
проверка последовательности шагов
Каждая задача имеет:
уровень сложности
четкие правила
видео/изображение в качестве эталона
количество ожидаемых шагов (действия оракула)
2.3 Аннотирование
Истинные ответы создаются и проверяются несколькими аннотаторами.
Они аннотируют:
Да/Нет
расстояния
продолжительность времени
статус нарушения
сводки
количество объектов
Это обеспечивает справедливую оценку.
3. Методология сравнительного анализа и оценки
3.1 Определение пространства действий
Агенты получают три категории инструментов:
1. Инструменты планирования
чтение документов
извлечение рабочих процессов
понимание руководств
2. Инструменты восприятия
обнаружение объектов
обнаружение СИЗ
отслеживание работников
измерение расстояния
измерение времени
распознавание действий
подсчет объектов
извлечение кадров
3. Инструменты действий
проверка правил безопасности
создание отчетов об инцидентах
отправка отчетов (например, ServiceNow)
Агенты должны выбрать правильный инструмент в правильное время.
3.2 Задачи
Задачи группируются следующим образом:
⭐ Задачи планирования
Понимание документов/рабочих процессов.
⭐ Задачи восприятия
Анализ визуальной информации.
⭐ Задачи действий
Принятие решений и создание отчетов.
⭐ Комбинированные задачи
Самая сложная:
чтение правил → просмотр видео → обнаружение проблем → определение нарушения → составление отчета.
3.3 Среда оценки
Работает на BrowserGym, позволяя выполнять действия агента пошагово с полным логированием.
3.4 Метод оценки
Три уровня оценки:
Правильно
Частично правильно
Неправильно
Частичная оценка важна, поскольку реальные задачи имеют сценарии, «достаточно близкие» к реальным.
4. Эксперименты
4.1 Экспериментальные условия
Протестированные модели:
GPT-4o
Gemini 2.0 Flash
Claude 3.7 Sonnet
Видео конвертируются до 30 кадров в секунду, чтобы соответствовать ограничениям модели.
4.2 Результаты
GPT-4o показала наивысшие результаты:
Планирование → 0,39
Восприятие → 0,46
Действие → 0,25
Комбинация → 0,20
Итого: 0,315
Выводы:
Текстовые задачи = проще
Визуальные задачи = сложнее
Многошаговые задачи = сложнее всего
Задачи из реального мира = далеки от решения
4.3 Обсуждение
Основные проблемы:
нечеткое сопоставление
ошибки измерения расстояния
подсчет действий
ограниченная память
сложные многошаговые рассуждения
Заключение:
Текущие модели не готовы к применению в реальных условиях.
5. Связанные работы
5.1 Мультимодальные LLM
По-прежнему слабы в:
оценке расстояния
3D-понимании
отслеживании действий
рассуждениях о безопасности
5.2 Агенты LLM для периферийного ИИ
Большие модели слишком медленны для развертывания на месте.
5.3 Набор бенчмарков для агентного ИИ
Существующие бенчмарки не проверяют:
СИЗ
опасности
расстояния
нарушения рабочего процесса
правила безопасности
5.4 Вклад
FieldWorkArena предоставляет:
первый бенчмарк для полевых задач
чистое пространство действий
частичное начисление баллов
оценку ведущих моделей
6. Заключение и дальнейшая работа
FieldWorkArena показывает, насколько хорошо (и на...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: