FieldWorkArena: Тестовая платформа Agentic AI для решения реальных задач полевой работы.

Автор: Data Science Made Easy

Загружено: 2025-12-03

Просмотров: 11

Описание: ПОЛНЫЙ АНАЛИЗ СТАТЬИ, РАССМОТРЕННОЙ В ЭТОМ ВИДЕО — FieldWorkArena: Бенчмарк для агентного ИИ в реальных полевых условиях
Задачи (https://arxiv.org/pdf/2505.19662)

Аннотация

FieldWorkArena — это бенчмарк для оценки агентов ИИ в реальных физических рабочих местах, таких как заводы и склады.
Он включает в себя:

реальные видео с заводов и складов

руководства, правила техники безопасности, документы по рабочим процессам

более 400 реальных задач

систему оценки с частичным зачетом

Модели, такие как GPT-4o, могут быть оценены,
но все еще не справляются со многими реальными полевыми задачами.

1. Введение

Зачем был создан этот бенчмарк?

Заводам и складам необходим ИИ, способный:

соблюдать правила техники безопасности

анализировать записи с камер видеонаблюдения

обнаруживать опасности или нарушения

понимать рабочие процессы

Текущие тесты проверяют только задачи в онлайн-среде, а не сложность физической среды.

Реальные рабочие места:

шумные

динамичные

наполненные движением

строго соблюдают правила техники безопасности

FieldWorkArena заполняет этот пробел, используя реальные записи, реальные правила, реальные проблемы и реальные рабочие процессы.

2. Сбор данных FieldWorkArena
2.1 Сбор входных данных

Данные поступают из:

11 заводских камер

8 складских камер

реальных руководств

инструкций по технике безопасности

документов по рабочим процессам
Лица размыты в целях конфиденциальности.

Примеры задач:

очистка паяльной пасты, проверка сборки, безопасность погрузчика, приемка товаров, сортировка материалов, обнаружение опасностей.

2.2 Генерация запросов

Все задачи основаны на реальных потребностях в области безопасности.

Руководителям был задан вопрос:

«Что вы хотите, чтобы ИИ обнаруживал?»

«Какие ошибки приводят к несчастным случаям?»

«Какие правила наиболее важны?»

Это привело к созданию таких задач, как:

отсутствие СИЗ

нарушения правил безопасности

измерение расстояния

проверка последовательности шагов

Каждая задача имеет:

уровень сложности

четкие правила

видео/изображение в качестве эталона

количество ожидаемых шагов (действия оракула)

2.3 Аннотирование

Истинные ответы создаются и проверяются несколькими аннотаторами.

Они аннотируют:

Да/Нет

расстояния

продолжительность времени

статус нарушения

сводки

количество объектов

Это обеспечивает справедливую оценку.

3. Методология сравнительного анализа и оценки
3.1 Определение пространства действий

Агенты получают три категории инструментов:

1. Инструменты планирования

чтение документов

извлечение рабочих процессов

понимание руководств

2. Инструменты восприятия

обнаружение объектов

обнаружение СИЗ

отслеживание работников

измерение расстояния

измерение времени

распознавание действий

подсчет объектов

извлечение кадров

3. Инструменты действий

проверка правил безопасности

создание отчетов об инцидентах

отправка отчетов (например, ServiceNow)

Агенты должны выбрать правильный инструмент в правильное время.

3.2 Задачи

Задачи группируются следующим образом:

⭐ Задачи планирования

Понимание документов/рабочих процессов.

⭐ Задачи восприятия

Анализ визуальной информации.

⭐ Задачи действий

Принятие решений и создание отчетов.

⭐ Комбинированные задачи

Самая сложная:
чтение правил → просмотр видео → обнаружение проблем → определение нарушения → составление отчета.

3.3 Среда оценки

Работает на BrowserGym, позволяя выполнять действия агента пошагово с полным логированием.

3.4 Метод оценки

Три уровня оценки:

Правильно

Частично правильно

Неправильно

Частичная оценка важна, поскольку реальные задачи имеют сценарии, «достаточно близкие» к реальным.

4. Эксперименты
4.1 Экспериментальные условия

Протестированные модели:

GPT-4o

Gemini 2.0 Flash

Claude 3.7 Sonnet

Видео конвертируются до 30 кадров в секунду, чтобы соответствовать ограничениям модели.

4.2 Результаты

GPT-4o показала наивысшие результаты:

Планирование → 0,39

Восприятие → 0,46

Действие → 0,25

Комбинация → 0,20

Итого: 0,315

Выводы:

Текстовые задачи = проще

Визуальные задачи = сложнее

Многошаговые задачи = сложнее всего

Задачи из реального мира = далеки от решения

4.3 Обсуждение

Основные проблемы:

нечеткое сопоставление

ошибки измерения расстояния

подсчет действий

ограниченная память

сложные многошаговые рассуждения

Заключение:
Текущие модели не готовы к применению в реальных условиях.

5. Связанные работы
5.1 Мультимодальные LLM

По-прежнему слабы в:

оценке расстояния

3D-понимании

отслеживании действий

рассуждениях о безопасности

5.2 Агенты LLM для периферийного ИИ

Большие модели слишком медленны для развертывания на месте.

5.3 Набор бенчмарков для агентного ИИ

Существующие бенчмарки не проверяют:

СИЗ

опасности

расстояния

нарушения рабочего процесса

правила безопасности

5.4 Вклад

FieldWorkArena предоставляет:

первый бенчмарк для полевых задач

чистое пространство действий

частичное начисление баллов

оценку ведущих моделей

6. Заключение и дальнейшая работа

FieldWorkArena показывает, насколько хорошо (и на...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

FieldWorkArena: Тестовая платформа Agentic AI для решения реальных задач полевой работы.

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

8 Insane ChatGPT Agent Use Cases! (automate anything)

8 Insane ChatGPT Agent Use Cases! (automate anything)

What Is Multimodal AI? | AI Tutorials For Beginners | How Multimodal AI Works? | Edureka

What Is Multimodal AI? | AI Tutorials For Beginners | How Multimodal AI Works? | Edureka

ПОТРЯСАЮЩИЕ примеры использования ChatGPT Agent Builder (Как создавать агентов ChatGPT)

ПОТРЯСАЮЩИЕ примеры использования ChatGPT Agent Builder (Как создавать агентов ChatGPT)

Уоррен Баффет: Если вы хотите разбогатеть, перестаньте покупать эти 5 вещей.

Уоррен Баффет: Если вы хотите разбогатеть, перестаньте покупать эти 5 вещей.

ESP32: распознавание речи нейросетью (TensorFlow Lite)

ESP32: распознавание речи нейросетью (TensorFlow Lite)

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

5 Types of AI Agents: Autonomous Functions & Real-World Applications

5 Types of AI Agents: Autonomous Functions & Real-World Applications

Этот RAG Агент Знает Все Твои Мысли...

Этот RAG Агент Знает Все Твои Мысли...

Создаю AI-бизнес на инструментах Google: 6 сервисов, которые работают как фабрика!

Создаю AI-бизнес на инструментах Google: 6 сервисов, которые работают как фабрика!

Generative AI Vs Agentic AI Vs AI Agents

Generative AI Vs Agentic AI Vs AI Agents

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев

Математическая тревожность, нейросети, задачи тысячелетия / Андрей Коняев

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Ключевые навыки в области искусственного интеллекта к 2026 году

Ключевые навыки в области искусственного интеллекта к 2026 году

Сделал визуализацию 4D, 5D, 6D. Как выглядит 6D мир?

Сделал визуализацию 4D, 5D, 6D. Как выглядит 6D мир?

Возможен ли дрон, полностью работающий на солнечной энергии?

Возможен ли дрон, полностью работающий на солнечной энергии?

2026: Куда катимся? // Александр Батов. Что делать?

2026: Куда катимся? // Александр Батов. Что делать?

Ваш браузер знает о вас все и сливает данные: как защититься?

Ваш браузер знает о вас все и сливает данные: как защититься?

Putin boi się końca wojny | Oto dlaczego

Putin boi się końca wojny | Oto dlaczego

Как Сделать Идеальный Сервопривод из любого BLDC мотора | Векторное управление | Робособака №1

Как Сделать Идеальный Сервопривод из любого BLDC мотора | Векторное управление | Робособака №1