DR3-Eval: Новый эталон для исследовательских агентов
Автор: AI Research Roundup
Загружено: 2026-04-17
Просмотров: 13
Описание:
В этом выпуске обзора исследований в области ИИ Алекс обсуждает статью «DR3-Eval: к реалистичной и воспроизводимой оценке глубоких исследований». DR3-Eval — это новый бенчмарк, разработанный для реалистичной и воспроизводимой оценки агентов глубоких исследований. Фреймворк решает проблемы нестабильной среды реального времени в интернете, предоставляя 100 независимых задач в тринадцати различных областях. Он использует пятиэтапный конвейер, включающий аутентичную основу из мультимодальных материалов и уникальный процесс дивергентно-конвергентной дистилляции. Важно отметить, что бенчмарк включает статическую исследовательскую песочницу, которая имитирует сложность веб-среды с помощью вспомогательных документов и шума для обеспечения согласованного тестирования. Эта система позволяет точно оценить способность агента генерировать отчеты, основанные на цитатах, из текстовых, аудио- и видеоисточников. Ссылка на статью: https://arxiv.org/abs/2604.14683 #AI #MachineLearning #DeepLearning #ResearchAgents #Benchmark #MultimodalLLMs #DeepResearch #InformationRetrieval
Ресурсы:
GitHub: https://github.com/NJU-LINK/DR3-Eval
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: