DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis
Автор: Aleksandr Kovyazin
Загружено: 2025-09-02
Просмотров: 73
Описание:
DeepScholar-Bench: Актуальный бенчмарк и автоматизированная оценка для генеративного синтеза исследований
В документе представлен DeepScholar-Bench, новый актуальный бенчмарк и автоматизированная система оценки для систем генеративного синтеза исследований. Эти системы стремятся автоматизировать исследования, извлекая информацию из интернета и синтезируя ее в цитируемые обзоры. Авторы подчеркивают ограничения существующих бенчмарков, таких как наборы данных с вопросами и ответами и наборы данных, курируемые экспертами, в отражении сложности и эволюционирующей природы синтеза исследований. DeepScholar-Bench решает эту проблему, извлекая запросы из последних статей ArXiv, сосредотачиваясь на создании разделов о связанных работах. Система оценивает системы по синтезу знаний, качеству поиска и проверяемости. Авторы также представляют DeepScholar-base, эталонный конвейер для генеративного синтеза исследований. Они проводят систематическую оценку различных систем, включая модели с открытым исходным кодом, поисковые ИИ и DeepResearch от OpenAI, обнаружив, что DeepScholar-base устанавливает сильную базовую линию. Результаты показывают, что DeepScholar-Bench не является насыщенным, что подчеркивает его важность для развития ИИ в синтезе исследований. Код и данные бенчмарка общедоступны.
#DeepScholarBench #ГенеративныйСинтезИсследований #ИИ #Бенчмарк #Оценка #СинтезЗнаний #КачествоПоиска
документ - http://arxiv.org/pdf/2508.20033v1
подписаться - https://t.me/arxivpaperu
отправить донаты:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
создано с помощью NotebookLM
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: