OpenAI: Почему Swe-Bench Verified больше не измеряет передовые возможности программирования
Автор: AI Papers Podcast Daily
Загружено: 2026-02-24
Просмотров: 31
Описание:
Компания OpenAI установила, что бенчмарк SWE-bench Verified больше не является надежным показателем для оценки возможностей автономной разработки программного обеспечения передовых моделей искусственного интеллекта из-за существенных недостатков в наборе данных и широко распространенного загрязнения. Обширный аудит показал, что почти в шестидесяти процентах проблем, в которых модели часто терпели неудачу, содержались дефектные тестовые примеры, такие как чрезмерно узкие параметры, которые отклоняют функционально корректные решения, или широкие критерии, требующие неопределенных характеристик. Кроме того, поскольку бенчмарк основан на общедоступных репозиториях с открытым исходным кодом, перспективные модели непреднамеренно подвергались воздействию формулировок проблем и соответствующих им решений на этапах обучения. Это загрязнение искусственно завышает показатели производительности, поскольку автоматизированное тестирование на ошибки показало, что основные модели часто могут воспроизводить дословно точные исторические исправления ошибок, а не демонстрировать подлинное, обобщенное мастерство программирования. Вследствие этого OpenAI прекратила публиковать эти результаты и рекомендует перейти к таким оценкам, как SWE-bench Pro, или инвестировать в собственные, экспертно оцененные бенчмарки для обеспечения точной оценки истинных возможностей.
https://openai.com/index/why-we-no-lo...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: