OpenAI: Почему Swe-Bench Verified больше не измеряет передовые возможности программирования

Автор: AI Papers Podcast Daily

Загружено: 2026-02-24

Просмотров: 31

Описание: Компания OpenAI установила, что бенчмарк SWE-bench Verified больше не является надежным показателем для оценки возможностей автономной разработки программного обеспечения передовых моделей искусственного интеллекта из-за существенных недостатков в наборе данных и широко распространенного загрязнения. Обширный аудит показал, что почти в шестидесяти процентах проблем, в которых модели часто терпели неудачу, содержались дефектные тестовые примеры, такие как чрезмерно узкие параметры, которые отклоняют функционально корректные решения, или широкие критерии, требующие неопределенных характеристик. Кроме того, поскольку бенчмарк основан на общедоступных репозиториях с открытым исходным кодом, перспективные модели непреднамеренно подвергались воздействию формулировок проблем и соответствующих им решений на этапах обучения. Это загрязнение искусственно завышает показатели производительности, поскольку автоматизированное тестирование на ошибки показало, что основные модели часто могут воспроизводить дословно точные исторические исправления ошибок, а не демонстрировать подлинное, обобщенное мастерство программирования. Вследствие этого OpenAI прекратила публиковать эти результаты и рекомендует перейти к таким оценкам, как SWE-bench Pro, или инвестировать в собственные, экспертно оцененные бенчмарки для обеспечения точной оценки истинных возможностей.

https://openai.com/index/why-we-no-lo...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

OpenAI: Почему Swe-Bench Verified больше не измеряет передовые возможности программирования

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Технический анализ: как агенты ИИ игнорируют 40 лет прогресса в области безопасности.

Технический анализ: как агенты ИИ игнорируют 40 лет прогресса в области безопасности.

Дарио Амодей (ген. директор Anthropic) о будущем искусственного интеллекта: возможности и риски.

Дарио Амодей (ген. директор Anthropic) о будущем искусственного интеллекта: возможности и риски.

Блокировка Telegram: ТОП-5 защищенных мессенджеров на замену

Блокировка Telegram: ТОП-5 защищенных мессенджеров на замену

State of JavaScript: что ждёт разработчиков в 2026?

State of JavaScript: что ждёт разработчиков в 2026?

Борис Гребенщиков и Максим Курников | Интервью BILD

Борис Гребенщиков и Максим Курников | Интервью BILD

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

OpenAI: WebSocket Mode

OpenAI: WebSocket Mode

Как PostgreSQL может сделать больно, когда не ожидаешь — Михаил Жилин

Как PostgreSQL может сделать больно, когда не ожидаешь — Михаил Жилин

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

ЛЕВИЕВ: "Рубильник готов, но.." Объявит ли Путин мобилизацию, Фламинго, ДАМБА, связь, Искандеры

Локальные модели: как запустить ИИ в браузере / Алиса Пюльзю

Локальные модели: как запустить ИИ в браузере / Алиса Пюльзю

The Shape of AI: Jaggedness, Bottlenecks and Salients

The Shape of AI: Jaggedness, Bottlenecks and Salients

ОБВАЛ Экономики ИИ! КРИЗИС ИНТЕЛЛЕКТА 2028! Катастрофа ВНУТРИ Индустрии! SaaS РАЗОРВАН В ХЛАМ!

ОБВАЛ Экономики ИИ! КРИЗИС ИНТЕЛЛЕКТА 2028! Катастрофа ВНУТРИ Индустрии! SaaS РАЗОРВАН В ХЛАМ!

Самая недооценённая идея в науке

Самая недооценённая идея в науке

Там проходят катастрофические процессы | Астрофизик Константин Парфенов

Там проходят катастрофические процессы | Астрофизик Константин Парфенов

Введение в MCP | Протокол MCP - 01

Введение в MCP | Протокол MCP - 01

Anthropic’s Responsible Scaling Policy: Version 3.0

Anthropic’s Responsible Scaling Policy: Version 3.0

За два часа до...ЛАНЬКОВ рассказал о

За два часа до...ЛАНЬКОВ рассказал о "тайной встрече" на корабле: Как устроена Северная Корея

Разработчик советских суперкомпьютеров рассказал, что нас ждёт впереди. Андрей Масалович

Разработчик советских суперкомпьютеров рассказал, что нас ждёт впереди. Андрей Масалович