SWE-EVO: Benchmarking AI Coding Agents in Long-Horizon Software Evolution

Автор: PaperLens

Загружено: 2026-01-13

Просмотров: 5

Описание: Explore SWE-EVO, a pioneering benchmark from Marvis AI, FPT Software AI Center, and the University of Melbourne. While traditional benchmarks focus on isolated bug fixes, SWE-EVO tasks agents with long-horizon software evolution—requiring them to interpret release notes and coordinate changes across an average of 21 files,,. The sources reveal a "striking capability gap": even GPT-5 resolved only 21% of these complex tasks compared to 65% on SWE-Bench Verified,. This video covers the shift from discrete issue resolution to autonomous codebase evolution and introduces the Fix Rate metric for measuring partial progress.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

SWE-EVO: Benchmarking AI Coding Agents in Long-Horizon Software Evolution

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Как НА САМОМ ДЕЛЕ научиться хакингу в 2026 году (ОЧЕНЬ КОНКРЕТНО)

Как НА САМОМ ДЕЛЕ научиться хакингу в 2026 году (ОЧЕНЬ КОНКРЕТНО)

Магазин приложений ChatGPT: конец приложений в том виде, в каком мы их знаем.

Магазин приложений ChatGPT: конец приложений в том виде, в каком мы их знаем.

💅 css in js умер, но мы должны обсудить это

💅 css in js умер, но мы должны обсудить это

Провал Марка Цукерберга: Мечта об ИИ Стала Кошмаром. Grok под Запретом. Главный Вопрос AI-кодинга

Провал Марка Цукерберга: Мечта об ИИ Стала Кошмаром. Grok под Запретом. Главный Вопрос AI-кодинга

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Я ПЕРЕХВАТИЛ трафик МАХ. ЭТО нельзя игнорировать

Я ПЕРЕХВАТИЛ трафик МАХ. ЭТО нельзя игнорировать

SUNO.AI Как стереть цифровой след

SUNO.AI Как стереть цифровой след

Я случайно создал приложение на работе. Gemini Canvas + NotebookLM гайд.

Я случайно создал приложение на работе. Gemini Canvas + NotebookLM гайд.

Задача про надёжный пароль | В интернете опять кто-то неправ #035 | Борис Трушин и Математик Андрей

Задача про надёжный пароль | В интернете опять кто-то неправ #035 | Борис Трушин и Математик Андрей

KodaCode — убийца Cursor без VPN? Бесплатный AI Plugin с безлимитной моделью

KodaCode — убийца Cursor без VPN? Бесплатный AI Plugin с безлимитной моделью

SSD-кэш в Synology: Полное руководство для новичков и не только

SSD-кэш в Synology: Полное руководство для новичков и не только

The Slow Death of AI Scaling: Why Bigger Isn't Always Better | Sara Hooker

The Slow Death of AI Scaling: Why Bigger Isn't Always Better | Sara Hooker

Почему твой Второй Мозг не работает: ты неправильно понял Zettelkasten

Почему твой Второй Мозг не работает: ты неправильно понял Zettelkasten

О ТАКИХ ЗАРПЛАТАХ В МОСКВЕ МОЛЧАТ! БЫЛО ТЯЖЕЛО? А СТАНЕТ ЕЩЁ ТЯЖЕЛЕЕ. КАК ЛЮДИ ПОКОРЯЮТ СТОЛИЦУ.

О ТАКИХ ЗАРПЛАТАХ В МОСКВЕ МОЛЧАТ! БЫЛО ТЯЖЕЛО? А СТАНЕТ ЕЩЁ ТЯЖЕЛЕЕ. КАК ЛЮДИ ПОКОРЯЮТ СТОЛИЦУ.

Почему все ГЕРМЕТИЗИРУЮТ неправильно?

Почему все ГЕРМЕТИЗИРУЮТ неправильно?

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Macrohard: Конкурент Microsoft, основанный на искусственном интеллекте, от Илона Маска (все, что ...

Macrohard: Конкурент Microsoft, основанный на искусственном интеллекте, от Илона Маска (все, что ...

Почему Собаки Вдруг ЗАЛЕЗАЮТ На Вас? (Причина шокирует)

Почему Собаки Вдруг ЗАЛЕЗАЮТ На Вас? (Причина шокирует)

Digital RedQueen: LLMs Evolving Adversarial Code in Core War (MIT & Sakana AI)

Digital RedQueen: LLMs Evolving Adversarial Code in Core War (MIT & Sakana AI)

ИИ в 2026: Как создать AI-бизнес в одиночку (без кода)

ИИ в 2026: Как создать AI-бизнес в одиночку (без кода)