Benchtalks #2: От SWE-bench к ProgramBench: будущее тестов производительности кода с Джоном Янгом
Автор: Snorkel AI
Загружено: 2026-06-03
Просмотров: 4515
Описание:
Джон Янг — аспирант Стэнфордского университета и создатель франшизы SWE-bench, SWE-smith, CodeClash и, совсем недавно, ProgramBench, бенчмарка, где каждая перспективная модель на старте показала 0%.
В этом эпизоде Benchtalks соучредитель Snorkel AI Винсент Санн Чен беседует с Джоном о том, что тестирует ProgramBench, почему модели продолжают писать код на Python, когда этого делать не следует, о проблеме мошенничества при предоставлении модели доступа в интернет и о философском повороте в оценке кода: мы покидаем эпоху «может ли модель делать то, что делают люди» и вступаем в эпоху «может ли модель делать то, что не могут люди».
ProgramBench: https://programbench.com
Статья о ProgramBench: https://arxiv.org/abs/2605.03546
Джон Янг: https://john-b-yang.github.io/
Гранты Snorkel Open Benchmarks: https://benchmarks.snorkel.ai/
Benchtalks #1 с Алексом Шоу: https://snorkel.ai/blog/benchtalks-al...
Главы:
00:00 Вступление
01:29 Запуск и реакция на ProgramBench
03:41 Почему оценка на уровне артефактов, а не на уровне кода
06:03 Почему модели любят Python
08:29 ProgramBench как исследовательский инструмент
12:45 От SWE-bench и InterCode к ProgramBench
17:47 Как оценивать модель кодирования
21:53 Позиционная статья и участие человека в процессе
25:01 Управление качеством с помощью агентов в процессе
28:40 Доступ к Интернету и целостность бенчмарков
35:26 Где модели могут превзойти человеческие возможности
38:56 Когда модель достигает 80% на ProgramBench
43:55 Бенчмарки, на которые стоит обратить внимание
46:24 Какой бенчмарк вы хотели бы видеть существующим?
49:32 Будут ли бенчмарки по-прежнему выглядеть как бенчмарки через 5 лет?
52:02 Как внести свой вклад в ProgramBench
Подписывайтесь на новые эпизоды Benchtalks.
#AI #LLMBenchmark #AICoding #SoftwareEngineering #LLMEvaluation
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: