ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Benchtalks #2: От SWE-bench к ProgramBench: будущее тестов производительности кода с Джоном Янгом

Автор: Snorkel AI

Загружено: 2026-06-03

Просмотров: 4515

Описание: Джон Янг — аспирант Стэнфордского университета и создатель франшизы SWE-bench, SWE-smith, CodeClash и, совсем недавно, ProgramBench, бенчмарка, где каждая перспективная модель на старте показала 0%.

В этом эпизоде ​​Benchtalks соучредитель Snorkel AI Винсент Санн Чен беседует с Джоном о том, что тестирует ProgramBench, почему модели продолжают писать код на Python, когда этого делать не следует, о проблеме мошенничества при предоставлении модели доступа в интернет и о философском повороте в оценке кода: мы покидаем эпоху «может ли модель делать то, что делают люди» и вступаем в эпоху «может ли модель делать то, что не могут люди».


ProgramBench: https://programbench.com
Статья о ProgramBench: https://arxiv.org/abs/2605.03546
Джон Янг: https://john-b-yang.github.io/
Гранты Snorkel Open Benchmarks: https://benchmarks.snorkel.ai/
Benchtalks #1 с Алексом Шоу: https://snorkel.ai/blog/benchtalks-al...

Главы:
00:00 Вступление
01:29 Запуск и реакция на ProgramBench
03:41 Почему оценка на уровне артефактов, а не на уровне кода
06:03 Почему модели любят Python
08:29 ProgramBench как исследовательский инструмент
12:45 От SWE-bench и InterCode к ProgramBench
17:47 Как оценивать модель кодирования
21:53 Позиционная статья и участие человека в процессе
25:01 Управление качеством с помощью агентов в процессе
28:40 Доступ к Интернету и целостность бенчмарков
35:26 Где модели могут превзойти человеческие возможности
38:56 Когда модель достигает 80% на ProgramBench
43:55 Бенчмарки, на которые стоит обратить внимание
46:24 Какой бенчмарк вы хотели бы видеть существующим?
49:32 Будут ли бенчмарки по-прежнему выглядеть как бенчмарки через 5 лет?
52:02 Как внести свой вклад в ProgramBench

Подписывайтесь на новые эпизоды Benchtalks.

#AI #LLMBenchmark #AICoding #SoftwareEngineering #LLMEvaluation

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Benchtalks #2: От SWE-bench к ProgramBench: будущее тестов производительности кода с Джоном Янгом

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]