Нужны ли ИИ по-прежнему выпуклые направляющие?
Автор: Convex
Загружено: 2026-02-03
Просмотров: 2587
Описание:
В этом видео подробно разбирается, как Convex оценивает большие языковые модели на реальном коде Convex и нужно ли по-прежнему выпускать около 6000 токенов вручную созданных рекомендаций ИИ. Рассматривается фреймворк оценок Convex, как тестируется одноразовая генерация кода с помощью проверок TypeScript и модульных тестов, и почему строгие схемы и именование важны для надежной оценки.
В обсуждении сравнивается производительность моделей с рекомендациями и без них, анализируется вариативность результатов от запуска к запуску и показывается, почему новые модели показывают лучшие результаты по мере появления большего количества кода Convex в общедоступных обучающих данных. Также рассматриваются слабые места, такие как действия Convex, визуализация ошибок оценки и почему агентные рабочие процессы могут опровергать старые предположения об оценке.
Наконец, видео рассматривает альтернативные подходы: уменьшение размера рекомендаций, рассуждения, основанные на поиске, индексы документации и оценки на основе агентов, вдохновленные работами Vercel. Это видео предназначено для разработчиков, создающих инструменты с поддержкой ИИ, авторов фреймворков и всех, кто разрабатывает оценки для систем генерации кода.
Временные метки
[00:00] Почему Convex по умолчанию включает в себя рекомендации по ИИ
[00:58] Обзор проекта Convex evals
[01:17] Категории и структура оценки
[01:30] Пример оценки: поисковый запрос по тексту
[02:47] Конвейер генерации и оценки однократных результатов
[03:25] Модульные тесты, схемы и строгая типизация
[03:56] Как используются рекомендации в оценках
[04:20] Ежедневное проведение оценок моделей
[04:28] Таблица лидеров и вариативность результатов от запуска к запуску
[05:23] Создание визуализатора результатов
[06:01] Идея: добавление агента для анализа ошибок
[06:21] Почему новые модели показывают лучшие результаты на Convex
[06:53] Вопрос о необходимости рекомендаций с 6000 токенами
[07:10] Проведение оценок без рекомендаций
[07:20] Результаты: различия в производительности по моделям
[08:01] Погрешности и ограничения, связанные с ограниченностью данных
[08:35] Следует ли Convex продолжать следовать рекомендациям по выпуску продукции?
[09:36] Низкая производительность модели при выполнении действий
[10:07] Уменьшение размера рекомендаций вместо их удаления
[10:33] Идея самосовершенствующихся рекомендаций, управляемых агентами
[11:18] Ограничения одноразовых оценок в 2025 году
[11:54] Агентные оценки с инструментами и поиском
[12:45] Уроки исследования Vercel в области оценок
[13:55] Выводы и дальнейшие эксперименты
Ресурсы
Репозиторий Convex evals: https://github.com/get-convex/convex-...
Хэштеги
#convex #ai #llm #codegeneration #typescript #evals #developerexperience #agenticai #fullstack #infrastructure
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: