Нужны ли ИИ по-прежнему выпуклые направляющие?

Автор: Convex

Загружено: 2026-02-03

Просмотров: 2587

Описание: В этом видео подробно разбирается, как Convex оценивает большие языковые модели на реальном коде Convex и нужно ли по-прежнему выпускать около 6000 токенов вручную созданных рекомендаций ИИ. Рассматривается фреймворк оценок Convex, как тестируется одноразовая генерация кода с помощью проверок TypeScript и модульных тестов, и почему строгие схемы и именование важны для надежной оценки.

В обсуждении сравнивается производительность моделей с рекомендациями и без них, анализируется вариативность результатов от запуска к запуску и показывается, почему новые модели показывают лучшие результаты по мере появления большего количества кода Convex в общедоступных обучающих данных. Также рассматриваются слабые места, такие как действия Convex, визуализация ошибок оценки и почему агентные рабочие процессы могут опровергать старые предположения об оценке.

Наконец, видео рассматривает альтернативные подходы: уменьшение размера рекомендаций, рассуждения, основанные на поиске, индексы документации и оценки на основе агентов, вдохновленные работами Vercel. Это видео предназначено для разработчиков, создающих инструменты с поддержкой ИИ, авторов фреймворков и всех, кто разрабатывает оценки для систем генерации кода.

Временные метки

[00:00] Почему Convex по умолчанию включает в себя рекомендации по ИИ
[00:58] Обзор проекта Convex evals
[01:17] Категории и структура оценки
[01:30] Пример оценки: поисковый запрос по тексту
[02:47] Конвейер генерации и оценки однократных результатов
[03:25] Модульные тесты, схемы и строгая типизация
[03:56] Как используются рекомендации в оценках
[04:20] Ежедневное проведение оценок моделей
[04:28] Таблица лидеров и вариативность результатов от запуска к запуску
[05:23] Создание визуализатора результатов
[06:01] Идея: добавление агента для анализа ошибок
[06:21] Почему новые модели показывают лучшие результаты на Convex
[06:53] Вопрос о необходимости рекомендаций с 6000 токенами
[07:10] Проведение оценок без рекомендаций
[07:20] Результаты: различия в производительности по моделям
[08:01] Погрешности и ограничения, связанные с ограниченностью данных
[08:35] Следует ли Convex продолжать следовать рекомендациям по выпуску продукции?

[09:36] Низкая производительность модели при выполнении действий
[10:07] Уменьшение размера рекомендаций вместо их удаления
[10:33] Идея самосовершенствующихся рекомендаций, управляемых агентами
[11:18] Ограничения одноразовых оценок в 2025 году
[11:54] Агентные оценки с инструментами и поиском
[12:45] Уроки исследования Vercel в области оценок
[13:55] Выводы и дальнейшие эксперименты

Ресурсы

Репозиторий Convex evals: https://github.com/get-convex/convex-...

Хэштеги

#convex #ai #llm #codegeneration #typescript #evals #developerexperience #agenticai #fullstack #infrastructure

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Нужны ли ИИ по-прежнему выпуклые направляющие?

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

7 НОВЫХ выпуклых компонентов

7 НОВЫХ выпуклых компонентов

I'm not convinced

I'm not convinced

Почему Богатые Молчат? 5 Законов Теневой Стратегии

Почему Богатые Молчат? 5 Законов Теневой Стратегии

Полный гайд по вайбкодингу в Cursor AI с нуля: Subagents, Hooks, Skills, Rules, Commands, MCP

Полный гайд по вайбкодингу в Cursor AI с нуля: Subagents, Hooks, Skills, Rules, Commands, MCP

Битва за Telegram. Гуриев: что заставит Путина закончить войну. Кто прогнал Богомолова из МХАТ

Битва за Telegram. Гуриев: что заставит Путина закончить войну. Кто прогнал Богомолова из МХАТ

Прекратите отправлять JSON в вашу программу LLM. Вместо этого сделайте следующее.

Прекратите отправлять JSON в вашу программу LLM. Вместо этого сделайте следующее.

Replit + Convex — новая команда мечты для разработки мобильных приложений!

Replit + Convex — новая команда мечты для разработки мобильных приложений!

Автоматизация кодинга с AI: AI Factory - новый уровень качества

Автоматизация кодинга с AI: AI Factory - новый уровень качества

Сможет ли новый ИИ от Google решить все проблемы? | Титаны и новаторы

Сможет ли новый ИИ от Google решить все проблемы? | Титаны и новаторы

OpenClaw Creator: Почему 80% приложений исчезнут

OpenClaw Creator: Почему 80% приложений исчезнут

Something big is happening...

Something big is happening...

Дорожная карта по изучению ИИ (начало)

Дорожная карта по изучению ИИ (начало)

Realtime Real Talk AMA with Convex Founders Jamie and James

Realtime Real Talk AMA with Convex Founders Jamie and James

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

MySQL and Postgres are Fine?! A chat with the CEO of Convex

MySQL and Postgres are Fine?! A chat with the CEO of Convex

TypeScript 6: критические изменения, о которых вам нужно знать

TypeScript 6: критические изменения, о которых вам нужно знать

Подсказки устарели. Добро пожаловать в эпоху работы в атмосфере.

Подсказки устарели. Добро пожаловать в эпоху работы в атмосфере.

Should you let interviewees use AI? A chat with the CTO of Convex

Should you let interviewees use AI? A chat with the CTO of Convex

Технический анализ: как агенты ИИ игнорируют 40 лет прогресса в области безопасности.

Технический анализ: как агенты ИИ игнорируют 40 лет прогресса в области безопасности.

Как создать многопользовательское приложение для чата с использованием ИИ с помощью Convex

Как создать многопользовательское приложение для чата с использованием ИИ с помощью Convex