Использование кода Claude с инструментами оценки

Автор: Hamel Husain

Загружено: 2026-03-18

Просмотров: 2724

Описание: Присоединяйтесь к группе AI Evals в марте 2026 года: https://maven.com/parlance-labs/evals...

Может ли программист-агент проводить за вас оценку кода? Я пообщался с Микио, ведущим разработчиком Phoenix (инструмента для оценки кода с открытым исходным кодом), чтобы узнать это вживую. Они предоставляют Claude Code полный цикл разработки ИИ: получение трассировок, анализ ошибок, генерация гипотез и разработка экспериментов. Некоторые из этих функций работают на удивление хорошо. Некоторые — нет. Вы увидите, где именно автоматизация помогает, а где человеческое суждение по-прежнему имеет значение.

Временные метки:
0:00 — Может ли Claude Code проводить за вас оценку кода?

0:27 — Вступление: Mikyo и Phoenix (инструмент для оценки открытого исходного кода)
1:52 — Переломный момент в кодировании от Karpathy: от 20% до 80%
2:46 — Что на самом деле требуется для саморазвивающегося программного обеспечения
3:44 — Почему агентам-программистам нужны платформы мониторинга, а не просто панели управления
7:40 — План на сегодня: агент проходит полный цикл разработки ИИ
9:21 — Живая демонстрация: Claude Code + Phoenix, объединенные вместе
10:25 — Дискуссия об открытом кодировании: стоит ли позволять это делать студентам магистратуры?

13:09 — Агент генерирует гипотезу на основе трассировок
14:12 — Разработка эксперимента и критериев оценки
16:10 — Агент создает оценщик «обработки темы»
17:05 — Сравнение экспериментов в Phoenix
18:43 — Как навыки и инструменты Клода Кода саморазвиваются
20:02 — Почему качество кодовой базы определяет качество выходных данных агента
21:51 — Агент создает бенчмаркинг и матрицу ошибок
25:17 — Как установить навыки Phoenix
26:21 — Предупреждение: плохие навыки и риски внедрения подсказок
27:02 — Конвейеры CI и непрерывная оценка для повышения безопасности подсказок
28:36 — Прогноз Карпати на 2026 год о «некачественной» версии
29:18 — Человеческий вкус по-прежнему имеет значение; Навыки срабатывают только в 52% случаев
30:12 — Подготовка вашей кодовой базы к работе с программистами

Подписывайтесь на Хамеля:
LinkedIn: / hamel
Twitter/X: https://x.com/HamelHusain
YouTube: @hamelhusain7140

Подписывайтесь на Микио:
LinkedIn: / mikeldking

Какую часть цикла оценки вы считаете самой сложной для автоматизации? Напишите об этом в комментариях.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Использование кода Claude с инструментами оценки

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео