Использование кода Claude с инструментами оценки
Автор: Hamel Husain
Загружено: 2026-03-18
Просмотров: 2724
Описание:
Присоединяйтесь к группе AI Evals в марте 2026 года: https://maven.com/parlance-labs/evals...
Может ли программист-агент проводить за вас оценку кода? Я пообщался с Микио, ведущим разработчиком Phoenix (инструмента для оценки кода с открытым исходным кодом), чтобы узнать это вживую. Они предоставляют Claude Code полный цикл разработки ИИ: получение трассировок, анализ ошибок, генерация гипотез и разработка экспериментов. Некоторые из этих функций работают на удивление хорошо. Некоторые — нет. Вы увидите, где именно автоматизация помогает, а где человеческое суждение по-прежнему имеет значение.
Временные метки:
0:00 — Может ли Claude Code проводить за вас оценку кода?
0:27 — Вступление: Mikyo и Phoenix (инструмент для оценки открытого исходного кода)
1:52 — Переломный момент в кодировании от Karpathy: от 20% до 80%
2:46 — Что на самом деле требуется для саморазвивающегося программного обеспечения
3:44 — Почему агентам-программистам нужны платформы мониторинга, а не просто панели управления
7:40 — План на сегодня: агент проходит полный цикл разработки ИИ
9:21 — Живая демонстрация: Claude Code + Phoenix, объединенные вместе
10:25 — Дискуссия об открытом кодировании: стоит ли позволять это делать студентам магистратуры?
13:09 — Агент генерирует гипотезу на основе трассировок
14:12 — Разработка эксперимента и критериев оценки
16:10 — Агент создает оценщик «обработки темы»
17:05 — Сравнение экспериментов в Phoenix
18:43 — Как навыки и инструменты Клода Кода саморазвиваются
20:02 — Почему качество кодовой базы определяет качество выходных данных агента
21:51 — Агент создает бенчмаркинг и матрицу ошибок
25:17 — Как установить навыки Phoenix
26:21 — Предупреждение: плохие навыки и риски внедрения подсказок
27:02 — Конвейеры CI и непрерывная оценка для повышения безопасности подсказок
28:36 — Прогноз Карпати на 2026 год о «некачественной» версии
29:18 — Человеческий вкус по-прежнему имеет значение; Навыки срабатывают только в 52% случаев
30:12 — Подготовка вашей кодовой базы к работе с программистами
Подписывайтесь на Хамеля:
LinkedIn: / hamel
Twitter/X: https://x.com/HamelHusain
YouTube: @hamelhusain7140
Подписывайтесь на Микио:
LinkedIn: / mikeldking
Какую часть цикла оценки вы считаете самой сложной для автоматизации? Напишите об этом в комментариях.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: