Self-improving агент: кэш, SWE-bench и первые реальные результаты
Автор: Greg's Journal
Загружено: 2026-03-06
Просмотров: 8
Описание:
Во втором выпуске серии продолжаем строить self-improving AI агент: прогоняем каждую из 6 стадий научного цикла в изоляции и добавляем оператор Store — кэширование промежуточных результатов, чтобы не тратить время и деньги на повторные вызовы LLM. Агент самостоятельно выдвинул гипотезу о «focus hints» — собирать список ключевых файлов репозитория перед генерацией патча — и применил улучшение к своему собственному коду. Запускаем обновлённый агент на SWE-bench: три задачи из AstroPy, три патча, ноль успешно применённых — и это хороший повод задуматься, насколько реалистичен полностью автономный режим без человека в цикле.
Моя книга о разработке надёжных Android-приложений доступна для бесплатного скачивания: https://archive.org/details/quality-a...
#AIагенты #SWEbench #самообучение #LLM #FunctionalAI #AgenticAI #кэширование #программирование #OpenAI #SoftwareEngineering
---
In episode two of the self-improving AI agent series, we pick up right where we left off: running each of the 6 scientific-loop stages in isolation and wiring in a Store operator to cache intermediate results — no more paying twice for the same LLM call. The agent independently hypothesized that pre-collecting "focus hints" (key files in the repo relevant to the issue) would improve patch quality, then rewrote its own forward function to implement it. We run the updated agent on SWE-bench — three AstroPy problems, three patches generated, zero successfully applied — which raises a real question: is fully autonomous self-improvement realistic yet, or does the loop need a human in it?
My book on building reliable Android applications at scale is available for free download: https://archive.org/details/quality-a...
#AIAgents #SelfImprovingAI #SWEbench #AgenticAI #LLM #FunctionalProgramming #Caching #SoftwareEngineering #MachineLearning #OpenAI
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: