Первый взгляд на GPT5.5 от OpenAI в Hermes Agent: очистка некорректных данных + анализ кода.
Автор: Tonbi's AI Garage
Загружено: 2026-04-23
Просмотров: 6578
Описание:
OpenAI выпустила GPT-5.5 и позиционирует её как шаг к созданию ИИ, который действительно выполняет реальную компьютерную работу, а не просто болтает о ней. Поэтому я протестировал её на двух реальных задачах в Hermes Agent: синтезировать кучу неструктурированных данных для DLM-фермерства и провести сквозной аудит одного из моих репозиториев GitHub.
Подпишитесь на мою БЕСПЛАТНУЮ еженедельную рассылку, где я делюсь своими нефильтрованными мыслями о последних новостях в области ИИ, интересных исследованиях и проектах, над которыми я работаю: https://www.onchainaigarage.com/
🐦 Следите за Tonbi на X, чтобы получать обновления об ИИ и блокчейне в режиме реального времени! https://x.com/tonbistudio
GPT-5.5 — это новая передовая модель OpenAI, и её главная идея заключается в том, что это не просто улучшение бенчмарка — это модель, разработанная для агентного программирования, использования инструментов и работы с знаниями, которая выполняется до конца. Я подробно рассказываю о том, что нам известно на данный момент после запуска (Terminal Bench 2.0, OS World Verified, GDPVal, контекстное окно на 400 000 записей в Codex, уровень API для 1 миллиона записей и изменения в структуре готовности), а затем применяю это на практике в двух задачах, которые повторяют то, для чего я использую эти модели ежедневно: сложная задача синтеза документов в разных форматах и полномасштабный поиск ошибок в моем репозитории TurboQuant PyTorch. Мнения о том, превосходит ли это Opus 4.7 после более тщательного использования — это мой первый взгляд.
✅ Полный обзор запуска — прирост производительности, аргументы в пользу агентного программирования, заявления об использовании компьютеров, аргумент в пользу эффективности (меньше токенов + меньше повторных попыток) и поэтапное развертывание / классификация кибербезопасности и биохимии в рамках структуры готовности.
✅ ✅ Задача 1: интеллектуальная работа — передал ему папку с CSV-файлами, скриншотами и PDF-файлами из моего фарминга пула ликвидности DLM 2024 года (все отформатированы по-разному, есть некоторые конфликты данных), запросил служебную записку и сверил электронную таблицу. Он чисто синтезировал данные, отметил конфликты и прочитал скриншот электронной таблицы, на котором Opus 4.7 «завис» в одном из предыдущих видео.
✅ Задача 2: агентное программирование — указал ему на мой репозиторий TurboQuant, запросил поиск и исправление ошибки. Он воспроизвел открытую проблему #17, нашел первопричину проблемы с упаковкой, предложил план исправления, выполнил его и открыл запрос на слияние (PR) от начала до конца.
💻 Репозиторий Tonbi на GitHub: https://github.com/tonbistudio
🌐 Портфолио: https://www.tonbistudio.com
Ресурсы:
🔗 Анонс OpenAI GPT-5.5: https://openai.com/
🔗 Codex: https://chatgpt.com/codex
🔗 Репозиторий TurboQuant: https://github.com/tonbistudio
🔗 Terminal Bench 2.0: https://www.tbench.ai/
🔗 OS World: https://os-world.github.io/
Временные метки:
0:00 - Вступление: выход GPT-5.5
1:47 - Бенчмарки и то, что заявляет OpenAI
4:24 - Контекстные окна, эффективность и поэтапное развертывание
5:31 - Настройка задачи 1: сложный синтез данных DLM
7:08 - Записка для руководства + электронная таблица Вывод
9:34 - Задание 2: Поиск ошибок TurboQuant и PR
13:30 - Первые впечатления по сравнению с Opus 4.7
Далее:
Еще много информации о GPT-5.5 — более крупные проекты Codex, эксперименты с агентами Hermes, и я буду распределять время между Codex и Claude, чтобы понять, какой из них мне больше подходит для реальной работы. Плюс продолжение серии о квантизации и новые эксперименты с JEPA! 👀
Вы уже пробовали GPT-5.5? Действительно ли он превосходит Opus 4.7 в плане агентного программирования, или преимущество в основном в интеллектуальном труде? Оставляйте свои сравнения в комментариях — мне интересно узнать мнение людей, использующих оба варианта. Если это было полезно, пожалуйста, поставьте лайк, подпишитесь и нажмите на колокольчик, чтобы получать уведомления о более подробных экспериментах с этой моделью! 🦐✨
#GPT55 #OpenAI #Codex #AgenticCoding #FirstLook #Opus47 #LLM #ClaudeCode #HermesAgent #AIResearch #MLEngineering #AITools
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: