Внутри xAI: создание Grok Imagine за 3 месяца, Videogen против моделей мира и видеоагенты — Итан Хе
Автор: Latent Space
Загружено: 2026-06-01
Просмотров: 8642
Описание:
От создания модели мира Cosmos от NVIDIA до работы в команде xAI над разработкой Grok Imagine с нуля, Итан Хе был в центре важнейших разработок в области генерации видео, мультимодальных моделей и моделей реального мира. В этом эпизоде Итан вместе с swyx и Vibhu разбирают, что на самом деле требуется для создания передовых систем обработки изображений и видео: данные, VAE, диффузионные трансформеры, выравнивание аудио-видео, ускорение вывода и скрытые затраты на хранение и перемещение огромных наборов видеоданных.
Мы подробно обсуждаем Grok Imagine, как небольшая команда xAI выпустила свою первую мультимодальную видеомодель за три месяца, почему скорость итераций важнее почти всего в разработке моделей и почему многие из самых больших успехов достигаются за счет исправления мельчайших ошибок в данных и конвейерах обучения. Итан также объясняет, почему видеомодели могут стать фронтендом ИИ, как генеративный пользовательский интерфейс может заменить традиционные интерфейсы, почему модели мира должны быть в реальном времени, интерактивными и иметь долгосрочный горизонт, и почему будущее генерации видео может в большей степени зависеть от языковых моделей и агентов, чем от одной лишь диффузии.
Мы обсуждаем:
• Путь Итана от NVIDIA Cosmos к xAI и Grok Imagine
• Как xAI создала свои первые модели изображений и видео с нуля
• Почему быстрая итерация, инфраструктура и таланты имели большее значение, чем совещания
• Почему небольшие ошибки в данных и обучении могут привести к значительному повышению качества модели
• Почему кодирование моделей может снова сделать вычислительное узким местом
• Как модели изображений и видео обучаются с помощью синтетических подписей
• VAE, токенизаторы, латентное пространство и диффузионные трансформеры
• Почему модели изображений являются основой для моделей видео
• Компромиссы между временным сжатием, видео в реальном времени и интерактивностью
• Flipbook, нейронные ОС и будущее генеративного пользовательского интерфейса
• Почему будущие интерфейсы могут напрямую переходить от намерения пользователя к пикселям
• Стоимость обучения моделей видео: хранение, исходящий трафик и часы работы GPU
• Пошаговая дистилляция, модели согласованности, GAN и быстрая инференция
• Grok Imagine 0.9 и крупномасштабная генерация аудио-видео
• Почему выравнивание аудио-видео сложнее, чем • Выравнивание текста и видео
• Определение Итаном моделей мира: видео в реальном времени, интерактивное, с длительным горизонтом
• Ссылка на видео, расширение видео и генерация видео с длительным контекстом
• Почему коммуникация исследований xAI недооценивает работу, стоящую за Grok Imagine
• Культура xAI, мышление на основе первых принципов и работа с Илоном
• Водяные знаки ИИ, SynthID, безопасность и обнаружение сгенерированного медиаконтента
• Переписывание подсказок и почему видеомодели воспринимают инструкции буквально
• Агент Grok Imagine, видеомонтаж и появление видеоагентов
• Почему языковые модели могут открыть следующую волну генерации видео
• Робототехника, физический ИИ и почему воплощение может возникнуть из моделей видеомира
• Почему Итан покинул xAI и почему он сейчас больше сосредоточен на LLM
• Самоуправляемый контекст, память и следующий рубеж для языковых моделей
—
Итан Хе
• LinkedIn: / ethanhe42
• X: https://x.com/EthanHe_42
Временные метки
00:00:00 Вступление
00:01:16 Введение
00:02:41 От NVIDIA Cosmos до xAI
00:04:40 Создание Grok Imagine с нуля
00:11:23 Как обучаются модели изображений и видео
00:20:09 Сжатие видео, VAE и компромиссы в реальном времени
00:23:26 Генеративный пользовательский интерфейс, Flipbook и нейронные ОС
00:33:26 Стоимость обучения больших видеомоделей
00:38:20 Дистилляция, GAN и быстрая обработка видео
00:42:37 Генерация аудио-видео и Grok Imagine 0.9
00:49:50 Что делает модель мира?
00:57:07 Референсные видео, длинный контекст и видеопамять
01:01:27 Культура xAI, исследования и построение фундаментальных принципов
01:11:01 Безопасность ИИ, водяные знаки и переписывание подсказок
01:14:26 Видеоагенты и создание контента с помощью ИИ
01:28:48 Почему языковые модели позволяют создавать более качественное видео
01:32:31 Робототехника, физический ИИ и модели воплощенного мира
01:33:54 Почему Итан ушел из xAI
01:35:32 Самоуправляемый контекст и будущее программ LLM
01:39:59 Карьерный путь Итана и заключительные мысли
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: