ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Внутри xAI: создание Grok Imagine за 3 месяца, Videogen против моделей мира и видеоагенты — Итан Хе

Автор: Latent Space

Загружено: 2026-06-01

Просмотров: 8642

Описание: От создания модели мира Cosmos от NVIDIA до работы в команде xAI над разработкой Grok Imagine с нуля, Итан Хе был в центре важнейших разработок в области генерации видео, мультимодальных моделей и моделей реального мира. В этом эпизоде ​​Итан вместе с swyx и Vibhu разбирают, что на самом деле требуется для создания передовых систем обработки изображений и видео: данные, VAE, диффузионные трансформеры, выравнивание аудио-видео, ускорение вывода и скрытые затраты на хранение и перемещение огромных наборов видеоданных.

Мы подробно обсуждаем Grok Imagine, как небольшая команда xAI выпустила свою первую мультимодальную видеомодель за три месяца, почему скорость итераций важнее почти всего в разработке моделей и почему многие из самых больших успехов достигаются за счет исправления мельчайших ошибок в данных и конвейерах обучения. Итан также объясняет, почему видеомодели могут стать фронтендом ИИ, как генеративный пользовательский интерфейс может заменить традиционные интерфейсы, почему модели мира должны быть в реальном времени, интерактивными и иметь долгосрочный горизонт, и почему будущее генерации видео может в большей степени зависеть от языковых моделей и агентов, чем от одной лишь диффузии.

Мы обсуждаем:
• Путь Итана от NVIDIA Cosmos к xAI и Grok Imagine
• Как xAI создала свои первые модели изображений и видео с нуля
• Почему быстрая итерация, инфраструктура и таланты имели большее значение, чем совещания
• Почему небольшие ошибки в данных и обучении могут привести к значительному повышению качества модели
• Почему кодирование моделей может снова сделать вычислительное узким местом
• Как модели изображений и видео обучаются с помощью синтетических подписей
• VAE, токенизаторы, латентное пространство и диффузионные трансформеры
• Почему модели изображений являются основой для моделей видео
• Компромиссы между временным сжатием, видео в реальном времени и интерактивностью
• Flipbook, нейронные ОС и будущее генеративного пользовательского интерфейса
• Почему будущие интерфейсы могут напрямую переходить от намерения пользователя к пикселям
• Стоимость обучения моделей видео: хранение, исходящий трафик и часы работы GPU
• Пошаговая дистилляция, модели согласованности, GAN и быстрая инференция
• Grok Imagine 0.9 и крупномасштабная генерация аудио-видео
• Почему выравнивание аудио-видео сложнее, чем • Выравнивание текста и видео
• Определение Итаном моделей мира: видео в реальном времени, интерактивное, с длительным горизонтом
• Ссылка на видео, расширение видео и генерация видео с длительным контекстом
• Почему коммуникация исследований xAI недооценивает работу, стоящую за Grok Imagine
• Культура xAI, мышление на основе первых принципов и работа с Илоном
• Водяные знаки ИИ, SynthID, безопасность и обнаружение сгенерированного медиаконтента
• Переписывание подсказок и почему видеомодели воспринимают инструкции буквально
• Агент Grok Imagine, видеомонтаж и появление видеоагентов
• Почему языковые модели могут открыть следующую волну генерации видео
• Робототехника, физический ИИ и почему воплощение может возникнуть из моделей видеомира
• Почему Итан покинул xAI и почему он сейчас больше сосредоточен на LLM
• Самоуправляемый контекст, память и следующий рубеж для языковых моделей

—

Итан Хе
• LinkedIn:   / ethanhe42  
• X: https://x.com/EthanHe_42

Временные метки
00:00:00 Вступление
00:01:16 Введение
00:02:41 От NVIDIA Cosmos до xAI
00:04:40 Создание Grok Imagine с нуля
00:11:23 Как обучаются модели изображений и видео
00:20:09 Сжатие видео, VAE и компромиссы в реальном времени
00:23:26 Генеративный пользовательский интерфейс, Flipbook и нейронные ОС
00:33:26 Стоимость обучения больших видеомоделей
00:38:20 Дистилляция, GAN и быстрая обработка видео
00:42:37 Генерация аудио-видео и Grok Imagine 0.9
00:49:50 Что делает модель мира?

00:57:07 Референсные видео, длинный контекст и видеопамять
01:01:27 Культура xAI, исследования и построение фундаментальных принципов
01:11:01 Безопасность ИИ, водяные знаки и переписывание подсказок
01:14:26 Видеоагенты и создание контента с помощью ИИ
01:28:48 Почему языковые модели позволяют создавать более качественное видео
01:32:31 Робототехника, физический ИИ и модели воплощенного мира
01:33:54 Почему Итан ушел из xAI
01:35:32 Самоуправляемый контекст и будущее программ LLM
01:39:59 Карьерный путь Итана и заключительные мысли

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Внутри xAI: создание Grok Imagine за 3 месяца, Videogen против моделей мира и видеоагенты — Итан Хе

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]