Модели JEPA Янна ЛеКуна: VL-JEPA, I-JEPA, V-JEPA. Модели реального мира. Nvidia Cosmos. Магистерс...
Автор: Byte Goose AI.
Загружено: 2025-12-31
Просмотров: 7270
Описание:
JEPA и энергетические модели (EBM).
Сегодня мы разберем фундаментальный сдвиг в том, как ИИ учится понимать мир — от утомительной реконструкции пикселей к предсказанию смысла. Мы исследуем архитектуру совместного встраивания и предсказания (JEPA).
Эта архитектура представляет собой философию, согласно которой ИИ не нужно генерировать каждую деталь того, что он видит; ему нужно лишь понимать представление этого. В этом эпизоде мы проследим эволюцию этой структуры в трех различных поколениях.
Сначала мы рассмотрим I-JEPA, пионера в области моделей на основе изображений. Он доказал, что, маскируя части статического изображения и предсказывая их абстрактные характеристики — а не значения пикселей — мы можем обучить модели улавливать высокоуровневую семантику, не полагаясь на хрупкие, созданные вручную аугментации.
Далее мы переходим к временному измерению с V-JEPA. В этой итерации та же беспиксельная логика применяется к видео, позволяя модели понимать движение и время, предсказывая представления отсутствующих видеосегментов, создавая мощный автономный алгоритм обучения для динамических визуальных данных.
И наконец, мы подходим к передовым разработкам с VL-JEPA. Это первая негенеративная модель, разработанная для общих задач обработки визуальной и языковой информации. Объединяя визуальный кодировщик V-JEPA с текстовым предиктором, она уникальным образом объединяет зрение и язык: она предсказывает непрерывные текстовые встраивания, а не дискретные токены. Такое разделение семантического предсказания и генерации текста обеспечивает значительное повышение эффективности для приложений реального времени.
Сравнение семейства моделей VL-JEPA, I-JEPA, V-JEPA с моделями Nvidia Cosmos.
Три модели, одна общая основа и совершенно новый подход к обучению представлений. Давайте начнём — семейства моделей VL-JEPA Joint Embedded Predictive Architecture от лаборатории META FAIR AI.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: