#300
Автор: Data Science Gems
Загружено: 2025-12-30
Просмотров: 502
Описание:
Архитектура прогнозирования на основе совместного встраивания изображений (I-JEPA) — это негенеративная структура для самообучения на основе изображений. Основная идея I-JEPA заключается в прогнозировании представлений нескольких целевых блоков в одном изображении с использованием одного контекстного блока. Ключевым проектным решением, определяющим создание семантических представлений в I-JEPA, является стратегия маскирования; в частности, крайне важно (а) выбирать целевые блоки в достаточно большом (семантическом) масштабе и (б) использовать достаточно информативный, пространственно распределенный контекстный блок. Эмпирически, в сочетании с Vision Transformers, I-JEPA демонстрирует высокую масштабируемость. Например, модель ViT-Huge/14, обученная на ImageNet с использованием 16 графических процессоров A100 менее чем за 72 часа, показывает высокую производительность в широком диапазоне задач, включая линейную классификацию, подсчет объектов и прогнозирование глубины.
В этом видео я расскажу о следующем: Как обучаются модели JEPA? Как показывают себя модели, обученные с помощью JEPA?
Более подробную информацию можно найти по ссылке: https://openaccess.thecvf.com/content...
Ассран, Махмуд, Квентин Дюваль, Ишан Мисра, Пётр Бояновский, Паскаль Винсент, Майкл Раббат, Ян ЛеКун и Николас Баллас. «Самостоятельное обучение на основе изображений с использованием архитектуры совместного встраивания для прогнозирования». В сборнике трудов конференции IEEE/CVF по компьютерному зрению и распознаванию образов, стр. 15619-15629. 2023.
Спасибо за просмотр!
LinkedIn: http://aka.ms/manishgupta
Главная страница: https://sites.google.com/view/manishg/
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: