OpenVision 3: семейство унифицированных визуальных кодировщиков для понимания и генерации изображ...
Автор: AI Papers Podcast Daily
Загружено: 2026-01-27
Просмотров: 27
Описание:
OpenVision 3 представляет новое семейство унифицированных визуальных кодировщиков, разработанных для преодоления разрыва в представлении между визуальным пониманием и генерацией изображений путем обучения единому пространству признаков, которое превосходно справляется с обеими задачами. Архитектура использует гибридный подход, в котором Vision Transformer обрабатывает сжатые латентные данные изображений из замороженного вариационного автокодировщика для создания унифицированных токенов, которые затем оптимизируются с помощью двух взаимодополняющих ветвей, предназначенных для высокоточной реконструкции изображений и семантического выравнивания посредством контрастного обучения и создания подписей. Эта стратегия совместного обучения демонстрирует синергетическую связь, где семантическое обучение повышает качество реконструкции на низком уровне, а генеративные цели усиливают семантическое понимание, позволяя модели эффективно обобщать результаты на различные задачи. Обширные оценки показывают, что OpenVision 3 достигает возможностей многомодального понимания, сопоставимых со стандартными моделями CLIP, при этом значительно превосходя существующие унифицированные токенизаторы и специализированные генеративные кодировщики с точки зрения точности реконструкции изображений и качества генерации.
https://arxiv.org/pdf/2601.15369
https://ucsc-vlaa.github.io/OpenVision3/
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: