mPLUG: Vision-Language Learning by Cross-modal Skip-connections

Автор: Data Science Gems

Загружено: 2023-11-26

Просмотров: 538

Описание: mPLUG is an effective and efficient VLP framework for both cross-modal understanding and generation. It has an asymmetric vision-language architecture with novel cross-modal skip-connections, to address information asymmetry and computation efficiency. It is pretrained on large-scale image-text pairs. It shows strong results on image captioning, image-text retrieval, visual grounding and visual question answering. It also demonstrates strong zero-shot transfer ability on multiple video-language tasks.

In this video, I will talk about the following: What is the mPLUG model architecture? How does mPLUG perform?

For more details, please look at https://arxiv.org/pdf/2205.12005v2.pdf

Li, Chenliang, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye et al. "mplug: Effective and efficient vision-language learning by cross-modal skip-connections." arXiv preprint arXiv:2205.12005 (2022).

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

mPLUG: Vision-Language Learning by Cross-modal Skip-connections

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

mPLUG-2: Multi-modal Foundation Model Across Text, Image and Video

mPLUG-2: Multi-modal Foundation Model Across Text, Image and Video

Маршрутизация с использованием смешанной группы экспертов: визуальное объяснение

Маршрутизация с использованием смешанной группы экспертов: визуальное объяснение

Foundation multimodal vision language models

Foundation multimodal vision language models

#295 Ограниченное внимание к студентам магистратуры

#295 Ограниченное внимание к студентам магистратуры

#300 Самообучение на основе изображений с использованием архитектуры прогнозирования с совместным...

#300 Самообучение на основе изображений с использованием архитектуры прогнозирования с совместным...

#296 Fara-7B: Эффективная агентная модель для использования на компьютерах

#296 Fara-7B: Эффективная агентная модель для использования на компьютерах

DeepSeek-OCR 2: Redefining Document Understanding with Visual Causal Flow

DeepSeek-OCR 2: Redefining Document Understanding with Visual Causal Flow

#297 Титаны: Учимся запоминать во время экзамена

#297 Титаны: Учимся запоминать во время экзамена

WACV 2026 Low-Rank Expert Merging for Multi-Source Domain Adaptation in Person Re-Identification

WACV 2026 Low-Rank Expert Merging for Multi-Source Domain Adaptation in Person Re-Identification

MedCLIP in 3 minutes!

MedCLIP in 3 minutes!

#294 Искусственный коллективный разум: Открытая однородность LLM

#294 Искусственный коллективный разум: Открытая однородность LLM

Перечень регистров процессора x86-64

Перечень регистров процессора x86-64

Enough is enough! We need to talk about how the future can be GOOD!

Enough is enough! We need to talk about how the future can be GOOD!

Telecom Network Management CS04

Telecom Network Management CS04

lalamove/konfig - Gource visualisation

lalamove/konfig - Gource visualisation

#289 HALoGEN: Тест на галлюцинации для получения степени магистра права

#289 HALoGEN: Тест на галлюцинации для получения степени магистра права

Рекурсивные языковые модели: будущее языковых моделей с длинным контекстом

Рекурсивные языковые модели: будущее языковых моделей с длинным контекстом

#292 Agentic Organization

#292 Agentic Organization

Why I’m Deleting My Google Account in 2026 (And What I Use Instead)

Why I’m Deleting My Google Account in 2026 (And What I Use Instead)

PaperBanana: Automating Publication-Ready AI Illustrations and Diagrams

PaperBanana: Automating Publication-Ready AI Illustrations and Diagrams