BLIP2: BLIP с кодировщиками замороженных изображений и LLM

Автор: Data Science Gems

Загружено: 2023-11-18

Просмотров: 4211

Описание: Стоимость предварительной подготовки зрительно-языковых моделей становится всё более непомерной из-за сквозного обучения крупномасштабных моделей. BLIP-2 — это универсальная и эффективная стратегия предварительной подготовки, которая использует предварительное обучение зрительно-языковых моделей на основе готовых замороженных предобученных кодеров изображений и замороженных больших языковых моделей. BLIP-2 устраняет разрыв в модальности с помощью легкого Querying Transformer, который предварительно обучается в два этапа. На первом этапе запускается обучение зрительно-языковым моделям на основе замороженного кодера изображений. На втором этапе запускается генеративное обучение зрительно-языковых моделей на основе замороженной языковой модели. BLIP-2 достигает высочайшего уровня производительности при решении различных задач зрительно-языковых моделей, несмотря на значительно меньшее количество обучаемых параметров по сравнению с существующими методами. Например, BLIP-2 превосходит Flamingo80B на 8,7% на нулевом VQAv2 с в 54 раза меньшим количеством обучаемых параметров. BLIP-2 также обладает новыми возможностями генерации изображений в текст с нулевой точностью, которая может следовать инструкциям на естественном языке.

В этом видео я расскажу о следующем: Что может модель BLIP-2? Как проходит предобучение модели BLIP-2? Какова эффективность модели BLIP-2?

Подробнее см. на сайтах https://arxiv.org/pdf/2301.12597.pdf и https://github.com/salesforce/LAVIS/t...

Ли, Цзюньнань, Дунсюй Ли, Сильвио Саварезе и Стивен Хой. «Blip-2: Бутстрэппинг предобучения «язык-изображение» с помощью кодировщиков замороженных изображений и больших языковых моделей». Препринт arXiv, arXiv:2301.12597 (2023).

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

BLIP2: BLIP с кодировщиками замороженных изображений и LLM

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

InstructBLIP: Vision-Language Models with Instruction Tuning

InstructBLIP: Vision-Language Models with Instruction Tuning

BLIP: LLM для задач на визуальный язык

BLIP: LLM для задач на визуальный язык

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

Dissecting Gemma 3 Image Tokenization: The Mystery of 193

Dissecting Gemma 3 Image Tokenization: The Mystery of 193

Overview of Large Language Models

Overview of Large Language Models

OpenAI CLIP: Соединение текста и изображений (объяснение в статье)

OpenAI CLIP: Соединение текста и изображений (объяснение в статье)

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Computer Vision Study Group Session on BLIP-2

Computer Vision Study Group Session on BLIP-2

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Может ли у ИИ появиться сознание? — Семихатов, Анохин

Создание мультимодального ИИ RAG с помощью LlamaIndex, NVIDIA NIM и Milvus | Разработка приложени...

Создание мультимодального ИИ RAG с помощью LlamaIndex, NVIDIA NIM и Milvus | Разработка приложени...

What Are Vision Language Models? How AI Sees & Understands Images

What Are Vision Language Models? How AI Sees & Understands Images

Нейронка, которая УНИЧТОЖИЛА ChatGPT 5! / Обзор бесплатной нейросети и ее возможности

Нейронка, которая УНИЧТОЖИЛА ChatGPT 5! / Обзор бесплатной нейросети и ее возможности

GPT Image 1.5 vs Nano Banana Pro — кто реально работает для бизнеса

GPT Image 1.5 vs Nano Banana Pro — кто реально работает для бизнеса

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как Китай ЗАХВАТИЛ Рынок Золота И УНИЧТОЖИЛ Доллар

Как Китай ЗАХВАТИЛ Рынок Золота И УНИЧТОЖИЛ Доллар

Beyond CLIP: BLIP, BLIP-2 and CoCA

Beyond CLIP: BLIP, BLIP-2 and CoCA

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Использование всех методов в RAG, по одному запросу за раз — Дэвид Карам, Pi Labs (бывший Google ...

Использование всех методов в RAG, по одному запросу за раз — Дэвид Карам, Pi Labs (бывший Google ...

Lecture 10-BLIP:Bootstrapping Language-Image Pretraining for Unified VL Understanding and Generation

Lecture 10-BLIP:Bootstrapping Language-Image Pretraining for Unified VL Understanding and Generation