ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

Автор: Yannic Kilcher

Загружено: 2022-03-23

Просмотров: 35069

Описание: #blip #review #ai

Кросс-модальное предобучение в последнее время стало очень популярным в глубоком обучении, особенно при совместном обучении моделей зрения и языка. Однако существует ряд проблем, таких как низкое качество наборов данных, ограничивающее производительность любой обученной на них модели, а также тот факт, что чисто контрастное предобучение сложно настроить для большинства последующих задач. BLIP объединяет различные задачи и цели в одном запуске предобучения и позволяет получить гораздо более универсальную модель, которую в статье сразу же используют для создания, фильтрации, очистки и, таким образом, самообучения собственного набора данных для ещё большего повышения производительности!

Спонсор: Zeta Alpha
https://zeta-alpha.com
Используйте код YANNIC, чтобы получить скидку 20%!

ПЛАН:
0:00 — Введение
0:50 — Спонсор: Zeta Alpha
3:40 — Обзор статьи
6:40 — Предварительное обучение Vision-Language
11:15 — Вклад в статью
14:30 — Архитектура модели: множество частей для множества задач
19:50 — Как потоки данных в модели
26:50 — Совместное использование параметров между модулями
29:45 — Самонастройка субтитров и фильтрации
41:10 — Тонкая настройка модели для последующих задач

Статья: https://arxiv.org/abs/2201.12086
Код: https://github.com/salesforce/BLIP
Демонстрация: https://huggingface.co/spaces/Salesfo...

Аннотация:
Предварительное обучение Vision-Language (VLP) повысило производительность многих задач Vision-Language. Однако большинство существующих предобученных моделей демонстрируют отличные результаты только в задачах, основанных на понимании, или в задачах, основанных на генерации. Более того, повышение производительности было в значительной степени достигнуто за счет масштабирования набора данных с использованием зашумленных пар «изображение-текст», собранных из интернета, что является неоптимальным источником контроля. В данной статье мы предлагаем BLIP, новую платформу VLP, которая гибко переносится как на задачи понимания, так и на задачи генерации визуальных текстов. BLIP эффективно использует зашумленные веб-данные путем бутстрапа субтитров, где создатель субтитров генерирует синтетические субтитры, а фильтр удаляет зашумленные. Мы достигли передовых результатов в широком спектре задач, основанных на визуальном тексте, таких как поиск изображений и текста (+2,7% в средней отзывчивости при 1), создание субтитров к изображениям (+2,8% в CIDEr) и VQA (+1,6% в оценке VQA). BLIP также демонстрирует сильную способность к обобщению при прямом переносе на задачи, связанные с видеотекстом, с нуля. Код, модели и наборы данных доступны по этому https-адресу.

Авторы: Цзюньнань Ли, Дунсюй Ли, Цаймин Сюн, Стивен Хой

Ссылки:
Автодополнение кода TabNine (реферальная ссылка): http://bit.ly/tabnine-yannick
YouTube:    / yannickilcher  
Twitter:   / ykilcher  
Discord:   / discord  
BitChute: https://www.bitchute.com/channel/yann...
LinkedIn:   / ykilcher  
BiliBili: https://space.bilibili.com/2017636191

Если хотите поддержать меня, лучше всего поделиться контентом :)

Если хотите поддержать меня финансово (это совершенно необязательно и добровольно, но многие просили об этом):
SubscribeStar: https://www.subscribestar.com/yannick...
Patreon:   / yannickilcher  
Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Лайткойн (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Монеро (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
BLIP: Начальная загрузка предварительной подготовки языка и изображения для унифицированного пони...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

OpenAI CLIP: Соединение текста и изображений (объяснение в статье)

OpenAI CLIP: Соединение текста и изображений (объяснение в статье)

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (Предупреждение: критика)

[Анализ статьи] О теоретических ограничениях поиска на основе встраивания (Предупреждение: критика)

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

But how do AI images and videos actually work? | Guest video by Welch Labs

But how do AI images and videos actually work? | Guest video by Welch Labs

Даулет Жангузин, NVIDIA, Groq, Cohere, Lyft, Google - Как пишут код лучшие кодеры Кремниевой Долины?

Даулет Жангузин, NVIDIA, Groq, Cohere, Lyft, Google - Как пишут код лучшие кодеры Кремниевой Долины?

Лучшая Музыка 2026🏖️Зарубежные песни Хиты🏖️Популярные Песни Слушать Бесплатно 2026 #20

Лучшая Музыка 2026🏖️Зарубежные песни Хиты🏖️Популярные Песни Слушать Бесплатно 2026 #20

One Model For All The Tasks - BLIP (Author Interview)

One Model For All The Tasks - BLIP (Author Interview)

JEPA - A Path Towards Autonomous Machine Intelligence (Paper Explained)

JEPA - A Path Towards Autonomous Machine Intelligence (Paper Explained)

Даша Клишина — спорт в США и России. Разница менталитетов и условий

Даша Клишина — спорт в США и России. Разница менталитетов и условий

Computer Vision Study Group Session on BLIP-2

Computer Vision Study Group Session on BLIP-2

[Classic] Deep Residual Learning for Image Recognition (Paper Explained)

[Classic] Deep Residual Learning for Image Recognition (Paper Explained)

Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...

Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...

С нуля до миллионов на AI‑стартапах. Что отличает прототип от реального бизнеса  | Максим Панфилов

С нуля до миллионов на AI‑стартапах. Что отличает прототип от реального бизнеса | Максим Панфилов

Экспресс-курс RAG для начинающих

Экспресс-курс RAG для начинающих

DINO: Emerging Properties in Self-Supervised Vision Transformers (Facebook AI Research Explained)

DINO: Emerging Properties in Self-Supervised Vision Transformers (Facebook AI Research Explained)

BLIP2: BLIP с кодировщиками замороженных изображений и LLM

BLIP2: BLIP с кодировщиками замороженных изображений и LLM

21 неожиданный способ использовать Gemini в повседневной жизни

21 неожиданный способ использовать Gemini в повседневной жизни

V-JEPA: Revisiting Feature Prediction for Learning Visual Representations from Video (Explained)

V-JEPA: Revisiting Feature Prediction for Learning Visual Representations from Video (Explained)

Посадки генералов в Китае — это часть подготовки к захвату Тайваня?

Посадки генералов в Китае — это часть подготовки к захвату Тайваня?

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]