Введение в Vision Transformer. Лекция 11. Глубокое обучение
Автор: Евгений Разинков
Загружено: 2022-05-18
Просмотров: 4949
Описание:
В рамках лекции мы рассматриваем важную архитектуру – Vision Transformer (ViT).
ViT показал выдающиеся результаты на многих датасетах, при этом сама архитектура почти без изменений заимствована из NLP. Трансформер не использует ни свертки, ни рекуррентность, а полностью полагается на механизм внимания,
Это первая из двух лекций на эту тему. В рамках лекции рассмотрены основные строительные блоки ViT:
Layer Normalization;
Scaled Dot-Product Attention (SDPA);
Multi-Head Attention (MHA);
Feed-Forward Layer.
На следующей лекции мы их этих блоков соберём архитектуру ViT :)
Евгений Разинков -- к.ф.-м.н., директор по науке компании Pr3vision Technologies, основатель парфюмерного AI-проекта http://scented.ai, руководитель отдела машинного обучения и компьютерного зрения Группы компаний FIX.
Tailor-made AI solutions for unique challenges:
https://pr3vision.com
Информация о лекциях:
https://razinkov.ai
Телеграм-канал с анонсами лекций и материалами по машинному обучению:
https://t.me/razinkov_ai
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: