Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...

Автор: Yannic Kilcher

Загружено: 2020-10-04

Просмотров: 381041

Описание: #ИИ #исследования #трансформеры

Трансформеры портят свёртки. В этой статье, находящейся на рассмотрении в ICLR, показано, что при наличии достаточного количества данных стандартный трансформер может превзойти свёрточные нейронные сети в задачах распознавания изображений, в которых классически преуспевают сверточные нейронные сети. В этом видео я объясняю архитектуру Vision Transformer (ViT), объясняю, почему он работает лучше, и критикую, почему двухстрочная экспертная оценка не работает.

ПЛАН:
0:00 - Введение
0:30 - Двойное слепое рецензирование не работает
5:20 - Обзор
6:55 - Трансформеры для изображений
10:40 - Архитектура Vision Transformer
16:30 - Экспериментальные результаты
18:45 - Чему учится модель?
21:00 - Почему трансформаторы всё портят
27:45 - Индуктивные смещения в трансформаторах
29:05 - Заключение и комментарии

Статья (на рассмотрении): https://openreview.net/forum?id=YicbF...
Версия Arxiv: https://arxiv.org/abs/2010.11929

Статья BiT: https://arxiv.org/pdf/1912.11370.pdf
Статья ImageNet-ReaL: https://arxiv.org/abs/2006.07159

Моё видео о BiT (Big Transfer):    • Big Transfer (BiT): General Visual Represe...
Моё видео о трансформаторах:    • Attention Is All You Need
Моё видео о BERT:    • BERT: Pre-training of Deep Bidirectional T...
Моё видео о ResNets:    • [Classic] Deep Residual Learning for Image...

Аннотация: Хотя архитектура Transformer стала фактическим стандартом для задач обработки естественного языка, её применение в компьютерном зрении остаётся ограниченным. В зрении внимание либо используется совместно со свёрточными сетями, либо используется для замены отдельных компонентов свёрточных сетей с сохранением их общей структуры. Мы показываем, что такая зависимость от сверточных нейронных сетей не является обязательной, и чистый Transformer может очень хорошо справляться с задачами классификации изображений при применении непосредственно к последовательностям фрагментов изображений. После предобучения на больших объёмах данных и переноса на несколько бенчмарков распознавания (ImageNet, CIFAR-100, VTAB и т. д.) Vision Transformer демонстрирует превосходные результаты по сравнению с современными свёрточными сетями, при этом требуя существенно меньше вычислительных ресурсов для обучения.

Авторы: Аноним / На рассмотрении

Исправления:
Патчи не сведены, а векторизованы

Ссылки:
YouTube:    / yannickilcher
Twitter:   / ykilcher
Discord:   / discord
BitChute: https://www.bitchute.com/channel/yann...
Minds: https://www.minds.com/ykilcher
Parler: https://parler.com/profile/YannicKilcher
LinkedIn:   / yannic-kilcher-488534136

Если хотите поддержать меня, лучше всего поделиться контентом :)

Если хотите поддержать меня финансово (это совершенно необязательно и добровольно, но многие просили об этом):
SubscribeStar: https://www.subscribestar.com/yannick...
Patreon:   / yannickilcher
Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Лайткойн (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Монеро (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео