Изображение стоит 16x16 слов: Трансформеры для масштабного распознавания изображений (с пояснения...
Автор: Yannic Kilcher
Загружено: 2020-10-04
Просмотров: 381041
Описание:
#ИИ #исследования #трансформеры
Трансформеры портят свёртки. В этой статье, находящейся на рассмотрении в ICLR, показано, что при наличии достаточного количества данных стандартный трансформер может превзойти свёрточные нейронные сети в задачах распознавания изображений, в которых классически преуспевают сверточные нейронные сети. В этом видео я объясняю архитектуру Vision Transformer (ViT), объясняю, почему он работает лучше, и критикую, почему двухстрочная экспертная оценка не работает.
ПЛАН:
0:00 - Введение
0:30 - Двойное слепое рецензирование не работает
5:20 - Обзор
6:55 - Трансформеры для изображений
10:40 - Архитектура Vision Transformer
16:30 - Экспериментальные результаты
18:45 - Чему учится модель?
21:00 - Почему трансформаторы всё портят
27:45 - Индуктивные смещения в трансформаторах
29:05 - Заключение и комментарии
Статья (на рассмотрении): https://openreview.net/forum?id=YicbF...
Версия Arxiv: https://arxiv.org/abs/2010.11929
Статья BiT: https://arxiv.org/pdf/1912.11370.pdf
Статья ImageNet-ReaL: https://arxiv.org/abs/2006.07159
Моё видео о BiT (Big Transfer): • Big Transfer (BiT): General Visual Represe...
Моё видео о трансформаторах: • Attention Is All You Need
Моё видео о BERT: • BERT: Pre-training of Deep Bidirectional T...
Моё видео о ResNets: • [Classic] Deep Residual Learning for Image...
Аннотация: Хотя архитектура Transformer стала фактическим стандартом для задач обработки естественного языка, её применение в компьютерном зрении остаётся ограниченным. В зрении внимание либо используется совместно со свёрточными сетями, либо используется для замены отдельных компонентов свёрточных сетей с сохранением их общей структуры. Мы показываем, что такая зависимость от сверточных нейронных сетей не является обязательной, и чистый Transformer может очень хорошо справляться с задачами классификации изображений при применении непосредственно к последовательностям фрагментов изображений. После предобучения на больших объёмах данных и переноса на несколько бенчмарков распознавания (ImageNet, CIFAR-100, VTAB и т. д.) Vision Transformer демонстрирует превосходные результаты по сравнению с современными свёрточными сетями, при этом требуя существенно меньше вычислительных ресурсов для обучения.
Авторы: Аноним / На рассмотрении
Исправления:
Патчи не сведены, а векторизованы
Ссылки:
YouTube: / yannickilcher
Twitter: / ykilcher
Discord: / discord
BitChute: https://www.bitchute.com/channel/yann...
Minds: https://www.minds.com/ykilcher
Parler: https://parler.com/profile/YannicKilcher
LinkedIn: / yannic-kilcher-488534136
Если хотите поддержать меня, лучше всего поделиться контентом :)
Если хотите поддержать меня финансово (это совершенно необязательно и добровольно, но многие просили об этом):
SubscribeStar: https://www.subscribestar.com/yannick...
Patreon: / yannickilcher
Биткойн (BTC): bc1q49lsw3q325tr58ygf8sudx2dqfguclvngvy2cq
Эфириум (ETH): 0x7ad3513E3B8f66799f507Aa7874b1B0eBC7F85e2
Лайткойн (LTC): LQW2TRyKYetVC8WjFkhpPhtpbDM4Vw7r9m
Монеро (XMR): 4ACL8AGrEo5hAir8A9CeVrW8pEauWvnp1WnSDZxW7tziCDLhZAGsgzhRQABDnFy8yuM9fWJDviJPHKRjV4FWt19CJZN9D4n
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: