ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Linformer: Self-Attention with Linear Complexity (Paper Explained)

Автор: Yannic Kilcher

Загружено: 2020-06-11

Просмотров: 35030

Описание: Transformers are notoriously resource-intensive because their self-attention mechanism requires a squared number of memory and computations in the length of the input sequence. The Linformer Model gets around that by using the fact that often, the actual information in the attention matrix is of lower rank and can be approximated.

OUTLINE:
0:00 - Intro & Overview
1:40 - The Complexity of Self-Attention
4:50 - Embedding Dimension & Multiple Heads
8:45 - Formal Attention
10:30 - Empirical Investigation into RoBERTa
20:00 - Theorem: Self-Attention is Low Rank
28:10 - Linear Self-Attention Method
36:15 - Theorem: Linear Self-Attention
44:10 - Language Modeling
46:40 - NLP Benchmarks
47:50 - Compute Time & Memory Gains
48:20 - Broader Impact Statement
49:55 - Conclusion

Paper: https://arxiv.org/abs/2006.04768

Abstract:
Large transformer models have shown extraordinary success in achieving state-of-the-art results in many natural language processing applications. However, training and deploying these models can be prohibitively costly for long sequences, as the standard self-attention mechanism of the Transformer uses O(n2) time and space with respect to sequence length. In this paper, we demonstrate that the self-attention mechanism can be approximated by a low-rank matrix. We further exploit this finding to propose a new self-attention mechanism, which reduces the overall self-attention complexity from O(n2) to O(n) in both time and space. The resulting linear transformer, the \textit{Linformer}, performs on par with standard Transformer models, while being much more memory- and time-efficient.

Authors: Sinong Wang, Belinda Z. Li, Madian Khabsa, Han Fang, Hao Ma

Links:
YouTube:    / yannickilcher  
Twitter:   / ykilcher  
Discord:   / discord  
BitChute: https://www.bitchute.com/channel/yann...
Minds: https://www.minds.com/ykilcher

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Linformer: Self-Attention with Linear Complexity (Paper Explained)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Synthesizer: Rethinking Self-Attention in Transformer Models (Paper Explained)

Synthesizer: Rethinking Self-Attention in Transformer Models (Paper Explained)

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Зачем нужна топология?

Зачем нужна топология?

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

Способ увидеть невидимое: как создают суперлинзы из оптических метаматериалов

Способ увидеть невидимое: как создают суперлинзы из оптических метаматериалов

Почему Питер Шольце — математик, каких бывает раз в поколение?

Почему Питер Шольце — математик, каких бывает раз в поколение?

He Co-Invented the Transformer. Now: Continuous Thought Machines [Llion Jones / Luke Darlow]

He Co-Invented the Transformer. Now: Continuous Thought Machines [Llion Jones / Luke Darlow]

Feedback Transformers: Addressing Some Limitations of Transformers with Feedback Memory (Explained)

Feedback Transformers: Addressing Some Limitations of Transformers with Feedback Memory (Explained)

Почему реактивный двигатель не плавится? [Veritasium]

Почему реактивный двигатель не плавится? [Veritasium]

Самая Сложная Задача В Истории Самой Сложной Олимпиады

Самая Сложная Задача В Истории Самой Сложной Олимпиады

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

Big Bird: Transformers for Longer Sequences (Paper Explained)

Big Bird: Transformers for Longer Sequences (Paper Explained)

Объяснение LoRA (и немного о точности и квантизации)

Объяснение LoRA (и немного о точности и квантизации)

Доведение моделирования до предела возможностей для поиска порядка в хаосе.

Доведение моделирования до предела возможностей для поиска порядка в хаосе.

Kolmogorov Arnold Networks (KAN) Paper Explained - An exciting new paradigm for Deep Learning?

Kolmogorov Arnold Networks (KAN) Paper Explained - An exciting new paradigm for Deep Learning?

Что происходит с таблицей Менделеева на ячейке 137?

Что происходит с таблицей Менделеева на ячейке 137?

Rethinking Attention with Performers (Paper Explained)

Rethinking Attention with Performers (Paper Explained)

∞-former: Infinite Memory Transformer (aka Infty-Former / Infinity-Former, Research Paper Explained)

∞-former: Infinite Memory Transformer (aka Infty-Former / Infinity-Former, Research Paper Explained)

Комплексные числа. Как мнимое стало реальным // Vital Math

Комплексные числа. Как мнимое стало реальным // Vital Math

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]