Attention Is All You Need - Paper Explained

Автор: Halfling Wizard

Загружено: 2021-05-23

Просмотров: 129769

Описание: In this video, I'll try to present a comprehensive study on Ashish Vaswani and his coauthors' renowned paper, “attention is all you need”
This paper is a major turning point in deep learning research. The transformer architecture, which was introduced in this paper, is now used in a variety of state-of-the-art models in natural language processing and beyond.

📑 Chapters:
0:00 Abstract
0:39 Introduction
2:44 Model Details
3:20 Encoder
3:30 Input Embedding
5:22 Positional Encoding
11:05 Self-Attention
15:38 Multi-Head Attention
17:31 Add and Layer Normalization
20:38 Feed Forward NN
23:40 Decoder
23:44 Decoder in Training and Testing Phase
27:31 Masked Multi-Head Attention
30:03 Encoder-decoder Self-Attention
33:19 Results
35:37 Conclusion

📝 Link to the paper:
https://arxiv.org/abs/1706.03762

👥 Authors:
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin
🔗 Helpful Links:
"Vectoring Words (Word Embeddings)" by Computerphile:
   • Vectoring Words (Word Embeddings) - Comput...
"Transformer Architecture: The Positional Encoding" by Amirhossein Kazemnejad:
https://kazemnejad.com/blog/transform...
"The Illustrated Transformer" by Jay Alammar:
https://jalammar.github.io/illustrate...
Lennart Svensson's Video on Masked self-attention:
   • Transformers - Part 7 - Decoder (2): maske...
Lennart Svensson's Video on Encoder-decoder self-attention:
   • Transformer - Part 8 - Decoder (3): Encode...
🙏 I'd like to express my gratitude to Dr. Nasersharif, my supervisor, for suggesting this paper to me.

🙋‍♂️ Find me on: halflingwizard.me

🎁 Support the Channel:
If you’d like to support my work, you can check out my wishlist here: https://www.amazon.com/registries/gl/...
Your support helps me keep creating content like this. Thank you for being part of this journey!

#Transformer #Attention #Deep_Learning

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Attention Is All You Need - Paper Explained

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Внимание — это всё, что вам нужно (Transformer) — объяснение модели (включая математику), вывод и...

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Transfer learning and Transformer models (ML Tech Talks)

Transfer learning and Transformer models (ML Tech Talks)

Transformers Step-by-Step Explained (Attention Is All You Need)

Transformers Step-by-Step Explained (Attention Is All You Need)

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Что такое модели-трансформеры и как они работают?

Что такое модели-трансформеры и как они работают?

Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy

Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy

CS480/680 Lecture 19: Attention and Transformer Networks

CS480/680 Lecture 19: Attention and Transformer Networks

Самый важный алгоритм в машинном обучении

Самый важный алгоритм в машинном обучении

OpenAI is Suddenly in Trouble

OpenAI is Suddenly in Trouble

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Зачем нужна топология?

Зачем нужна топология?

Attention is all you need; Attentional Neural Network Models | Łukasz Kaiser | Masterclass

Attention is all you need; Attentional Neural Network Models | Łukasz Kaiser | Masterclass

Нейронные сети Transformer, созданные с нуля

Нейронные сети Transformer, созданные с нуля

Главное ИИ-интервью 2026 года в Давосе: Anthropic и DeepMind на одной сцене

Главное ИИ-интервью 2026 года в Давосе: Anthropic и DeepMind на одной сцене

How a Transformer works at inference vs training time

How a Transformer works at inference vs training time

Механизм внимания в больших языковых моделях

Механизм внимания в больших языковых моделях

Дефолт Автономии Долиной

Дефолт Автономии Долиной

ДИНО: Самостоятельные преобразователи зрения

ДИНО: Самостоятельные преобразователи зрения

Sam Altman: AGI is

Sam Altman: AGI is "Pretty Close" | Highlights Video