ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

For the Next Generation of Attention: I Propose LLD for Latent Dynamic Forget

Автор: Xiaol.x

Загружено: 2026-01-28

Просмотров: 106

Описание: For the Next Generation of Attention: I Propose LLD for Latent Dynamic Forget

This video is a full visual and mathematical journey through the evolution of linear attention update rules, ending with a new proposal: LLD – Latent Low‑Rank Delta, a mechanism for latent dynamic forget designed for the next generation of attention models.

We start from the basics: what the state matrix S_t actually represents, and how classic linear attention simply accumulates information over time. Then we walk through the main families of update rules:
Pure Accumulation (LA): infinite memory but unstable.
Decay Mechanisms (RetNet, Mamba2, GLA, HGRN2): passive forgetting through scalar or channel‑wise decay.
Geometric Erasure / Coupled Forgetting (Longhorn, GDN, KDA): “erase what you write”, but locked to the input key.
Decoupled Erasure (Comba, RWKV‑7): learned erase vectors, powerful accumulation but still struggling with clean, targeted reset.

In the second half, we introduce LLD as a new state update rule:
S_new = (I - λ_t * u_t * v_t^T) * S_old
where the low‑rank pair (u_t, v_t) is produced by a latent bottleneck, not tied directly to the input key. Through an animated “signal vs noise” scenario, you’ll see how LLD can:
Keep early signal strong in certain channels.
Perform cross‑channel, targeted erasure of later noise.
Combine the benefits of accumulation (learning) and precise reset (forgetting) in a single linear mechanism.

We conclude with a forensic heatmap analysis comparing Softmax, RWKV‑7, KDA, and LLD under the same stress test. By zooming into specific regions of the heatmap, you’ll see:
Softmax as the ideal reference (perfect diagonal, clean noise suppression).
RWKV‑7 as a strong accumulator that also hoards noise.
KDA leaving “ghost memories” and partially washing out signal.
LLD preserving rich signal while cleanly erasing noise across channels.

This video is for you if you care about how modern attention and state‑space models really manage memory, and you want a concrete, visual argument for why latent dynamic forget via LLD is a promising direction for future architectures.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
For the Next Generation of Attention: I Propose LLD for Latent Dynamic Forget

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Lingbot-world | Развитие моделей мира с открытым исходным кодом

Lingbot-world | Развитие моделей мира с открытым исходным кодом

Лучшая стратегия «Угадай, кто?» (и как я её доказал)

Лучшая стратегия «Угадай, кто?» (и как я её доказал)

Преломление и «замедление» света | По мотивам лекции Ричарда Фейнмана

Преломление и «замедление» света | По мотивам лекции Ричарда Фейнмана

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

The Hairy Ball Theorem

The Hairy Ball Theorem

Понимание GD&T

Понимание GD&T

Гипотеза Какея (не смеяться, это серьёзная математика) | LAPLAS

Гипотеза Какея (не смеяться, это серьёзная математика) | LAPLAS

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Как происходит модернизация остаточных соединений [mHC]

Как происходит модернизация остаточных соединений [mHC]

Вселенная состоит из информации? Объясняю на пальцах

Вселенная состоит из информации? Объясняю на пальцах

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Единственный принцип, объясняющий всю физику

Единственный принцип, объясняющий всю физику

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Введение в мир Геометрической Волновой Инженерии.  1-я часть.

Введение в мир Геометрической Волновой Инженерии. 1-я часть.

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

🧪🧪🧪🧪Как увидеть гиперпространство (4-е измерение)

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Визуализация скрытого пространства: PCA, t-SNE, UMAP | Глубокое обучение с анимацией

Суть линейной алгебры: #14. Собственные векторы и собственные значения [3Blue1Brown]

Суть линейной алгебры: #14. Собственные векторы и собственные значения [3Blue1Brown]

Почему Питер Шольце — математик, каких бывает раз в поколение?

Почему Питер Шольце — математик, каких бывает раз в поколение?

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]