«Мамба» — замена «Трансформерам»?

Автор: Samuel Albanie

Загружено: 2023-12-08

Просмотров: 259963

Описание: «Мамба» — это новая архитектура нейронной сети, предложенная Альбертом Гу и Три Дао.

Тайм-коды:
00:00 — «Мамба» — замена «Трансформерам»?
00:19 — Тест на дальние расстояния в Arena
01:20 — Блоки памяти Лежандра
02:07 — HiPPO: Рекуррентная память с оптимальными полиномиальными проекциями
02:38 — Сочетание рекуррентных, сверточных и непрерывных во времени моделей с линейными слоями пространства состояний
03:28 — Эффективное моделирование длинных последовательностей с использованием структурированных пространств состояний (S4)
05:46 — Аннотированный S4
06:13 — Mamba: Моделирование линейных во времени последовательностей с использованием селективных пространств состояний
07:42 — Мотивация: Зачем нужен отбор
09:59 — S5
12:00 — Эмпирическая оценка

Статья доступна по ссылке: https://arxiv.org/abs/2312.00752

Темы: #mamba #foundation

Ссылки на статьи, упомянутые в видео, можно найти здесь на
https://samuelalbanie.com/digests/202...

Похожие материалы:
Twitter: / samuelalbanie
личная веб-страница: https://samuelalbanie.com/
YouTube: / @samuelalbanie1

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

«Мамба» — замена «Трансформерам»?

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Gemini 1.5 Pro имеет огромное контекстное окно

Gemini 1.5 Pro имеет огромное контекстное окно

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Как ИИ открыл более быстрый алгоритм умножения матриц

Как ИИ открыл более быстрый алгоритм умножения матриц

Этот ракетный двигатель не был разработан людьми.

Этот ракетный двигатель не был разработан людьми.

Архитектуры Mamba, Mamba-2 и посттрансформеров для генеративного ИИ с Альбертом Гу - 693

Архитектуры Mamba, Mamba-2 и посттрансформеров для генеративного ИИ с Альбертом Гу - 693

Обвал цен на 90%, изменивший всё.

Обвал цен на 90%, изменивший всё.

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Градиентный спуск, как обучаются нейросети | Глава 2, Глубинное обучение

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как внимание стало настолько эффективным [GQA/MLA/DSA]

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как происходит модернизация остаточных соединений [mHC]

Как происходит модернизация остаточных соединений [mHC]

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

MAMBA and State Space Models explained | SSM explained

MAMBA and State Space Models explained | SSM explained

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Почему нельзя делить на ноль? – Алексей Савватеев | Лекции по математике | Научпоп

Почему нельзя делить на ноль? – Алексей Савватеев | Лекции по математике | Научпоп

How DeepSeek Rewrote the Transformer [MLA]

How DeepSeek Rewrote the Transformer [MLA]

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

RWKV: Reinventing RNNs for the Transformer Era (Paper Explained)

Vision Transformer Basics

Vision Transformer Basics

[1hr Talk] Intro to Large Language Models

[1hr Talk] Intro to Large Language Models