Вэй Хуан: Обученная Mamba имитирует онлайн-градиентный спуск в контекстной линейной регрессии.

Автор: Machine Learning and Dynamical Systems Seminar

Загружено: 2026-02-25

Просмотров: 41

Описание: Название: Обученная Mamba имитирует онлайн-градиентный спуск в контекстной линейной регрессии
Докладчик: Вэй Хуан (RIKEN AIP)
Аннотация:
Модели пространства состояний (SSM), в частности Mamba, выступают в качестве эффективной альтернативы трансформерам с линейной сложностью для моделирования длинных последовательностей. Недавние эмпирические работы демонстрируют возможности Mamba в контекстном обучении (ICL), сопоставимые с трансформерами, что является критически важной способностью для больших базовых моделей. Однако теоретическое понимание ICL Mamba остается ограниченным, что препятствует более глубокому изучению его основных механизмов. Даже фундаментальные задачи, такие как ICL линейной регрессии, широко изучаемые как стандартный теоретический эталон для трансформеров, не были тщательно проанализированы в контексте Mamba. Чтобы восполнить этот пробел, мы изучаем динамику обучения Mamba на задаче ICL линейной регрессии. Разработав новые методы решения задач невыпуклой оптимизации с помощью градиентного спуска, связанные со структурой Mamba, мы установили экспоненциальную скорость сходимости к решению ICL и вывели оценку функции потерь, сопоставимую с оценкой Transformer. Важно отметить, что наши результаты показывают, что Mamba может использовать вариант онлайн-градиентного спуска для обучения скрытой функции в контексте. Этот механизм отличается от механизма Transformer, который обычно понимается как достигающий ICL посредством эмуляции градиентного спуска. Теоретические результаты подтверждены экспериментальным моделированием.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Вэй Хуан: Обученная Mamba имитирует онлайн-градиентный спуск в контекстной линейной регрессии.

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Masanobu Horie: Structure-Preserving Graph Neural Networks: Enforcing Symmetry and Conservation Laws

Masanobu Horie: Structure-Preserving Graph Neural Networks: Enforcing Symmetry and Conservation Laws

Andrew Wilson: Epiplexity: A Measure of Structural Information Content for OOD Generalization

Andrew Wilson: Epiplexity: A Measure of Structural Information Content for OOD Generalization

Boumediene Hamzi: Toward an Algorithmic Theory of Machine Learning via Kernel Methods

Boumediene Hamzi: Toward an Algorithmic Theory of Machine Learning via Kernel Methods

MATSUO Yutaka | Keynote | Tokyo Forum 2024 | UTokyo

MATSUO Yutaka | Keynote | Tokyo Forum 2024 | UTokyo

Виктор Черчилль: Эффективное моделирование дифференциальных уравнений в частных производных на ос...

Виктор Черчилль: Эффективное моделирование дифференциальных уравнений в частных производных на ос...

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Борис Гребенщиков и Максим Курников | Интервью BILD

Борис Гребенщиков и Максим Курников | Интервью BILD

Разработка, кибербезопасность и парадокс интеллекта — Ивар ft. Григорий Сапунов | Мыслить как ученый

Разработка, кибербезопасность и парадокс интеллекта — Ивар ft. Григорий Сапунов | Мыслить как ученый

Приближенный Кадырова, бойфренд Собчак, фигурант файлов Эпштейна

Приближенный Кадырова, бойфренд Собчак, фигурант файлов Эпштейна

Как Иран стал главным врагом США? / Уроки истории / МИНАЕВ

Как Иран стал главным врагом США? / Уроки истории / МИНАЕВ

МОЧЕВОЙ ПУЗЫРЬ УСПОКОИТСЯ! Вы перестанете бегать в туалет по ночам, если сделаете это | ЛАЙФХАК

МОЧЕВОЙ ПУЗЫРЬ УСПОКОИТСЯ! Вы перестанете бегать в туалет по ночам, если сделаете это | ЛАЙФХАК

The Origins and Nature of Life | Interview with Eric Smith | Biomusings

The Origins and Nature of Life | Interview with Eric Smith | Biomusings

Циркон. Что не сходится в версиях о перехватах над Украиной? История гиперзвуковой ракеты.

Циркон. Что не сходится в версиях о перехватах над Украиной? История гиперзвуковой ракеты.

Как заговорить на любом языке? Главная ошибка 99% людей в изучении. Полиглот Дмитрий Петров.

Как заговорить на любом языке? Главная ошибка 99% людей в изучении. Полиглот Дмитрий Петров.

Наталья Зубаревич. Без посредников / 06.03.26

Наталья Зубаревич. Без посредников / 06.03.26

Почему МАЛЕНЬКИЙ атом создает такой ОГРОМНЫЙ взрыв?

Почему МАЛЕНЬКИЙ атом создает такой ОГРОМНЫЙ взрыв?

Yuanchao Xu:Generative Modeling through Koopman Spectral Analysis: An Operator-Theoretic Perspective

Yuanchao Xu:Generative Modeling through Koopman Spectral Analysis: An Operator-Theoretic Perspective

Florian Rossmannek: Echo states and fading memory in state-space systems

Florian Rossmannek: Echo states and fading memory in state-space systems

Смена режима путем бомбардировок. Статус S09E26

Смена режима путем бомбардировок. Статус S09E26