Вэй Хуан: Обученная Mamba имитирует онлайн-градиентный спуск в контекстной линейной регрессии.
Автор: Machine Learning and Dynamical Systems Seminar
Загружено: 2026-02-25
Просмотров: 41
Описание:
Название: Обученная Mamba имитирует онлайн-градиентный спуск в контекстной линейной регрессии
Докладчик: Вэй Хуан (RIKEN AIP)
Аннотация:
Модели пространства состояний (SSM), в частности Mamba, выступают в качестве эффективной альтернативы трансформерам с линейной сложностью для моделирования длинных последовательностей. Недавние эмпирические работы демонстрируют возможности Mamba в контекстном обучении (ICL), сопоставимые с трансформерами, что является критически важной способностью для больших базовых моделей. Однако теоретическое понимание ICL Mamba остается ограниченным, что препятствует более глубокому изучению его основных механизмов. Даже фундаментальные задачи, такие как ICL линейной регрессии, широко изучаемые как стандартный теоретический эталон для трансформеров, не были тщательно проанализированы в контексте Mamba. Чтобы восполнить этот пробел, мы изучаем динамику обучения Mamba на задаче ICL линейной регрессии. Разработав новые методы решения задач невыпуклой оптимизации с помощью градиентного спуска, связанные со структурой Mamba, мы установили экспоненциальную скорость сходимости к решению ICL и вывели оценку функции потерь, сопоставимую с оценкой Transformer. Важно отметить, что наши результаты показывают, что Mamba может использовать вариант онлайн-градиентного спуска для обучения скрытой функции в контексте. Этот механизм отличается от механизма Transformer, который обычно понимается как достигающий ICL посредством эмуляции градиентного спуска. Теоретические результаты подтверждены экспериментальным моделированием.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: