xLSTM против трансформеров: будущее робототехники и машинного зрения в реальном времени (объяснен...
Автор: Foundation Models For Robotics
Загружено: 2026-05-19
Просмотров: 76
Описание:
#xLSTM #Трансформеры #Робототехника #VLA #VLM #ИскусственныйИнтеллект #МашинноеОбучение #ГлубокоеОбучение #КомпьютерноеЗрение #ВоплощенныйИИ #LRAM #VisionLSTM
Ландшафт ИИ меняется. В то время как *Трансформеры* доминировали в течение десятилетия, новый претендент — *xLSTM (Extended Long Short-Term Memory)* — доказывает свою превосходную роль в качестве основы для следующего поколения *Vision-Language-Action (VLA)* и **Vision-Language Models (VLM)**.
В этом видео мы разберем, почему xLSTM коренным образом меняет то, как роботы «думают» и как компьютеры «видят».
🚀 *Почему xLSTM выигрывает войну за эффективность*
Самым большим узким местом для Трансформеров является их *квадратичная сложность* ($O(N^2)$); По мере увеличения длины последовательности требования к вычислительным ресурсам и памяти резко возрастают. *xLSTM масштабируется линейно* ($O(N)$), что позволяет обрабатывать огромные контекстные окна с **постоянным объемом используемой памяти**. Это делает его идеальным кандидатом для периферийных устройств и реальных промышленных приложений.
🤖 *VLA: Робототехника в реальном времени и отслеживание состояний*
Для обеспечения стабильности робота (например, дрона или промышленной руки) необходима скорость вывода *от 100 Гц до 1000 Гц* (менее 10 мс). Модели на основе трансформеров часто испытывают нехватку памяти (OOM) или замедляются по мере заполнения контекстного окна.
*Преимущество LRAM:* Большие рекуррентные модели действий (LRAM) с xLSTM в основе обеспечивают **быстрый вывод и линейную временную сложность**, превосходя трансформеры как по скорости, так и по производительности в сотнях задач робототехники.
*Чудо смешивания памяти в sLSTM:* Одним из секретных оружий xLSTM является блок **sLSTM**. Он позволяет отслеживать состояние, с чем испытывают трудности трансформеры и другие модели, такие как Mamba. Это позволяет роботу «запоминать», выполнил ли он уже логический шаг, например, добавил соль в блюдо, даже при частичной наблюдаемости.
👁️ *VLM: Революция Vision-LSTM (ViL)*
Когда речь идет о моделях визуально-языковых моделей, *Vision-LSTM (ViL)* бросает вызов Vision Transformer (ViT).
*Непричинная обработка:* ViL использует чередующиеся блоки mLSTM для обработки фрагментов изображений сверху вниз, а затем в обратном порядке, эффективно захватывая пространственные данные без затрат $O(N^2)$.
*Возможности высокого разрешения:* Благодаря своей вычислительной эффективности, ViL идеально подходит для задач, требующих **изображений высокого разрешения**, таких как медицинская визуализация, семантическая сегментация и сложные физические симуляции — области, где использование трансформеров часто слишком дорого.
⚖️ *Законы масштабирования: Парето-доминирование*
Недавние исследования *законов масштабирования* показывают, что xLSTM *парето-доминирует* над плотными трансформерами. Это означает, что при любом фиксированном вычислительном бюджете модель на основе xLSTM обеспечит *меньшие потери при валидации* и лучшую производительность, чем трансформер.
*Досмотрите до конца, чтобы увидеть, как эти архитектуры сравниваются по времени выполнения и использованию памяти!*
---
🔔 **Подпишитесь**, чтобы получать больше подробных обзоров последних исследований в области ИИ!
👍 *Поставьте лайк* этому видео, если оно оказалось полезным.
💬 *Оставьте комментарий ниже:* Как вы думаете, заменит ли xLSTM в конечном итоге трансформеры в моделях линейной сложности?
--
*Теги:*
xLSTM, трансформер, модели VLA, VLM, робототехника с ИИ, воплощенный ИИ, Vision-LSTM, ViL, LRAM, модель больших рекуррентных действий, исследования в области машинного обучения, компьютерное зрение, вывод в реальном времени, sLSTM, mLSTM, Сепп Хохрайтер, законы масштабирования ИИ, глубокое обучение, обучение с подкреплением, ИИ линейной сложности
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: