xLSTM против трансформеров: будущее робототехники и машинного зрения в реальном времени (объяснен...

Автор: Foundation Models For Robotics

Загружено: 2026-05-19

Просмотров: 76

Описание: #xLSTM #Трансформеры #Робототехника #VLA #VLM #ИскусственныйИнтеллект #МашинноеОбучение #ГлубокоеОбучение #КомпьютерноеЗрение #ВоплощенныйИИ #LRAM #VisionLSTM

Ландшафт ИИ меняется. В то время как *Трансформеры* доминировали в течение десятилетия, новый претендент — *xLSTM (Extended Long Short-Term Memory)* — доказывает свою превосходную роль в качестве основы для следующего поколения *Vision-Language-Action (VLA)* и **Vision-Language Models (VLM)**.

В этом видео мы разберем, почему xLSTM коренным образом меняет то, как роботы «думают» и как компьютеры «видят».

🚀 *Почему xLSTM выигрывает войну за эффективность*
Самым большим узким местом для Трансформеров является их *квадратичная сложность* ($O(N^2)$); По мере увеличения длины последовательности требования к вычислительным ресурсам и памяти резко возрастают. *xLSTM масштабируется линейно* ($O(N)$), что позволяет обрабатывать огромные контекстные окна с **постоянным объемом используемой памяти**. Это делает его идеальным кандидатом для периферийных устройств и реальных промышленных приложений.

🤖 *VLA: Робототехника в реальном времени и отслеживание состояний*
Для обеспечения стабильности робота (например, дрона или промышленной руки) необходима скорость вывода *от 100 Гц до 1000 Гц* (менее 10 мс). Модели на основе трансформеров часто испытывают нехватку памяти (OOM) или замедляются по мере заполнения контекстного окна.

*Преимущество LRAM:* Большие рекуррентные модели действий (LRAM) с xLSTM в основе обеспечивают **быстрый вывод и линейную временную сложность**, превосходя трансформеры как по скорости, так и по производительности в сотнях задач робототехники.

*Чудо смешивания памяти в sLSTM:* Одним из секретных оружий xLSTM является блок **sLSTM**. Он позволяет отслеживать состояние, с чем испытывают трудности трансформеры и другие модели, такие как Mamba. Это позволяет роботу «запоминать», выполнил ли он уже логический шаг, например, добавил соль в блюдо, даже при частичной наблюдаемости.

👁️ *VLM: Революция Vision-LSTM (ViL)*
Когда речь идет о моделях визуально-языковых моделей, *Vision-LSTM (ViL)* бросает вызов Vision Transformer (ViT).

*Непричинная обработка:* ViL использует чередующиеся блоки mLSTM для обработки фрагментов изображений сверху вниз, а затем в обратном порядке, эффективно захватывая пространственные данные без затрат $O(N^2)$.

*Возможности высокого разрешения:* Благодаря своей вычислительной эффективности, ViL идеально подходит для задач, требующих **изображений высокого разрешения**, таких как медицинская визуализация, семантическая сегментация и сложные физические симуляции — области, где использование трансформеров часто слишком дорого.

⚖️ *Законы масштабирования: Парето-доминирование*
Недавние исследования *законов масштабирования* показывают, что xLSTM *парето-доминирует* над плотными трансформерами. Это означает, что при любом фиксированном вычислительном бюджете модель на основе xLSTM обеспечит *меньшие потери при валидации* и лучшую производительность, чем трансформер.

*Досмотрите до конца, чтобы увидеть, как эти архитектуры сравниваются по времени выполнения и использованию памяти!*

---
🔔 **Подпишитесь**, чтобы получать больше подробных обзоров последних исследований в области ИИ!

👍 *Поставьте лайк* этому видео, если оно оказалось полезным.

💬 *Оставьте комментарий ниже:* Как вы думаете, заменит ли xLSTM в конечном итоге трансформеры в моделях линейной сложности?

--

*Теги:*
xLSTM, трансформер, модели VLA, VLM, робототехника с ИИ, воплощенный ИИ, Vision-LSTM, ViL, LRAM, модель больших рекуррентных действий, исследования в области машинного обучения, компьютерное зрение, вывод в реальном времени, sLSTM, mLSTM, Сепп Хохрайтер, законы масштабирования ИИ, глубокое обучение, обучение с подкреплением, ИИ линейной сложности

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

xLSTM против трансформеров: будущее робототехники и машинного зрения в реальном времени (объяснен...

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео