OpenVLA: роботизированный мозг с открытым исходным кодом, превосходящий Google RT-2.
Автор: AI & Robotic Frontiers
Загружено: 2025-12-05
Просмотров: 507
Описание:
В этом видео мы рассматриваем статью «OpenVLA: модель с открытым исходным кодом для обработки изображений, языка и действий», одну из важнейших работ по робототехнике 2024 года. Мы разбираем, что такое OpenVLA, как она объединяет зрение, язык и действия, и почему открытая модель с 7 миллиардами данных может превзойти модель Google RT-2-X с 55 миллиардами данных в реальных задачах робототехники.
Вы увидите, как OpenVLA построена на основе Llama 2, SigLIP и DINOv2, как она обучается на 970 тысячах эпизодов робототехники из набора данных Open X-Embodiment, и почему такие проектные решения, как токенизация действий, тонкая настройка кодировщика изображений и грамотная обработка данных, имеют такое большое значение. Мы также сравниваем её с предыдущими подходами, такими как RT-1/RT-2, Octo и Diffusion Policy, и обсуждаем тонкую настройку, LoRA и квантование на потребительских графических процессорах.
Оригинальная статья на arXiv:
https://arxiv.org/abs/2406.09246
Код и модели OpenVLA на GitHub / страница проекта:
https://openvla.github.io
Если вам понравился этот разбор, не забудьте поставить лайк видео, подписаться на канал и написать в комментариях, какую статью вы хотите увидеть следующей!
#робототехника #embodiedai #OpenVLA #vla #googledeepmind
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: