JoyAI-VL: мультимодальная модель реального времени для обработки визуальной и текстовой информации
Автор: AI Research Roundup
Загружено: 2026-06-16
Просмотров: 86
Описание:
В этом выпуске обзора исследований в области ИИ Алекс обсуждает статью: «JoyAI-VL-Interaction: интеллектуальное взаимодействие в реальном времени на основе зрения и языка». Современные модели взаимодействия зрения и языка ограничены пошаговым взаимодействием, что не позволяет им воспринимать критически важные события в реальном времени. Для решения этой проблемы исследователи представили JoyAI-VL-Interaction — модель потоковой передачи данных с открытым исходным кодом, масштабируемую до 8 миллиардов, которая каждую секунду принимает решение о том, молчать ли, говорить или делегировать задачи. Система эффективно обрабатывает непрерывное видео с помощью AdaCodec, которая динамически сжимает предсказуемые кадры в меньшее количество токенов. Она была обучена на более чем 4 миллионах клипов, выровненных по времени, и оптимизирована для принятия решений и синхронизации с использованием обучения с подкреплением и групповой относительной оптимизации политики на платформе EasyVideoR1. Ссылка на статью: https://arxiv.org/abs/2606.14777 #AI #МашинноеОбучение #ГлубокоеОбучение #VLM #КомпьютерноеЗрение #ОбучениеСПодкреплением
Ресурсы:
GitHub: https://github.com/jd-opensource/JoyA...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: