JoyAI-VL: мультимодальная модель реального времени для обработки визуальной и текстовой информации

Автор: AI Research Roundup

Загружено: 2026-06-16

Просмотров: 86

Описание: В этом выпуске обзора исследований в области ИИ Алекс обсуждает статью: «JoyAI-VL-Interaction: интеллектуальное взаимодействие в реальном времени на основе зрения и языка». Современные модели взаимодействия зрения и языка ограничены пошаговым взаимодействием, что не позволяет им воспринимать критически важные события в реальном времени. Для решения этой проблемы исследователи представили JoyAI-VL-Interaction — модель потоковой передачи данных с открытым исходным кодом, масштабируемую до 8 миллиардов, которая каждую секунду принимает решение о том, молчать ли, говорить или делегировать задачи. Система эффективно обрабатывает непрерывное видео с помощью AdaCodec, которая динамически сжимает предсказуемые кадры в меньшее количество токенов. Она была обучена на более чем 4 миллионах клипов, выровненных по времени, и оптимизирована для принятия решений и синхронизации с использованием обучения с подкреплением и групповой относительной оптимизации политики на платформе EasyVideoR1. Ссылка на статью: https://arxiv.org/abs/2606.14777 #AI #МашинноеОбучение #ГлубокоеОбучение #VLM #КомпьютерноеЗрение #ОбучениеСПодкреплением

Ресурсы:
GitHub: https://github.com/jd-opensource/JoyA...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

JoyAI-VL: мультимодальная модель реального времени для обработки визуальной и текстовой информации

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео