Модели языка видения: обзор 26 тыс. статей

Автор: AI Papers Podcast Daily

Загружено: 2025-10-13

Просмотров: 33

Описание: В данной статье представлен анализ основных исследовательских тенденций, наблюдаемых в 26 104 принятых статьях с ведущих конференций по искусственному интеллекту (CVPR, ICLR и NeurIPS) за период с 2023 по 2025 год, с анализом названий и аннотаций с использованием специализированного словаря. Исследование количественно оценивает три значительных макросдвига в этой области. Во-первых, наблюдается несомненный и резкий рост числа работ, посвященных *мультимодальной модели «зрение–язык» (VLM)**, доля которых увеличилась с 16% проанализированных аннотаций в 2023 году до 40% в 2025 году, что все больше переосмысливает классические задачи восприятия как **следование инструкциям и многошаговое рассуждение**. Во-вторых, **генеративные методы* неуклонно расширяются, а исследования диффузии консолидируются вокруг улучшения *контролируемости, дистилляции и скорости**. В-третьих, 3D- и видеотехнологии остаются устойчивыми, при этом композиция 3D-контента смещается от нейронных полей излучения (NeRF) к гауссовскому сплэттингу, а также растёт акцент на человеко-ориентированном и агентоориентированном понимании. Исследования в области VLM в настоящее время отдают предпочтение **параметрически эффективной адаптации**, такой как подсказки и LoRA/адаптеры, и **настройке инструкций* мощных базовых схем, а не созданию крупных кодеров с нуля, что отражает движение к модульным масштабируемым системам. Эти переходы подчёркивают продолжающийся сдвиг в сторону «мультимодальных генеративных основ», одновременно повышая осмысленность критически важных аспектов надёжности, таких как **эффективность, надёжность и безопасность**.

https://arxiv.org/pdf/2510.09586

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Модели языка видения: обзор 26 тыс. статей

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео