Модели языка видения: обзор 26 тыс. статей
Автор: AI Papers Podcast Daily
Загружено: 2025-10-13
Просмотров: 33
Описание:
В данной статье представлен анализ основных исследовательских тенденций, наблюдаемых в 26 104 принятых статьях с ведущих конференций по искусственному интеллекту (CVPR, ICLR и NeurIPS) за период с 2023 по 2025 год, с анализом названий и аннотаций с использованием специализированного словаря. Исследование количественно оценивает три значительных макросдвига в этой области. Во-первых, наблюдается несомненный и резкий рост числа работ, посвященных *мультимодальной модели «зрение–язык» (VLM)**, доля которых увеличилась с 16% проанализированных аннотаций в 2023 году до 40% в 2025 году, что все больше переосмысливает классические задачи восприятия как **следование инструкциям и многошаговое рассуждение**. Во-вторых, **генеративные методы* неуклонно расширяются, а исследования диффузии консолидируются вокруг улучшения *контролируемости, дистилляции и скорости**. В-третьих, 3D- и видеотехнологии остаются устойчивыми, при этом композиция 3D-контента смещается от нейронных полей излучения (NeRF) к гауссовскому сплэттингу, а также растёт акцент на человеко-ориентированном и агентоориентированном понимании. Исследования в области VLM в настоящее время отдают предпочтение **параметрически эффективной адаптации**, такой как подсказки и LoRA/адаптеры, и **настройке инструкций* мощных базовых схем, а не созданию крупных кодеров с нуля, что отражает движение к модульным масштабируемым системам. Эти переходы подчёркивают продолжающийся сдвиг в сторону «мультимодальных генеративных основ», одновременно повышая осмысленность критически важных аспектов надёжности, таких как **эффективность, надёжность и безопасность**.
https://arxiv.org/pdf/2510.09586
Повторяем попытку...

Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: