Это (слепое) совпадение! К соответствию между зрением и языком без параллельных данных
Автор: Voxel51
Загружено: 2025-10-30
Просмотров: 40
Описание:
Можно ли сопоставить представления зрительного восприятия и языка без какого-либо контроля? Согласно гипотезе платонического представления, по мере увеличения масштабов модели и набора данных расстояния между соответствующими представлениями становятся схожими в обоих пространствах вложений. Наше исследование показывает, что парных расстояний часто достаточно для неконтролируемого сопоставления, что позволяет находить соответствия зрительного восприятия и языка без использования параллельных данных.
Доклад: Это (слепое) сопоставление! На пути к соответствию зрительного восприятия и языка без использования параллельных данных - https://arxiv.org/abs/2503.24129
О докладчике
Доминик Шнаус — аспирант третьего года обучения в группе компьютерного зрения Мюнхенского технического университета (TUM) под руководством Даниэля Кремерса. Его исследования сосредоточены на мультимодальном и самоконтролируемом обучении с особым акцентом на понимании сходства между пространствами вложений разных модальностей.
00:00 — Вступление
00:06 — Мотивация: Могут ли зрение и язык понимать друг друга без парных данных?
00:54 — Гипотеза платоновского представления
02:02 — Пространства вложений и сходство объектов
02:47 — Определение и измерение выравнивания
03:35 — Матрицы расстояний и сходство ядер
05:02 — Оценка платоновской гипотезы
05:50 — От выравнивания к сопоставлению: построение соответствий
06:26 — Квадратичная задача о присваиваниях и необходимость глобальной оптимизации
06:44 — Знакомство с решателем факторизованной S-граммы
07:28 — Сопоставление без общего пространства вложений
08:01 — Решение задачи о присваивании с парными расстояниями
09:00 — Проверка выравнивания как прокси-фактора для истинности
11:10 — Эксперимент: сопоставление изображения и языка в CIFAR-10 и SCEN
12:57 — Точность сопоставления В разных моделях и архитектурах
14:52 — Ограничения: когда сопоставление не удается
15:54 — Масштабирование до ImageNet100 и CIFAR100
16:59 — Сравнение производительности с учителем и без учителя
17:12 — Классификация изображений без учителя
18:36 — Результаты классификации и их значение
19:08 — Заключение: сопоставление через выравнивание позволяет проводить классификацию без учителя
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: