[Paper Review] CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks

Автор: 서울대학교 산업공학과 DSBA 연구실

Загружено: 2024-01-11

Просмотров: 4105

Описание: 발표자: 고려대학교 DSBA 연구실 석사과정 남웅찬([email protected])

1. 논문 제목 : CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks (arXiv preprint, 2023)

2. 원문 링크 : https://arxiv.org/abs/2304.05653

3. 요약
CLIP의 Explainability와 관련하여 2가지 문제점을 지적
Foreground에 집중하지 못하고 Background에 집중하는 Opposite Visualization 문제점을 기존의 Self-Attention Block 내의 Query-Key 연산을 Value-Value 연산으로 바꾼 후 이를 New Block으로 정의한 후 Original Self-Attention Block과 함께 Dual Path로 구성하는 방법을 제안
Attention Map내에서 Uniform하게 Noise 형태로 Activation이 되는 Noisy Activation 문제점을 feature 내의 불필요한 Redundant features를 계산하여 기존의 Multiplied features에서 빼는 Feature Surgery 전략을 제안

4. Keyword : #CLIP Surgery, #CLIP, #Explainability

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

[Paper Review] CLIP Surgery for Better Explainability with Enhancement in Open-Vocabulary Tasks

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

[Paper Review] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language

[Paper Review] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language

Лекция ученого-астрофизика Сергея Попова «Новости астрофизики»

Лекция ученого-астрофизика Сергея Попова «Новости астрофизики»

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Краткое объяснение больших языковых моделей

Краткое объяснение больших языковых моделей

(Paper Review) Introduction to Neural Operator

(Paper Review) Introduction to Neural Operator

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

NotebookLM на максималках. Как изучать всё быстрее чем 99% пользователей

NotebookLM на максималках. Как изучать всё быстрее чем 99% пользователей

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Новые функции NotebookLM просто невероятны.

Новые функции NotebookLM просто невероятны.

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

Гипотеза Пуанкаре — Алексей Савватеев на ПостНауке

ЭТИ ФИЛЬМЫ СЛОМАЛИ КНИГИ — ТОП-10 САМЫХ МОЩНЫХ ЭКРАНИЗАЦИЙ

ЭТИ ФИЛЬМЫ СЛОМАЛИ КНИГИ — ТОП-10 САМЫХ МОЩНЫХ ЭКРАНИЗАЦИЙ

Окупай DPI: Выводим провайдера на чистую воду

Окупай DPI: Выводим провайдера на чистую воду

Диктатор готовит второй фронт? / Военные сборы или мобилизация?

Диктатор готовит второй фронт? / Военные сборы или мобилизация?

Люди глупеют? Что такое «поколение». ВАХШТАЙН про конфликт отцов и детей

Люди глупеют? Что такое «поколение». ВАХШТАЙН про конфликт отцов и детей

Qwen 3.5 Plus УНИЧТОЖАЕТ платные AI! Бесплатно + уровень Claude Opus

Qwen 3.5 Plus УНИЧТОЖАЕТ платные AI! Бесплатно + уровень Claude Opus

Почему реактивный двигатель не плавится? [Veritasium]

Почему реактивный двигатель не плавится? [Veritasium]

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Лучшие инструменты искусственного интеллекта для академической среды в 2026 году — прекратите пои...

Лучшие инструменты искусственного интеллекта для академической среды в 2026 году — прекратите пои...

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение