IEEE SP Cup 2026 | Team SuperZooooom | Two-Stage Speech Enhancement Framework for Audio Zooming

Автор: yang

Загружено: 2026-02-15

Просмотров: 36

Описание: A Dual-Microphone Two-Stage Speech Enhancement Framework for Audio Zooming

Team SuperZooooom for IEEE Signal Processing CUP 2026
Students: Zhixiang Tang, Yanxin Tian, Gengyou Liu, Yongyi Deng
Tutor: Yujie Zhu
Supervisor: Gongping Huang

Audio zooming aims to enhance interested sound sources aligned
with visual focus while suppressing interference sources, which is
particularly challenging for dual-microphone smartphones due to
limited spatial resolution and constrained computational resources.
Existing methods either suffer from degraded spatial selectivity in
adverse acoustic conditions or rely on computationally intensive
models that are unsuitable for on-device deployment. This paper
proposes a two-stage cascaded audio–visual zooming framework for
dual-microphone smartphones, achieving consistent improvements
under both anechoic and reverberant conditions. In the first stage,
a directionally guided enhancement network exploits directional
priors by comparing observed inter-microphone phase differences
(IPDs) with theoretical IPDs, thereby improving spatial separation.
In the second stage, a single-channel enhancement model is used
to jointly refine amplitude and phase spectra and suppress residual
noise, where knowledge distillation is applied to reduce model com
plexity. Experiments conducted following the IEEE Signal Process
ing Cup 2026 protocol show significant improvements in OSINR,
SI-SNR, STOI, PESQ and ViSQOL, proving the effectiveness and
competitiveness of the proposed framework.

School of Electronic Information
Wuhan University

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

IEEE SP Cup 2026 | Team SuperZooooom | Two-Stage Speech Enhancement Framework for Audio Zooming

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Знакомство с Agentforce Builder 🤖 Знакомство с Agent Builder | Объяснение работы агентов Salesfor...

Знакомство с Agentforce Builder 🤖 Знакомство с Agent Builder | Объяснение работы агентов Salesfor...

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Альфред Кох – Путин 1990-х, бандиты, НТВ, Навальный / вДудь

Альфред Кох – Путин 1990-х, бандиты, НТВ, Навальный / вДудь

Когда микроконтроллер становится узким местом? Разбираем реальные ограничения STM32

Когда микроконтроллер становится узким местом? Разбираем реальные ограничения STM32

Эквалайзер не вызывает фазовые искажения!

Эквалайзер не вызывает фазовые искажения!

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Внутри миниатюрного английского замка Джона 🏰 89 кв.м/956 кв.футов

Внутри миниатюрного английского замка Джона 🏰 89 кв.м/956 кв.футов

У этого AI-агента уже 235 000 звёзд на GitHub. Показываю, как запустить за 10 минут

У этого AI-агента уже 235 000 звёзд на GitHub. Показываю, как запустить за 10 минут

6 бесплатных инструментов для работы со спутниковыми снимками, которые должен знать каждый следов...

6 бесплатных инструментов для работы со спутниковыми снимками, которые должен знать каждый следов...

Циркон. Что не сходится в версиях о перехватах над Украиной? История гиперзвуковой ракеты.

Циркон. Что не сходится в версиях о перехватах над Украиной? История гиперзвуковой ракеты.

ЦЕНА ОШИБКИ: 13 Инженерных Катастроф, Которые Потрясли Мир!

ЦЕНА ОШИБКИ: 13 Инженерных Катастроф, Которые Потрясли Мир!

Ад на Ближнем Востоке

Ад на Ближнем Востоке

Очеловечьте тексты, написанные с помощью ИИ, и обойдите системы обнаружения ИИ с помощью этого КЛ...

Очеловечьте тексты, написанные с помощью ИИ, и обойдите системы обнаружения ИИ с помощью этого КЛ...

Ambient Live Looping Improvisational Music by Reinhardt Buhr

Ambient Live Looping Improvisational Music by Reinhardt Buhr

Shallou - life, cycle | The Seasons EPs Compilation | Chill Dance & Ambient Mix

Shallou - life, cycle | The Seasons EPs Compilation | Chill Dance & Ambient Mix

[ICON Spring26 Seminar] Ruqi Zhang (Purdue) #foundationmodels #probabilitytheory #AI

[ICON Spring26 Seminar] Ruqi Zhang (Purdue) #foundationmodels #probabilitytheory #AI

Код, написанный ИИ: Армин Ронахер об агентах ИИ и будущем программирования [Полный выпуск]

Код, написанный ИИ: Армин Ронахер об агентах ИИ и будущем программирования [Полный выпуск]

Больше — значит лучше? Сравнение всех локальных ИИ Qwen 3.5: 397B против 122B против 35B против 2...

Больше — значит лучше? Сравнение всех локальных ИИ Qwen 3.5: 397B против 122B против 35B против 2...

Италия строила свой танк сорок лет и вот что из этого вышло!

Италия строила свой танк сорок лет и вот что из этого вышло!

Юваль Ной Харари и Макс Тегмарк о будущем, сверх разуме, развитии ИИ, другом

Юваль Ной Харари и Макс Тегмарк о будущем, сверх разуме, развитии ИИ, другом