Можно ли токенизировать речь так же, как текст? Краткий обзор нейронных кодеков.

Автор: Priyam Mazumdar

Загружено: 2026-02-20

Просмотров: 443

Описание: Сегодня мы рассмотрим общие идеи, лежащие в основе современных нейронных кодеков. Они во многом заимствуют идеи из предыдущих работ по кодекам, просто переосмысленных для глубокого обучения. Вместо разработанных вручную блоков обработки сигналов, таких как фильтровые банки, психоакустические модели и тщательно спроектированные квантизаторы, мы теперь обучаемся этим компонентам непосредственно из данных. Но основные идеи на удивление те же!

Цель этого видео — подготовить почву для будущего видео, посвященного воспроизведению модели EnCodec!

Временные метки:
00:00:00 — Введение
00:00:20 — Что такое кодек?

00:02:15 — Битрейты
00:02:35 — Что такое MP3?

00:02:55 - Слуховая маскировка
00:05:20 - Психоакустика
00:07:35 - Линейное предиктивное кодирование (LPC)
00:09:00 - Высокая автокорреляция!

00:10:00 - Квантование
00:11:13 - Глубина битов
00:12:30 - Остаточное квантование и компромисс между битами и точностью
00:15:40 - Остаточное векторное квантование
00:20:50 - Резюме
00:23:50 - Переход к нейронным кодекам
00:24:20 - Модель SoundStream
00:27:50 - Модель EnCodec
00:28:45 - Балансировщик потерь
00:31:20 - Заметка об арифметическом кодировании
00:33:15 - Модель SpeechTokenizer
00:35:00 - Обучение LLM-моделей речи на кодеках
00:36:45 - Модель VALLE
00:38:55 - Что дальше?

Социальные сети!

X   / data_adventurer
Instagram   / nixielights
Linkedin   / priyammaz
Discord   / discord
🚀 Github: https://github.com/priyammaz
🌐 Вебсайт: https://www.priyammazumdar.com/

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Можно ли токенизировать речь так же, как текст? Краткий обзор нейронных кодеков.

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

HifiGAN From Scratch: Building a Neural Vocoder for Speech Synthesis

HifiGAN From Scratch: Building a Neural Vocoder for Speech Synthesis

The World's Most Important Machine

The World's Most Important Machine

Why CATL and BYD Are STILL Betting on Sodium-Ion Batteries.

Why CATL and BYD Are STILL Betting on Sodium-Ion Batteries.

Введение в Тритона: побочный квест в MyTorch!

Введение в Тритона: побочный квест в MyTorch!

Магнус Карлсен изобрел новый шахматный дебют! (Норвежская солнечная рыба!?)

Магнус Карлсен изобрел новый шахматный дебют! (Норвежская солнечная рыба!?)

The Tiny Donut That Proved We Still Don't Understand Magnetism

The Tiny Donut That Proved We Still Don't Understand Magnetism

ПОЧЕМУ ГИГАНТЫ ИСЧЕЗЛИ? А ИХ ГОРОДА ОСТАЛИСЬ ПО ВСЕМУ МИРУ!?

ПОЧЕМУ ГИГАНТЫ ИСЧЕЗЛИ? А ИХ ГОРОДА ОСТАЛИСЬ ПО ВСЕМУ МИРУ!?

The Unity Tutorial For Complete Beginners

The Unity Tutorial For Complete Beginners

I Saved an Electron Microscope from the Trash

I Saved an Electron Microscope from the Trash

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

The Closest We’ve Come to a Theory of Everything

The Closest We’ve Come to a Theory of Everything

Парадокс Шредингера РЕШЕН: простое объяснение квантовой механики

Парадокс Шредингера РЕШЕН: простое объяснение квантовой механики

Magnus Carlsen TERRIFIED By CRAZIEST Move 10 Ever Played! Chess World In COMPLETE SHOCK!

Magnus Carlsen TERRIFIED By CRAZIEST Move 10 Ever Played! Chess World In COMPLETE SHOCK!

Если реальность — СИСТЕМА, всё становится логичным

Если реальность — СИСТЕМА, всё становится логичным

The Brain’s Learning Algorithm Isn’t Backpropagation

The Brain’s Learning Algorithm Isn’t Backpropagation

How to make 3D Games in Godot

How to make 3D Games in Godot

Новый китайский ИИ DuClaw сделал OpenClaw мгновенным и непобедимым.

Новый китайский ИИ DuClaw сделал OpenClaw мгновенным и непобедимым.

Доведение моделирования до предела возможностей для поиска порядка в хаосе.

Доведение моделирования до предела возможностей для поиска порядка в хаосе.

The problem with pretending quantum mechanics makes sense | Sean Carroll

The problem with pretending quantum mechanics makes sense | Sean Carroll

KONIEC DUBAJU i REKORD EKSPORTU CHIN! | TRUMP nałoży „NOWE CŁA” na ŚWIAT? #BizWeek

KONIEC DUBAJU i REKORD EKSPORTU CHIN! | TRUMP nałoży „NOWE CŁA” na ŚWIAT? #BizWeek