ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

HifiGAN From Scratch: Building a Neural Vocoder for Speech Synthesis

Автор: Priyam Mazumdar

Загружено: 2026-02-14

Просмотров: 562

Описание: Code: https://github.com/priyammaz/PyTorch-...

Neural Vocoders are an important part of the TTS pipeline that takes some intermediate representation such as a Mel Spectrogram and converts it to waveforms. Although the Griffin-Lim algorithm also can do this, it typically is limited and leads to poor audio quality. The HIFIGAN architecture is a popular choice today for training a Neural Network to instead learn the conversion.

PREREQS:
1) I hope you saw the Tacotron2 Video    • Build your own Voice Generator w/ Tacotron...   as we will be reusing some of the data processing code from there!
2) I also hope you are comfortable with the basics of Audio Processing like Griffin-Lim and Spectrograms    • Intro to Audio Processing for Deep Learning  

Timestamps:
00:00:00 - What are Vocoders?
00:03:30 - Listening to some audio samples
00:05:30 - HIFIGAN Overview
00:06:15 - Audio to Mel Conversion / Data Processing
00:14:15 - Pretraining vs Finetuning
00:15:30 - Write the MelDataset
00:39:30 - Start the Model Implementation
00:42:30 - Weight Init
00:43:30 - Implement ResidualBlock
00:55:05 - Implement Generator
01:07:40 - What is Periodicity?
01:09:30 - Implement the Multi-Period Discriminator
01:26:00 - Implement the Multi-Scale Discriminator
01:31:30 - Wrap up the Model
01:32:05 - Feature Matching Loss
01:35:30 - Discriminator Loss from LS-GAN
01:39:00 - Generator Loss
01:40:40 - Training Script
01:58:45 - Finetuning HIFIGAN on Synthetic Mel Spectrograms
02:01:20 - Results
02:03:08 - Listen to Generations
02:08:10 - What new TTS systems are doing


Socials!
X   / data_adventurer  
Instagram   / nixielights  
Linkedin   / priyammaz  
Discord   / discord  
🚀 Github: https://github.com/priyammaz
🌐 Website: https://www.priyammazumdar.com/

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
HifiGAN From Scratch: Building a Neural Vocoder for Speech Synthesis

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

ИИ и цифровая безопасность

ИИ и цифровая безопасность

MyTorch Part 2: Lets Build AutoGrad From Scratch

MyTorch Part 2: Lets Build AutoGrad From Scratch

Masked AutoEncoders (MAE) Implementation From Scratch | Self-Supervised Image Pretraining!

Masked AutoEncoders (MAE) Implementation From Scratch | Self-Supervised Image Pretraining!

EnCodec From Scratch: Lets Build a Neural Audio Codec!!

EnCodec From Scratch: Lets Build a Neural Audio Codec!!

LLMs Don't Need More Parameters. They Need Loops.

LLMs Don't Need More Parameters. They Need Loops.

Что такое жидкие нейросети? Liquid neural networks. Объяснение.

Что такое жидкие нейросети? Liquid neural networks. Объяснение.

AI Replacing Developers Has Officially Failed

AI Replacing Developers Has Officially Failed

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Chernobyl Accident - Simulation only (no talk)

Chernobyl Accident - Simulation only (no talk)

Как Гений Математик разгадал тайну вселенной

Как Гений Математик разгадал тайну вселенной

Our Man in Moscow: Inside Putin's Russia | BBC Panorama

Our Man in Moscow: Inside Putin's Russia | BBC Panorama

Идеальная замена Телеграм найдена! Как работает безопасный мессенджер Element

Идеальная замена Телеграм найдена! Как работает безопасный мессенджер Element

Можно ли токенизировать речь так же, как текст? Краткий обзор нейронных кодеков.

Можно ли токенизировать речь так же, как текст? Краткий обзор нейронных кодеков.

Ларри Джонсон: Удар США по острову Харг погубит страны Персидского залива

Ларри Джонсон: Удар США по острову Харг погубит страны Персидского залива

Обзор статьи о маскированных автокодировщиках (MAE) | Самостоятельное предварительное обучение на...

Обзор статьи о маскированных автокодировщиках (MAE) | Самостоятельное предварительное обучение на...

Портал в карманное пространство оказался страшнее, чем я думал...

Портал в карманное пространство оказался страшнее, чем я думал...

Древняя галактика оставила химическую улицу, которая ставит космологов в неудобное положение.

Древняя галактика оставила химическую улицу, которая ставит космологов в неудобное положение.

Что сказал Сэм Альтман???

Что сказал Сэм Альтман???

Почему я использую коллапс волновой функции для процедурного ландшафта | Unity Devlog

Почему я использую коллапс волновой функции для процедурного ландшафта | Unity Devlog

68000 - The CPU ahead of its time

68000 - The CPU ahead of its time

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]