Coding a Speech-to-Text Model from Scratch in PyTorch (Transformer + RVQ + CTC)

Автор: Mayank Pratap Singh

Загружено: 2026-03-18

Просмотров: 6

Описание: I built a Speech-to-Text model from scratch using PyTorch and trained it on an A100 GPU. No APIs, no pre-trained models. Everything coded from the ground up.
Blog post:
[Speech to text]
https://blogs.mayankpratapsingh.in/ch...
[Transformers]
https://blogs.mayankpratapsingh.in/ch...

Connect with me

Linkedin
/ mayankpratapsingh022
X
https://x.com/Mayank_022

In this video I walk through the full build: how audio works digitally, why raw audio breaks self-attention, how convolutional downsampling fixes that, the Transformer encoder, Residual Vector Quantization, CTC loss, and the training loop. I also show what went wrong during training and how I debugged it.

Trained on the LJ Speech dataset. First attempt on 13,100 clips gave garbage output after 3 hours. Reduced to 200 clips, switched from BPE to character-level tokenizer, and got actual words after 2 hours.

This is a learning project, not a production model. The goal was to understand every piece of the pipeline from raw waveform to text output.

Links:
Blog post: https://blogs.mayankpratapsingh.in/ch...
GitHub repo: https://github.com/Mayankpratapsingh0...
LJ Speech dataset: https://keithito.com/LJ-Speech-Dataset/
RunPod (for GPU): https://www.runpod.io/

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Coding a Speech-to-Text Model from Scratch in PyTorch (Transformer + RVQ + CTC)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

UNIA ŻĄDA, MIASTO ULEGA. MIGRANCI, SZANTAŻ, ZABRZE WYCOFUJE SIĘ Z UCHWAŁY ANTYIMIGRACYJNEJ

UNIA ŻĄDA, MIASTO ULEGA. MIGRANCI, SZANTAŻ, ZABRZE WYCOFUJE SIĘ Z UCHWAŁY ANTYIMIGRACYJNEJ

Dwulicowy Marszałek. Polityka Na Deser

Dwulicowy Marszałek. Polityka Na Deser

読書実況 ▶︎ #21 The Python Tutorial

読書実況 ▶︎ #21 The Python Tutorial

Музыка лечит сердце и сосуды🌸 Успокаивающая музыка восстанавливает нервную систему,расслабляющая

Музыка лечит сердце и сосуды🌸 Успокаивающая музыка восстанавливает нервную систему,расслабляющая

Открыты Новые Архитектуры ИИ! Они В Разы Мощнее Трансформера! GPT Больше Не Топ! Конец Века Гигантов

Открыты Новые Архитектуры ИИ! Они В Разы Мощнее Трансформера! GPT Больше Не Топ! Конец Века Гигантов

Implementing DeepSeek LLM from Scratch in Pytorch

Implementing DeepSeek LLM from Scratch in Pytorch

Что такое API? Простыми Словами Для Начинающих

Что такое API? Простыми Словами Для Начинающих

30 видео за 5 минут: ИИ-агент делает ресерч ВМЕСТО вас

30 видео за 5 минут: ИИ-агент делает ресерч ВМЕСТО вас

Ловушки при съёмке видео, которые сделают монтаж невыносимым

Ловушки при съёмке видео, которые сделают монтаж невыносимым

Meta сократит 20% айтишников, ИИ обанкротил компанию, Мозг загрузили в аватар | Как Там АйТи #90

Meta сократит 20% айтишников, ИИ обанкротил компанию, Мозг загрузили в аватар | Как Там АйТи #90

Бесплатный визуальный конструктор от Клода просто уничтожил все платные инструменты для дизайна (...

Бесплатный визуальный конструктор от Клода просто уничтожил все платные инструменты для дизайна (...

Как Иран стал ПРОБЛЕМОЙ

Как Иран стал ПРОБЛЕМОЙ

Взрослый клинап в DaVinci Resolve

Взрослый клинап в DaVinci Resolve

3 причины, почему я перешел на Claude: Реальный пример от не программиста.

3 причины, почему я перешел на Claude: Реальный пример от не программиста.

⚡️ Заявление об аресте Путина || РФ экстренно стягивает войска

⚡️ Заявление об аресте Путина || РФ экстренно стягивает войска

Китай требует капитуляции соседа / Войска стянуты к границе

Китай требует капитуляции соседа / Войска стянуты к границе

Что такое космические лучи и почему у них так много энергии? | Егор Задеба Лекция 2026 | Мослекторий

Что такое космические лучи и почему у них так много энергии? | Егор Задеба Лекция 2026 | Мослекторий

Полный гайд по Claude: как выжать максимум из этой нейросети

Полный гайд по Claude: как выжать максимум из этой нейросети

„Do Moskwy!” Kulisy spotkania na szczycie. Cyniczna gra PiS na PolExit i „tandeta Trumpa” |BEZ TRYBU

„Do Moskwy!” Kulisy spotkania na szczycie. Cyniczna gra PiS na PolExit i „tandeta Trumpa” |BEZ TRYBU

СПАСЕТ ЛИ ПУТИНА ВОЙНА В ИРАНЕ? БЕСЕДА С ИГОРЕМ ЛИПСИЦЕМ @ИГОРЬ ЛИПСИЦ

СПАСЕТ ЛИ ПУТИНА ВОЙНА В ИРАНЕ? БЕСЕДА С ИГОРЕМ ЛИПСИЦЕМ @ИГОРЬ ЛИПСИЦ