Qwen3-TTS vs Coqui: клонируем голос и строим цифрового заместителя
Автор: Marat Zimnurov
Загружено: 2026-02-23
Просмотров: 119
Описание:
В этом видео я экспериментирую с клонированием голоса и пробую понять, можно ли:
— создать цифрового заместителя
— генерировать ответы HR-у моим голосом
— и вообще понять, где проходит граница этики
— привожу пример с моей переозвучкой World of Warcraft
Код со стрима в закрепе
Разбираем:
— концепцию цифровых портретов
— многовекторные модели и RAG
— Qwen3-TTS vs Coqui
— LoRA, Flash Attention и ускорение генерации
— что дешевле: кеш или загрузка модели в RAM
— практические ограничения и MVP
Это не туториал, а живой инженерный эксперимент со стрима —
с ошибками, мемами и странными результатами (Starcoder, привет).
🧠 Внутри:
• короткий vs длинный семпл для клонирования
• генерация текста под голос
• эксперимент с ответом HR
• размышления об этике
• идеи применения
📌 Видео сделано на основе стрима — без вырезания контекста и с объяснениями по ходу.
Если вы:
— хотите глубже понимать программирование
— чувствуете, что «код — это не всё»
— или просто интересно, как всё связано
Залетайте на стримы, подписывайтесь на канал и блог в телеграме
00:00:00 – Нарезка забавных моментов
00:01:00 – Постановка задачи
00:01:27 – Как переозвучить World Of Warcraft на русский язык с помощью AI?
00:03:10 – Концепция цифровых портретов и замещений, многовекторные модели и RAG
00:12:45 – Формулировка проблем, роадмапа и MVP
00:15:00 – Атрибуты цифрового портрета
00:15:59 – Разбираемся с Voice Memos и делаем короткого семпл для клонирования
00:17:23 – Повторяю постановку задачи и цели проекта
00:20:42 – Про Qwen3-TTS относительно coqui-ai/TTS
00:21:55 – Запускаем и подготавливаем Python код
00:23:59 – Слушаем клонирование голоса на основе короткого семпла
00:24:59 – Про Flash Attention, LoRA, Mac Studio M1 Max и ускорение клонирования голоса
00:26:45 – Записываем семпл на основе текста книги "Хоббит"
00:29:28 – Записываем генерируемый кусок для сопоставления с образцом и сравнения
00:30:15 – Клонируем голос для длинного семпла
00:33:20 – Слушаем клонирование голоса на основе длинного семпла
00:34:47 – Анализируем результаты
00:36:40 – Уточняем цели проекта
00:38:00 – Как это может работать с видео
00:38:45 – Мем про цифровых заместителей
00:39:00 – Про применимость RCTF, тональность, Юнга и Толкина в подходе к генерации текста под клонирование голоса
00:42:20 – Рандом спрашивает "что происходит?"
00:43:00 – Эксперимент для генерации текста ответа HR-у для технического вопроса
00:44:15 – Извиняемся перед нейросетью
00:44:20 – Про DDD ненависть
00:45:51 – Starcoder сошел с ума и сгенерировал пасту про балкон, но про elixir с матом
00:47:10 – Генерируем аудиоклон для ответа HR-а про elixir
00:48:30 – Иногда полная загрузка модели в RAM при каждой генерации дешевле, чем кеш
00:49:20 – Слушаем клонирование голоса для ответа HR-у про elixir
00:50:00 – Слушаем все клоны голоса
00:50:45 – Спрос клонирования для World Of Warcraft
00:51:30 – Идеи применения клонирования голоса
00:52:48 – Зачем я вообще про это рассказываю и стримлю
00:53:30 – Про этические вопросы клонирования голоса
00:54:00 – Применимость проекта
Где меня найти
▶ Twitch (стримы):
/ marat_zimnurov
▶ Telegram — про программирование и дайджесты:
https://t.me/digitable_blog
▶ Пост про цветовую теорию, который упоминаю в видео:
https://t.me/digitable_blog/30
▶ Проекты и услуги:
https://digitable.ru/
▶ GitHub:
https://github.com/the-homeless-god
Остальные контакты — в шапке канала.
Поддержать канал можно подписавшись сюда и на телегу https://t.me/digitable_blog или на Twitch через кнопку донатов.
Если будет смысл и спрос — со временем заведу Boosty, но пока без фанатизма 🙂
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: