Qwen3-TTS vs Coqui: клонируем голос и строим цифрового заместителя

Автор: Marat Zimnurov

Загружено: 2026-02-23

Просмотров: 119

Описание: В этом видео я экспериментирую с клонированием голоса и пробую понять, можно ли:

— создать цифрового заместителя
— генерировать ответы HR-у моим голосом
— и вообще понять, где проходит граница этики
— привожу пример с моей переозвучкой World of Warcraft

Код со стрима в закрепе

Разбираем:

— концепцию цифровых портретов
— многовекторные модели и RAG
— Qwen3-TTS vs Coqui
— LoRA, Flash Attention и ускорение генерации
— что дешевле: кеш или загрузка модели в RAM
— практические ограничения и MVP

Это не туториал, а живой инженерный эксперимент со стрима —
с ошибками, мемами и странными результатами (Starcoder, привет).

🧠 Внутри:

• короткий vs длинный семпл для клонирования
• генерация текста под голос
• эксперимент с ответом HR
• размышления об этике
• идеи применения

📌 Видео сделано на основе стрима — без вырезания контекста и с объяснениями по ходу.

Если вы:
— хотите глубже понимать программирование
— чувствуете, что «код — это не всё»
— или просто интересно, как всё связано

Залетайте на стримы, подписывайтесь на канал и блог в телеграме

00:00:00 – Нарезка забавных моментов
00:01:00 – Постановка задачи
00:01:27 – Как переозвучить World Of Warcraft на русский язык с помощью AI?
00:03:10 – Концепция цифровых портретов и замещений, многовекторные модели и RAG
00:12:45 – Формулировка проблем, роадмапа и MVP
00:15:00 – Атрибуты цифрового портрета
00:15:59 – Разбираемся с Voice Memos и делаем короткого семпл для клонирования
00:17:23 – Повторяю постановку задачи и цели проекта
00:20:42 – Про Qwen3-TTS относительно coqui-ai/TTS
00:21:55 – Запускаем и подготавливаем Python код
00:23:59 – Слушаем клонирование голоса на основе короткого семпла
00:24:59 – Про Flash Attention, LoRA, Mac Studio M1 Max и ускорение клонирования голоса
00:26:45 – Записываем семпл на основе текста книги "Хоббит"
00:29:28 – Записываем генерируемый кусок для сопоставления с образцом и сравнения
00:30:15 – Клонируем голос для длинного семпла
00:33:20 – Слушаем клонирование голоса на основе длинного семпла
00:34:47 – Анализируем результаты
00:36:40 – Уточняем цели проекта
00:38:00 – Как это может работать с видео
00:38:45 – Мем про цифровых заместителей
00:39:00 – Про применимость RCTF, тональность, Юнга и Толкина в подходе к генерации текста под клонирование голоса
00:42:20 – Рандом спрашивает "что происходит?"
00:43:00 – Эксперимент для генерации текста ответа HR-у для технического вопроса
00:44:15 – Извиняемся перед нейросетью
00:44:20 – Про DDD ненависть
00:45:51 – Starcoder сошел с ума и сгенерировал пасту про балкон, но про elixir с матом
00:47:10 – Генерируем аудиоклон для ответа HR-а про elixir
00:48:30 – Иногда полная загрузка модели в RAM при каждой генерации дешевле, чем кеш
00:49:20 – Слушаем клонирование голоса для ответа HR-у про elixir
00:50:00 – Слушаем все клоны голоса
00:50:45 – Спрос клонирования для World Of Warcraft
00:51:30 – Идеи применения клонирования голоса
00:52:48 – Зачем я вообще про это рассказываю и стримлю
00:53:30 – Про этические вопросы клонирования голоса
00:54:00 – Применимость проекта

Где меня найти

▶ Twitch (стримы):
/ marat_zimnurov

▶ Telegram — про программирование и дайджесты:
https://t.me/digitable_blog

▶ Пост про цветовую теорию, который упоминаю в видео:
https://t.me/digitable_blog/30

▶ Проекты и услуги:
https://digitable.ru/

▶ GitHub:
https://github.com/the-homeless-god

Остальные контакты — в шапке канала.

Поддержать канал можно подписавшись сюда и на телегу https://t.me/digitable_blog или на Twitch через кнопку донатов.
Если будет смысл и спрос — со временем заведу Boosty, но пока без фанатизма 🙂

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Qwen3-TTS vs Coqui: клонируем голос и строим цифрового заместителя

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Что НА САМОМ ДЕЛЕ происходит, когда нажимаешь

Что НА САМОМ ДЕЛЕ происходит, когда нажимаешь "ПРИНЯТЬ ВСЕ КУКИ"?

OpenClaw + Ollama: как поднять локальную LLM в Telegram (полный разбор со стрима)

OpenClaw + Ollama: как поднять локальную LLM в Telegram (полный разбор со стрима)

Озвучка ИИ: как выбрать TTS? feat. @ovsyankaai

Озвучка ИИ: как выбрать TTS? feat. @ovsyankaai

Критическая база знаний LLM за ЧАС! Это должен знать каждый.

Критическая база знаний LLM за ЧАС! Это должен знать каждый.

Про стримы, логику и нужна ли математика программисту

Про стримы, логику и нужна ли математика программисту

«Самолёты не должны уметь летать, и никто толком не знает почему.»

«Самолёты не должны уметь летать, и никто толком не знает почему.»

Чем война в Иране грозит миру? Нефть, Украина, глобальная война | Россия — бенифициар?

Чем война в Иране грозит миру? Нефть, Украина, глобальная война | Россия — бенифициар?

Грозев — как выследили Хаменеи. США готовят восстание в Иране? В России вербуют подростков

Грозев — как выследили Хаменеи. США готовят восстание в Иране? В России вербуют подростков

Как выследили Аятоллу и как выследят Путина | Диктатуры и технологии (English subtitles) @Max_Katz

Как выследили Аятоллу и как выследят Путина | Диктатуры и технологии (English subtitles) @Max_Katz

Минфин НЕ БУДЕТ продавать валюту в марте!

Минфин НЕ БУДЕТ продавать валюту в марте!

Порталы не создают вечный двигатель, если телепортировать гравитацию

Порталы не создают вечный двигатель, если телепортировать гравитацию

Меня ругает провластный стример | Разбираем критику роликов о призыве студентов (Eng sub) @Максим Кац

Меня ругает провластный стример | Разбираем критику роликов о призыве студентов (Eng sub) @Максим Кац

Elixir, BEAM и теория категорий — зачем программисту вся эта математика?

Elixir, BEAM и теория категорий — зачем программисту вся эта математика?

Блокировка Telegram: ТОП-5 защищенных мессенджеров на замену

Блокировка Telegram: ТОП-5 защищенных мессенджеров на замену

Трезво про LLM-агентов в баре

Трезво про LLM-агентов в баре

#3 - Методологии разработки / Готовим project-management с product-management

#3 - Методологии разработки / Готовим project-management с product-management

ДЕНЬ 1470. РЕКОРДНЫЕ УДАРЫ ПО ИРАНУ/ АТАКОВАН ТАНКЕР РФ/ КОНТРАТАКИ ВСУ НА ЮГЕ/ СБИТ ВЕРТОЛЕТ РФ

ДЕНЬ 1470. РЕКОРДНЫЕ УДАРЫ ПО ИРАНУ/ АТАКОВАН ТАНКЕР РФ/ КОНТРАТАКИ ВСУ НА ЮГЕ/ СБИТ ВЕРТОЛЕТ РФ

20 ВЕЩЕЙ которые я напечатал на 3D - ПРИНТЕРЕ для ВЕЛОСИПЕДА и велотуризма.

20 ВЕЩЕЙ которые я напечатал на 3D - ПРИНТЕРЕ для ВЕЛОСИПЕДА и велотуризма.

Я протестировала Google AI целиком – эти инструменты лучшие

Я протестировала Google AI целиком – эти инструменты лучшие

Делаю фильм в ИИ с ОДНИМ ПОСТОЯННЫМ персонажем | Простой и понятный гайд 2026

Делаю фильм в ИИ с ОДНИМ ПОСТОЯННЫМ персонажем | Простой и понятный гайд 2026