QWEN3 TTS в ComfyUI: руководство по локальной и бесплатной генерации голоса
Автор: Vasudev Menon
Загружено: 2026-02-02
Просмотров: 22
Описание:
#премьера #rtx4070super #текствречь #egpu #thinkpad #amd #amdryzen #windows11 #windows
Всем привет! В этом видео я покажу, как настроить клонирование голоса Qwen 3 TTS с параметрами 0,6 млрд и 1,6 млрд, а также пользовательские голосовые модели, используя шаблон рабочего процесса ComfyUI. Я также покажу различия в сгенерированном TTS-выводе между моделями с параметрами 0,6 и 1,6 млрд, работающими на eGPU RTX 4070 Super.
Из-за меньшего объема видеопамяти я настроил автоматическую выгрузку моделей из памяти после генерации вывода, независимо от успеха или неудачи.
Я хочу поблагодарить @theAIsearch за создание подробного видео, а также Qwen3, flybridxx и сообщество ComfyUI за создание качественных моделей и шаблонов рабочих процессов, которые делают их доступными для запуска полностью локально на своих видеокартах.
Ссылки:
ComfyUI Portable: https://docs.comfy.org/installation/c...
Qwen3-TTS: https://github.com/QwenLM/Qwen3-TTS
ComfyUI Workflow: https://github.com/flybirdxx/ComfyUI-...
Видео AI Search: • Elevenlabs just got wrecked. This free AI ...
Временные метки:
00:00 Начало
00:09 Настройка теста (NVIDIA или Apple MLX)
01:09 Благодарности AI Search и ComfyUI Qwen3 Workflow
01:58 Добавление пользовательского рабочего процесса
02:32 Запуск с nvidia fp16 Fast Accumulation
02:48 Установка зависимостей для Qwen3 TTS
03:34 Успешная установка пакета
03:43 Требуются Sage и Flash Attention CUDA SDK. Я использую версию PyTorch.
04:13 Я расскажу о клонировании голоса и пользовательских моделях дикторов.
04:37 Активация шаблона рабочего процесса.
05:43 Запуск рабочего процесса клонирования голоса.
08:22 Клонирование модели голоса 0,6 млрд.
09:18 Запуск клонирования модели голоса 1,6 млрд.
09:20 Расположение модели Qwen3.
09:45 Результат клонирования голоса 1,6 млрд.
10:12 Тестовый запуск 2 с 1,6 млрд. с информацией об акценте.
10:29 Обход узлов для отключения ненужного рабочего процесса.
10:41 Запуск пользовательского голоса Qwen3.
11:25 Временно сгенерированное аудио.
11:38 Артефакты старых ресурсов.
12:34 Результат пользовательского голоса Эрика 1,6 млрд.
13:18 Сравнение пользовательской модели голоса 1,6 млрд. и 0,6 млрд.
14:12 Завершение
14:20 Конец
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: