VibeVoice (генерация речи/клонирование голоса) на Framework Desktop с Strix Halo (AMD AI Ryzen MAX+)
Автор: Donato Capitella
Загружено: 2025-09-21
Просмотров: 4055
Описание:
В этом видео я покажу, как генерировать естественно звучащую речь локально на Framework Desktop с помощью AMD Ryzen AI Max «Strix Halo», включая клонирование голоса из короткого фрагмента и создание диалогов с несколькими говорящими. Вступительный фрагмент, который вы слышите в начале, был полностью сгенерирован VibeVoice и клонирован с моего собственного голоса.
VibeVoice — это модель Microsoft с открытым исходным кодом для длинной речи с несколькими говорящими (выпущена в конце августа 2025 года). Я расскажу вам о настройке Strix Halo с помощью набора инструментов Fedora и пользовательского интерфейса Gradio, затем продемонстрирую клипы с одним и несколькими говорящими, а также клонирование голоса с нулевого кадра. Я также расскажу об исправлениях стабильности, связанных со сбоями ROCm.
Временные метки:
00:00 — Вступление, сгенерированное ИИ (VibeVoice)
01:47 — Настройка на Strix Halo (Toolbox + Gradio)
03:28 — Первая демонстрация: Один динамик
05:18 — Разговоры с несколькими динамиками
05:42 — Клонирование собственного голоса (Zero-Shot)
06:23 — Исправления стабильности (librosa / numba / LLVM / ROCm)
08:26 — Создание полного подкаста
09:33 — Подкаст, сгенерированный ИИ: Как работает VibeVoice
— — —
Ссылки и ресурсы:
Репозиторий GitHub (инструменты, скрипты, исправления стабильности):
https://github.com/kyuz0/amd-strix-ha...
Framework Desktop (Strix Halo):
https://frame.work/
Руководство Strix Halo Homelab + Discord (от deseven):
https://strixhalo-homelab.d7.wtf/
VibeVoice (проект):
https://github.com/microsoft/VibeVoice
https://microsoft.github.io/VibeVoice/
Модели VibeVoice (Hugging Face):
https://huggingface.co/microsoft/Vibe...
(Пример для больших весов в сообществе):
https://huggingface.co/aoi-ot/VibeVoi...
Gradio (фреймворк пользовательского интерфейса):
https://github.com/gradio-app/gradio
Librosa (аудио-функции):
https://github.com/librosa/librosa
Numba (JIT; отключено в этом наборе инструментов) исправление):
https://github.com/numba/numba
LLVM (бэкенд компилятора):
https://llvm.org/
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: