Тест Qwen3-TTS: диалог между несколькими персонажами | AFrame21
Автор: AFrame21
Загружено: 2026-01-26
Просмотров: 45
Описание:
Qwen3-TTS — это семейство моделей преобразования текста в речь (TTS), разработанное компанией Qwen, предоставляющее комплексные возможности генерации голоса, включая клонирование голоса, разработку голоса, высококачественный синтез речи, имитирующий речь человека, и управление голосом на основе естественного языка. Вся серия моделей полностью открыта для публичного доступа.
Qwen3-TTS использует многокодовую систему Qwen3-TTS-Tokenizer-12Hz, обеспечивающую эффективное сжатие и надежное представление речевых сигналов при сохранении нелингвистической информации и характеристик акустической среды. Его облегченная архитектура без DiT позволяет быстро и точно восстанавливать речь.
Благодаря двухдорожечной архитектуре, Qwen3-TTS поддерживает двунаправленную потоковую генерацию речи со сверхнизкой задержкой, при которой первый аудиопакет генерируется после обработки всего одного символа.
Qwen3-TTS доступен в двух размерах моделей: 1,7B и 0,6B. Версия 1.7B ориентирована на оптимальную производительность и высокую управляемость голосом, в то время как версия 0.6B обеспечивает сбалансированный компромисс между качеством и эффективностью.
Модели поддерживают 10 основных языков — китайский, английский, японский, корейский, немецкий, французский, русский, португальский, испанский и итальянский — а также множество диалектов. Кроме того, Qwen3-TTS демонстрирует высокое понимание контекста, позволяя адаптивно управлять тоном, ритмом и эмоциональной выразительностью на основе текстовой семантики, значительно повышая при этом устойчивость к зашумленному тексту.
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: