Будущее голосового ИИ: преобразование речи в речь против каскадных моделей (интервью с генеральны...
Автор: Tech Tomlet
Загружено: 2025-11-18
Просмотров: 923
Описание:
Присоединяйтесь к моему сообществу, пока цена не выросла: https://www.skool.com/pioneers/about 🔥
Зак Кох, генеральный директор Ultravox, рассказал о том, куда на самом деле движется голосовой ИИ и почему текущий подход, используемый большинством платформ, может полностью устареть через 2-3 года.
Мы обсудили много вопросов: почему каскадные модели (конвейер ASR→LLM→TTS, на котором работают Vapi, Retell и большинство голосовых платформ) зашли в фундаментальный тупик, что такое преобразование речи в речь и чем оно отличается, и почему проблема с задержкой голосового агента, вероятно, не связана с тем, что вы думаете.
Зак создал каскадные системы ещё в 2023 году, прежде чем пришёл к выводу, что это тупик, так что он не просто теоретизирует. Он разбирает технические причины, почему этот сдвиг произойдёт (по его мнению, через 6–12 месяцев для создания качественных моделей речевого мира), и где голосовой ИИ действительно выходит за рамки телефонных звонков.
Некоторые ключевые моменты:
— Почему фоновый шум полностью разрушает существующие системы голосового ИИ
— Принцип «интеллекта в миллисекунду» для выбора моделей
— Почему GPT-5 слишком медленный для общения в реальном времени
— Настоящее будущее: групповые беседы и ИИ-агенты в реальном времени, а не телефонные звонки
— Его предельно честная позиция: «В 2025 году большинство голосовых агентов всё ещё довольно отстойны»
Если вы разрабатываете голосовой ИИ или пытаетесь понять, куда эта отрасль будет двигаться в ближайшие несколько лет, эта статья стоит вашего внимания. Технически, но доступно.
🔗 Нужен голосовой ИИ-агент? Работайте с нами: https://www.oceansideai.io
🔗 Ultravox: https://app.ultravox.ai
Главы:
0:00 Большинство агентов всё ещё отстой
0:06 Каскады мертвы
0:33 Что заменил Ultravox
1:00 Цель человеческого уровня
1:49 Платформа под платформами
2:34 Объяснение преобразования речи в речь
3:56 Почему преобразование речи в речь побеждает
5:03 Вызов функций в реальности
6:06 Почему речевые LLM-программы испытывают трудности
7:39 Когда появляются модели речевого мира
9:00 Истинный источник задержки
11:18 Сложно соблюдать очередь
12:22 Фоновый шум убивает агентов
14:20 Где преобразование речи в речь сияет
15:29 GPT 5 слишком медленный для реального времени
16:37 Интеллект в миллисекунду
17:47 Открытый исходный код против проприетарного
18:47 Большие возможности голосового ИИ
19:50 Почему в реальном времени Важно
20:57 Будущее: групповые беседы
22:00 Естественное общение с компьютерами
23:04 Зак опережает события
#ГолосовойИИ #ИИдляБизнеса #RetellИИ #ultravox #ИИАвтоматизация #AIReceptionist #ИИагенты #АвтоматизацияАгентства #БезКодированияИИ #ЧеловекВЛипе #vapi #aivoice #aaa #aivoiceagents
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: