Whisper.cpp и Metal API: Локальное распознавание речи на macOS

Автор: Пять Франков

Загружено: 2025-03-29

Просмотров: 34

Описание: Автоматическое саммари по записи стрима:
Оказалось, для ускорения Whisper.cpp через Metal на macOS нужен не один файл модели, а два: основной .bin и специальный .mlmodelc для вычислений на GPU.
Главный враг производительности — постоянная перекомпиляция шейдеров Metal. Без кэширования сервер тратит десятки секунд на «прогрев» при каждом запросе.
Решение проблемы — создать контекст Whisper один раз при запуске сервера, а не на каждый запрос. Это позволяет кэшировать шейдеры и избежать их повторной компиляции.
Переход на качественную мультиязычную модель — это не просто замена файла. Будьте готовы, что только файлы модели займут больше 2 ГБ, а время первого запуска сервера вырастет в разы.
Иногда разработку останавливает не сложный баг, а банальная нехватка места на диске. Релизная сборка может внезапно «съесть» последние гигабайты и упасть с ошибкой.

Стримы про разработку плагина для Obsidian каждый день
/ pfrankov

00:00:00 — Вступление
00:01:26 — Цель: локальный суммаризатор звонков
00:02:55 — Решение проблем с обработкой файлов
00:06:12 — Выбор и загрузка новой модели Whisper
00:30:18 — Проблема с загрузкой модели: ошибка "Bad Magic"
00:55:05 — Успешный запуск с двумя моделями
01:00:28 — Зачем нужны .bin и .mlmodelc для Metal
01:02:54 — Проблема: компиляция шейдеров при каждом запуске
01:11:25 — Идея: кэшировать скомпилированные шейдеры
01:17:01 — Сборка релизной версии приложения
01:23:40 — Ошибка сборки: закончилось место на диске
01:25:00 — Итоги и планы

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Whisper.cpp и Metal API: Локальное распознавание речи на macOS

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео