В файле Llama.cpp только что был добавлен модуль MTP, и вам следует его использовать.
Автор: Tim Carambat
Загружено: 2026-05-18
Просмотров: 36167
Описание:
MTP (Multi-Token prediction) — это не новая идея, но она наконец-то поддерживается в любимом движке llama.cpp! MTP — это, по сути, SSD (Speculative Decoding), но всё в одном пакете! В зависимости от модели/оборудования вы можете получить до 2 раз более высокую частоту кадров в секунду без каких-либо недостатков!
Не *каждая* модель поддерживает MTP, и если вы используете что-то вроде Qwen 3.5 или Qwen 3.6, вам потребуется заново загрузить файл GGUF с поддержкой MTP, поскольку это было добавлено совсем недавно. Тем не менее, я получал на 25% более высокую частоту кадров в секунду на своей M4 Pro, но в зависимости от оборудования вы можете получить гораздо больше.
Всё это происходит без каких-либо компромиссов в точности, вы просто получаете больше TPS на том же самом оборудовании с помощью простой опции конфигурации в llama.cpp! Довольно круто, и я рад, что это наконец-то было добавлено, поскольку, вероятно, в будущем мы увидим гораздо больше моделей MTP.
*Ссылки*:
Запрос на слияние LLamacpp: https://github.com/ggml-org/llama.cpp...
Скачать LLamacpp: https://github.com/ggml-org/llama.cpp...
AnythingLLM: https://github.com/Mintplex-Labs/anyt...
Пример Qwen 3.5 9B MTP GGUF: https://huggingface.co/unsloth/Qwen3....
*Разделы*:
0:00 Локальный ИИ быстро улучшается
1:35 Введение в AnythingLLM
2:35 MTP (Multi Token Prediction) интегрирован!
3:18 Что такое MTP?
5:37 Какие модели поддерживают MTP?
7:20 Поддержка MTP все еще находится в разработке!
7:53 А вот и самое неприятное...
9:53 Как запустить llama.cpp с поддержкой MTP локально!
11:28 Бенчмаркинг, запуск и настройка MTP для локального ИИ
15:25 MTP — это долгожданное дополнение к локальному ИИ для llama.cpp!
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: