RotorQuant — это конец TurboQuant? (Ускорение в 19 раз)

Автор: Research Paper Review

Загружено: 2026-03-27

Просмотров: 3084

Описание: Представляем RotorQuant — новую технологию для эффективного сжатия кэшей ключ-значение для крупномасштабных языковых моделей (LLM). Этот метод отличается максимальной вычислительной эффективностью за счет переработки существующего алгоритма TurboQuant от Google с использованием роторного метода, основанного на алгебре Клиффорда. RotorQuant уменьшает количество параметров в 44 раза, но обеспечивает в 10–31 раз более высокую скорость, чем раньше, в средах NVIDIA и Apple Silicon. Особенно в среде 3-битного сжатия он точно сохраняет точность модели и значительно сокращает использование памяти, позволяя одному графическому процессору обрабатывать более длинные контексты. В заключение, эта технология является мощным инструментом оптимизации с открытым исходным кодом, который решает проблему узких мест памяти графического процессора, минимизируя при этом снижение производительности.

https://www.scrya.com/rotorquant.pdf

https://github.com/scrya-com/rotorquant

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

RotorQuant — это конец TurboQuant? (Ускорение в 19 раз)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео