RotorQuant — это конец TurboQuant? (Ускорение в 19 раз)
Автор: Research Paper Review
Загружено: 2026-03-27
Просмотров: 3084
Описание:
Представляем RotorQuant — новую технологию для эффективного сжатия кэшей ключ-значение для крупномасштабных языковых моделей (LLM). Этот метод отличается максимальной вычислительной эффективностью за счет переработки существующего алгоритма TurboQuant от Google с использованием роторного метода, основанного на алгебре Клиффорда. RotorQuant уменьшает количество параметров в 44 раза, но обеспечивает в 10–31 раз более высокую скорость, чем раньше, в средах NVIDIA и Apple Silicon. Особенно в среде 3-битного сжатия он точно сохраняет точность модели и значительно сокращает использование памяти, позволяя одному графическому процессору обрабатывать более длинные контексты. В заключение, эта технология является мощным инструментом оптимизации с открытым исходным кодом, который решает проблему узких мест памяти графического процессора, минимизируя при этом снижение производительности.
https://www.scrya.com/rotorquant.pdf
https://github.com/scrya-com/rotorquant
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: