SageAttention3: Высокоскоростной FP4 и 8-битное низкобитное внимание
Автор: AI Paper Review
Загружено: 2025-12-29
Просмотров: 108
Описание:
Представляем системы SageAttention3 и SageBwd, разработанные для максимальной эффективности моделей генерации видео и изображений. Авторы первыми в отрасли предложили технологию низкомасштабного квантования FP4 для ускорения вывода и внедрили двухэтапную технику масштабирования, специально разработанную для предотвращения потери точности. Кроме того, мы разработали 8-битную переменную структуру внимания для повышения эффективности процесса обучения, что значительно улучшило скорость вычислений при обучении крупномасштабных моделей. Согласно результатам эксперимента, качество продукта осталось практически неизменным, при этом скорость записи ядра увеличилась в 3-5 раз по сравнению с традиционным методом в среде RTX5090. В результате эта технология раскрывает потенциал высокопроизводительного оборудования и предоставляет ключевое решение, обеспечивающее рассуждения в реальном времени и эффективное обучение искусственного интеллекта следующего поколения.
https://arxiv.org/pdf/2505.11594
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: