Запуск DeepSeek V4 Flash на Strix Halo: ds4, квантование, распределенный инференс и тесты
Автор: Donato Capitella
Загружено: 2026-06-15
Просмотров: 13526
Описание:
Обзор запуска DeepSeek V4 Flash локально на устройствах AMD Strix Halo, таких как Framework Desktop. Рассматривается использование выделенного механизма вывода ds4 (DwarfStar 4) и разработанного сообществом порта ROCm, обеспечивающего поддержку HIP для оборудования AMD.
Подробный анализ проблем, связанных с размещением больших весов в унифицированной памяти, и решение проблем точности 2-битного квантования с помощью калибровки imatrix (матрицы важности). Рассматриваются конфигурации для одноузловых систем с использованием Q2 и гибридных 4-битных слоев в пределах 128 ГБ памяти, а также многоузловые кластерные конфигурации для выполнения полного 4-битного квантования на двух системах Strix Halo.
Временные метки:
00:00 - Введение
01:37 - Первые опасения по поводу DS4
03:31 - Проект DS4
04:31 - Порт ROCm/Strix Halo
08:09 - Доступные квантизации
10:34 - Бенчмарки DS4
14:00 - SWE Bench Mini
18:08 - Настройка и вывод данных в DS4
25:24 - Многоузловой DS4
30:48 - Заключение
Ссылки и ресурсы:
Инструментарий и руководства Strix Halo: https://strix-halo-toolboxes.com
Репозиторий проекта ds4: https://github.com/antirez/ds4
Поддержите меня, купив мне кофе: https://buymeacoffee.com/dcapitella
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: