Экономичная эксплуатация сверхбольших моделей: ASUS Ascent GX10 с возможностью подключения двух и...
Автор: 至顶AI实验室
Загружено: 2026-01-15
Просмотров: 114
Описание:
Можете ли вы представить себе запуск огромной модели с более чем 200 миллиардами параметров в собственной студии? Раньше это считалось несбыточной мечтой. Но с официальным запуском мини-суперкомпьютера ASUS на базе чипа NVIDIA GB10 эта «сумасшедшая» идея стала реальностью.
Эта машина, которую в шутку называют «чудом больших моделей», может похвастаться 128 ГБ общей памяти, из которых более 100 ГБ могут быть использованы в качестве выделенной видеопамяти. Ещё более впечатляет поддержка высокоскоростного соединения через порт ConnectX-7. NVIDIA DGX официально предоставляет инструкции по соединению двух машин, но мы поставили перед собой задачу соединить три машины — то есть, онлайн-инструкций не было, и нам пришлось самим разбираться со всеми сложностями.
Организация, проводившая обзор: ZDAI Lab
Дата тестирования: 13 января 2026 г.
Обзорный продукт: ASUS Ascent GX10
Основные характеристики: На базе NVIDIA Blackwell GB10, унифицированная внутренняя видеопамять: 128 ГБ, операционная система: DGX OS.
Тема обзора: ASUS GX10 с тройным подключением к сети
ASUS GX10: Персональная суперкомпьютерная система, созданная для больших моделей
ASUS GX10 — это миниатюрная персональная суперкомпьютерная система на базе чипа NVIDIA GB10. Основные особенности конфигурации:
128 ГБ общей памяти: более 100 ГБ могут быть гибко выделены в качестве видеопамяти.
Высокоскоростной порт ConnectX-7: поддерживает соединения QSFP, обеспечивая высокоскоростное подключение нескольких устройств.
Унифицированная архитектура пула памяти: после подключения нескольких устройств может быть сформирован больший пул видеопамяти.
Полная экосистема корпоративного уровня: Поддерживает основные решения для развертывания, такие как контейнеры Docker и управление кластерами Ray.
Эта конфигурация позволяет развертывать сверхбольшие модели, которые изначально были возможны только в центрах обработки данных, в персональных студиях.
Схема тестирования: Переход от двух к трем машинам
Взаимодействие двух машин: Следуя официальному руководству
Сначала мы провели тест взаимодействия двух машин в соответствии с официальным руководством NVIDIA. Весь процесс был относительно стандартизирован:
Аппаратное подключение: Соедините порты ConnectX-7 двух машин с помощью одного кабеля QSFP.
Настройка сети: Настройте IP-адреса для портов на обеих машинах, установите беспарольное SSH-соединение и проверьте сетевое соединение.
Развертывание программного обеспечения: Загрузите официальный скрипт запуска, загрузите образ Docker vLLM и настройте кластер Ray: одна машина в качестве головного узла, а другая — в качестве рабочего узла.
После успешного запуска команда `ray status` подтвердила наличие 2 доступных графических процессоров, а также увеличение объема объединенной памяти до более чем 200 ГБ. Соединение двух машин было успешно завершено.
Соединение трех машин: исследование неизведанной территории
Соединение трех машин стало настоящим вызовом. Не было официальных руководств, не было успешных примеров; все приходилось изучать с нуля.
Проектирование сетевой топологии: используется кольцевая схема.
Используются три кабеля QSFP.
A соединяется с B, B соединяется с C, а C соединяется с A, образуя кольцо.
Каждая машина настроена с IP-адресом, и настроена маршрутизация.
Проведено всестороннее тестирование сетевого соединения между тремя машинами.
Корректировка программной архитектуры:
Выбран образ vLLM версии 2.5.10 (отличный от конфигурации для двух машин).
Официальный скрипт был отброшен, и скрипт запуска был переписан для адаптации к сценарию с тремя машинами.
Принята кластерная архитектура из одного головного узла + двух рабочих узлов.
Оптимизация стратегии параллелизма:
В конфигурации с двумя машинами используется Tensor Parallel.
В конфигурации с тремя машинами используется Pipeline Parallel, который больше подходит для многоузловых сценариев.
После двух недель многократной отладки кластер из трех машин наконец успешно запустился. `ray status` показывает: 3 доступных GPU, общий пул памяти превышает 300 ГБ.
Тестирование производительности: как работают разные модели
Тестирование на двух машинах: сложность модели объемом 140 ГБ
Тестовая модель: Qwen2.5 72B (точность FP16)
Требования к памяти: приблизительно 140 ГБ, время загрузки: 8 минут, загрузка GPU: 96%
Метрики производительности:
TTFT (задержка первого токена): 1,39 секунды, TPS (скорость генерации): 2,75 токенов/секунду
Плотная модель FP16 показала удовлетворительные результаты. Для тестирования мы перешли к разреженной модели MoE с точностью FP8.
Тестовая модель: GLM-4.5 (106B параметров, точность FP8)
TPS: 18,3 токенов/секунду
Разреженная модель показала значительно лучшие результаты, что соответствует характеристикам архитектуры MoE.
Тестирование на трех машинах: более 300 ГБ видеопамяти
Тестовая модель: Qwen3.2 235B (квантование FP8)
Требования к видеопамяти: приблизительно 260 ГБ
Время загрузки: более 9 минут
Использование GPU: в среднем менее 60%
Показатели произво...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: