Проблемы и решения в области аппаратного обеспечения для вывода ИИ.
Автор: AI Application (paper summaries or stories)
Загружено: 2026-03-14
Просмотров: 3
Описание:
«Пионер RISC Дэвид Паттерсон развеивает ажиотаж вокруг чипов для ИИ: для вывода больших языковых моделей требуется другое оборудование»
Лауреат премии Тьюринга 2017 года и «отец RISC» Дэвид Паттерсон в соавторстве с инженером Google DeepMind Ма Сяоюй опубликовал провокационную статью, в которой утверждается, что современная индустрия чипов для ИИ движется в неправильном направлении. Статья, опубликованная в журнале IEEE Computer, содержит четкий вывод: сегодняшний подход, в котором доминируют графические процессоры — с большим количеством вычислительных ресурсов, обилием памяти HBM и оптимизированными по пропускной способности межсоединениями — принципиально не соответствует реальным потребностям вывода больших языковых моделей.
Кризис, как утверждает Паттерсон, носит экономический характер. Несмотря на то, что технологические гиганты планируют инвестировать 600 миллиардов долларов в ИИ к 2026 году, затраты на вывод данных съедают прибыль. Основная причина кроется в двухфазной природе вывода LLM: хотя этап предварительного заполнения требует больших вычислительных ресурсов и хорошо подходит для графических процессоров, этап авторегрессивного декодирования ограничен пропускной способностью памяти, что приводит к значительному недоиспользованию мощных чипов.
Ситуацию усугубляют такие новые тенденции, как архитектуры типа «смесь экспертов» (671 байт параметров DeepSeek V3), модели рассуждений с длинными «токенами мышления» и многомодальное расширение, которые усиливают требования к памяти и коммуникациям.
Паттерсон выделяет два фундаментальных барьера: барьер памяти (вычислительные ресурсы превосходят пропускную способность памяти в 80–17 раз с 2012 года) и барьер задержки (требования к выводу в реальном времени страдают, поскольку стоимость HBM выросла на 35%, в то время как стоимость традиционной DRAM снизилась вдвое).
В статье предлагаются четыре альтернативных направления исследований: высокоскоростная флэш-память (многослойная флэш-память, обеспечивающая в 10 раз большую емкость HBM), обработка данных вблизи памяти (перемещение вычислительных ресурсов ближе к памяти без сложностей обработки данных в памяти), трехмерное многослойное размещение вычислительной и логической схем (вертикальные соединения для более широких и плотных интерфейсов памяти) и межсоединения с низкой задержкой, в которых приоритет отдается быстродействию, а не чистой пропускной способности.
Паттерсон также сетует на разрыв между академической средой и промышленностью — вклад в конференции промышленности резко упал с 40% в 1976 году до менее 4% сегодня — и призывает исследователей обратить внимание на вывод LLM как на перспективную цель. Поскольку глобальный дефицит DRAM сохраняется до 2027 года, эти альтернативы не просто теоретические; они становятся практической необходимостью.
https://arxiv.org/pdf/2601.05047
https://techcrunch.com/2026/02/28/bil...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: