🚀 Как YouTube ускорил LLM-рекомендации в 800 раз? Разбор технологии STATIC
Автор: Aleksandr Kovyazin
Загружено: 2026-03-03
Просмотров: 6
Описание:
В современном поиске и рекомендациях происходит смена парадигм: на смену обычному поиску по эмбеддингам приходит Generative Retrieval (Генеративное извлечение). В этой системе LLM напрямую генерирует Семантический ID (Semantic ID) целевого контента.
Но есть проблема: как заставить модель следовать бизнес-логике (например, рекомендовать только «свежие» видео или товары в наличии)?
Обычно для этого используют ограниченное декодирование (constrained decoding) с помощью префиксных деревьев (Tries). Но стандартные деревья работают крайне медленно на GPU и TPU из-за постоянных переходов по указателям (pointer chasing), что не дает эффективно использовать память.
Инженеры Google и YouTube предложили решение — STATIC (Sparse Transition Matrix-Accelerated Trie Index).
В чем суть прорыва?
Векторизация дерева: Исследователи превратили префиксное дерево в статичную матрицу в формате Compressed Sparse Row (CSR). Это позволило превратить хаотичный обход дерева в быстрые векторные операции с разреженными матрицами.
Архитектура без ветвлений: Алгоритм разработан так, чтобы исключить лишние обмены данными между хостом и ускорителем, делая процесс полностью «нативным» для оборудования.
Масштабируемость: Технология эффективно работает даже с огромными словарями — до 20 миллионов и более объектов.
Результаты впечатляют:
Скорость: STATIC в 837 раз быстрее реализации дерева на CPU и в 47–102 раза быстрее, чем другие методы на ускорителях.
Минимальная задержка: Накладные расходы составляют всего 0,13 мс на шаг декодирования.
Реальное применение: Технология уже развернута на платформе YouTube, обслуживающей миллиарды пользователей.
Решение проблемы «холодного старта»: Использование STATIC значительно улучшает рекомендации для новых объектов, которые модель еще не видела при обучении.
Эта работа — мост между классическими структурами данных и современными компиляторами глубокого обучения (XLA/Inductor), открывающий путь к сверхбыстрым генеративным рекомендациям в реальном времени.
🧬 Подробнее о коде и методах: Проект доступен в open-source: github.com/youtube/static-constrained-decoding.
#YouTubeEngineering #LLM #GenerativeRetrieval #MachineLearning #MachineLearningSystem #STATIC #googleresearch
Поддержка: https://boosty.to/krastykovyaz
создано с помощью NotebookLM
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: