🚀 Как YouTube ускорил LLM-рекомендации в 800 раз? Разбор технологии STATIC

Автор: Aleksandr Kovyazin

Загружено: 2026-03-03

Просмотров: 6

Описание: В современном поиске и рекомендациях происходит смена парадигм: на смену обычному поиску по эмбеддингам приходит Generative Retrieval (Генеративное извлечение). В этой системе LLM напрямую генерирует Семантический ID (Semantic ID) целевого контента.
Но есть проблема: как заставить модель следовать бизнес-логике (например, рекомендовать только «свежие» видео или товары в наличии)?
Обычно для этого используют ограниченное декодирование (constrained decoding) с помощью префиксных деревьев (Tries). Но стандартные деревья работают крайне медленно на GPU и TPU из-за постоянных переходов по указателям (pointer chasing), что не дает эффективно использовать память.
Инженеры Google и YouTube предложили решение — STATIC (Sparse Transition Matrix-Accelerated Trie Index).
В чем суть прорыва?
Векторизация дерева: Исследователи превратили префиксное дерево в статичную матрицу в формате Compressed Sparse Row (CSR). Это позволило превратить хаотичный обход дерева в быстрые векторные операции с разреженными матрицами.
Архитектура без ветвлений: Алгоритм разработан так, чтобы исключить лишние обмены данными между хостом и ускорителем, делая процесс полностью «нативным» для оборудования.
Масштабируемость: Технология эффективно работает даже с огромными словарями — до 20 миллионов и более объектов.
Результаты впечатляют:
Скорость: STATIC в 837 раз быстрее реализации дерева на CPU и в 47–102 раза быстрее, чем другие методы на ускорителях.
Минимальная задержка: Накладные расходы составляют всего 0,13 мс на шаг декодирования.
Реальное применение: Технология уже развернута на платформе YouTube, обслуживающей миллиарды пользователей.
Решение проблемы «холодного старта»: Использование STATIC значительно улучшает рекомендации для новых объектов, которые модель еще не видела при обучении.
Эта работа — мост между классическими структурами данных и современными компиляторами глубокого обучения (XLA/Inductor), открывающий путь к сверхбыстрым генеративным рекомендациям в реальном времени.
🧬 Подробнее о коде и методах: Проект доступен в open-source: github.com/youtube/static-constrained-decoding.
#YouTubeEngineering #LLM #GenerativeRetrieval #MachineLearning #MachineLearningSystem #STATIC #googleresearch

Поддержка: https://boosty.to/krastykovyaz
создано с помощью NotebookLM

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

🚀 Как YouTube ускорил LLM-рекомендации в 800 раз? Разбор технологии STATIC

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Мир меняется прямо сейчас: почему США теряют власть?

Мир меняется прямо сейчас: почему США теряют власть?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Весь мир в труху.. Последствия атаки на Иран. Империя наносит ответный удар! || Дмитрий Потапенко*

Весь мир в труху.. Последствия атаки на Иран. Империя наносит ответный удар! || Дмитрий Потапенко*

ТОП-10 ФАНТАСТИЧЕСКИХ СЕРИАЛОВ, КОТОРЫЕ ЗАТЯГИВАЮТ С ПЕРВОЙ СЕРИИ

ТОП-10 ФАНТАСТИЧЕСКИХ СЕРИАЛОВ, КОТОРЫЕ ЗАТЯГИВАЮТ С ПЕРВОЙ СЕРИИ

NotebookLM в Изучении Иностранных Языков: Обзор Функций

NotebookLM в Изучении Иностранных Языков: Обзор Функций

Грозев — как выследили Хаменеи. США готовят восстание в Иране? В России вербуют подростков

Грозев — как выследили Хаменеи. США готовят восстание в Иране? В России вербуют подростков

Минфин НЕ БУДЕТ продавать валюту в марте!

Минфин НЕ БУДЕТ продавать валюту в марте!

Я сэкономил 1460 часов на обучении (NotebookLM + Gemini + Obsidian)

Я сэкономил 1460 часов на обучении (NotebookLM + Gemini + Obsidian)

NotebookLM: большой разбор инструмента (12 сценариев применения)

NotebookLM: большой разбор инструмента (12 сценариев применения)

Как создать Disney / Pixar мультфильм за 14 минут БЕСПЛАТНО в GROK и GOOGLE GEMINI безлимитно!

Как создать Disney / Pixar мультфильм за 14 минут БЕСПЛАТНО в GROK и GOOGLE GEMINI безлимитно!

Вопросы, которые можно задать женщине для интимной близости, чтобы не получить отказ. Уловка из

Вопросы, которые можно задать женщине для интимной близости, чтобы не получить отказ. Уловка из

Large-scale online deanonymization with LLMs

Large-scale online deanonymization with LLMs

YouTube → NotebookLM за 20 минут: Claude Code делает всё сам

YouTube → NotebookLM за 20 минут: Claude Code делает всё сам

Я проверила все нейросети Google и поделилась своим мнением (2026)

Я проверила все нейросети Google и поделилась своим мнением (2026)

Самый умный Google. NotebookLM: Новые функции. Музыка по картинке.

Самый умный Google. NotebookLM: Новые функции. Музыка по картинке.

Правительство готовит девальвацию рубля! Решение будет принято в течении пары недель

Правительство готовит девальвацию рубля! Решение будет принято в течении пары недель

ЦЕНА ОШИБКИ: 13 Инженерных Катастроф, Которые Потрясли Мир!

ЦЕНА ОШИБКИ: 13 Инженерных Катастроф, Которые Потрясли Мир!

Иран. Адская война вместо блицкрига

Иран. Адская война вместо блицкрига

21 неожиданный способ использовать Gemini в повседневной жизни

21 неожиданный способ использовать Gemini в повседневной жизни

"Потерь за 2 месяца больше, чем за предыдущие 2 года!" Россияне заныли из за неудач на фронте