Why GPT Hits a Memory Wall

Автор: ML Guy

Загружено: 2026-02-01

Просмотров: 93

Описание: Large Language Models were never meant to read entire books, and yet today, they can.

So how do modern LLMs reason over tens or even hundreds of thousands of tokens without running out of memory?

In this video, we dive into Infini-Attention, the architectural shift that allows Transformers to scale beyond fixed context windows. You’ll see why traditional self-attention breaks down at long lengths, why KV Cache alone is not enough, and how modern models rethink attention as memory management rather than brute-force comparison.

We cover:

Why self-attention scales quadratically and hits a hard wall
The limits of KV Cache for very long sequences
How Infini-Attention treats context as a stream, not a matrix
Memory compression, summarization, and trainable memory slots
How models decide what to remember and what to forget
Why RoPE is essential for long-context generalization
How Infini-Attention enables book-length reasoning and persistent conversations

This is not a single trick or a magic formula. It’s a change in how attention itself is designed.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Why GPT Hits a Memory Wall

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Что НА САМОМ ДЕЛЕ скрывается внутри ИИ? Главная причина успеха нейросетей...

Что НА САМОМ ДЕЛЕ скрывается внутри ИИ? Главная причина успеха нейросетей...

What Are Large Language Models Like ChatGPT, Really?

What Are Large Language Models Like ChatGPT, Really?

The Core Building Block Behind GPT (Explained Visually)

The Core Building Block Behind GPT (Explained Visually)

NotebookLM на максималках. Как изучать всё быстрее чем 99% пользователей

NotebookLM на максималках. Как изучать всё быстрее чем 99% пользователей

DATA SCIENCE РОАДМАП 2026 — С НУЛЯ ДО MIDDLE

DATA SCIENCE РОАДМАП 2026 — С НУЛЯ ДО MIDDLE

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Дороничев: ИИ — пузырь, который скоро ЛОПНЕТ. Какие перемены ждут мир?

Если гравитация - не сила, а искривление, то как она вообще притягивает?

Если гравитация - не сила, а искривление, то как она вообще притягивает?

AI агенты в 2026: всё что работает прямо сейчас (Claude Code, n8n, RAG, OpenClaw, Agent Teams)

AI агенты в 2026: всё что работает прямо сейчас (Claude Code, n8n, RAG, OpenClaw, Agent Teams)

10 лет рисовал логотипы и вот что понял

10 лет рисовал логотипы и вот что понял

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

Полный гайд по Claude: как выжать максимум из этой нейросети

Полный гайд по Claude: как выжать максимум из этой нейросети

Лучший способ учить немецкие слова - Yomitan + Anki

Лучший способ учить немецкие слова - Yomitan + Anki

Так из чего же состоят электроны? Самые последние данные

Так из чего же состоят электроны? Самые последние данные

Что такое ИИ-АГЕНТЫ и как они работают?

Что такое ИИ-АГЕНТЫ и как они работают?

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Я проверила все нейросети Google и поделилась своим мнением (2026)

Я проверила все нейросети Google и поделилась своим мнением (2026)

YouTube → NotebookLM за 20 минут: Claude Code делает всё сам

YouTube → NotebookLM за 20 минут: Claude Code делает всё сам

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

ИИ-Агент OpenClaw

ИИ-Агент OpenClaw "атаковал" человека, COBOL всё, Кнопочные телефоны возвращаются | Как Там АйТи #88