Why Deep Learning Works Even When It shouldn't

Автор: Puru Kathuria

Загружено: 2026-02-10

Просмотров: 35

Описание: Deep learning systems are full of flaws. They hallucinate, they lack true reasoning, they do not understand physics or causality, and they are not truth-seeking. And yet, they work remarkably well across vision, language, speech, and multimodal tasks. So the real question is: why does deep learning work at all?

In this video, we break down what deep learning actually is from first principles. Neural networks, whether transformers, CNNs, or RNNs, are fundamentally loss-minimizing systems. They optimize objective functions like cross-entropy or mean squared error to learn high-dimensional representations of data. They are not symbolic reasoners or physics-based models. They are probabilistic function approximators trained to match data distributions.

We explore how large-scale data, massive parameter counts, and enormous compute budgets interact through scaling laws to make these systems effective. The key insight is that the real world, and the internet that represents it, contains strong repeating structures and relatively low entropy. Deep learning works because it exploits these regularities at scale, not because it understands the world in a human or causal sense.

The video explains why representation learning, memorization at scale, and gradient-based optimization are sufficient to produce linguistic fluency and cross-domain generalization, even in the absence of true reasoning or physical understanding. We also discuss why hallucinations and lack of truth-seeking are not bugs, but expected outcomes of probabilistic optimization.

If you want a clear mental model of why brute-force deep learning succeeds, why scaling laws matter more than intelligence, and why these systems work despite their limitations, this video is for you.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Why Deep Learning Works Even When It shouldn't

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Learning AI Is a Waste of Time?

Learning AI Is a Waste of Time?

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Традиционное машинное обучение мертво — суровая правда 😔

Традиционное машинное обучение мертво — суровая правда 😔

Ian Goodfellow’s Definition of Deep Learning

Ian Goodfellow’s Definition of Deep Learning

LLMs are Stochastic Parrots | Why Do LLMs Hallucinate?

LLMs are Stochastic Parrots | Why Do LLMs Hallucinate?

Метод размерностей: читерский способ изучать физику!

Метод размерностей: читерский способ изучать физику!

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Почему мозг не начинает с нуля

Почему мозг не начинает с нуля

Google увольняет, Нейросеть для умерших, Суверенный европейский процессор | Как Там АйТи #86

Google увольняет, Нейросеть для умерших, Суверенный европейский процессор | Как Там АйТи #86

Образование двух Экваторов по эпюрам напряжения Мыслителей

Образование двух Экваторов по эпюрам напряжения Мыслителей

Почему рекомендации по техническим характеристикам печатных плат часто неверны.

Почему рекомендации по техническим характеристикам печатных плат часто неверны.

Как создаются степени магистра права?

Как создаются степени магистра права?

AI-врач: как алгоритмы меняют медицину — Ивар ft. Михаил Застрожин | Мыслить как ученый S02E07

AI-врач: как алгоритмы меняют медицину — Ивар ft. Михаил Застрожин | Мыслить как ученый S02E07

Почему скрывают пирамиды в Азии?

Почему скрывают пирамиды в Азии?

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

Новые функции NotebookLM просто невероятны.

Новые функции NotebookLM просто невероятны.

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

DATA SCIENCE РОАДМАП 2026 — С НУЛЯ ДО MIDDLE

DATA SCIENCE РОАДМАП 2026 — С НУЛЯ ДО MIDDLE

Введение в MCP | Протокол MCP - 01

Введение в MCP | Протокол MCP - 01

Объяснение Transformers: понимание модели, лежащей в основе GPT, BERT и T5

Объяснение Transformers: понимание модели, лежащей в основе GPT, BERT и T5