BIG Mistake in Adam | Adam vs AdamW

Автор: Build AI with Sandeep

Загружено: 2026-03-07

Просмотров: 32

Описание: In this video we clearly explain the difference between Adam optimizer and AdamW optimizer used in deep learning and machine learning.

Many people use Adam without understanding how weight decay and L2 regularization behave inside adaptive optimizers. This video explains:

• Why momentum uses mean of gradients
• Why RMSProp uses squared gradients
• What weight decay actually means
• How L2 regularization changes the gradient
• Why Adam mixes weight decay incorrectly
• How AdamW fixes the problem with decoupled weight decay

This topic is important for anyone working in:

Deep Learning
Machine Learning
Neural Networks
Transformers
PyTorch / TensorFlow models

Most modern models like BERT, GPT, and Vision Transformers use AdamW, so understanding this optimizer is essential.

If you are preparing for ML interviews, research, or building deep learning models, this explanation will help you understand optimizers more clearly.

#AI #MachineLearning #Transformers #LLMs #DeepLearning #ArtificialIntelligence #GPT #BERT #OpenAI #BuildAIwithSandeep #optimizers #adamw

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

BIG Mistake in Adam | Adam vs AdamW

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

Что такое жидкие нейросети? Liquid neural networks. Объяснение.

Что такое жидкие нейросети? Liquid neural networks. Объяснение.

Полный гайд по Claude: как выжать максимум из этой нейросети

Полный гайд по Claude: как выжать максимум из этой нейросети

The Untold Secrets of FFN in Transformers

The Untold Secrets of FFN in Transformers

AVERAGE (PART 2 ) FOR UPSC CSAT 2026

AVERAGE (PART 2 ) FOR UPSC CSAT 2026

AI агенты в 2026: всё что работает прямо сейчас (Claude Code, n8n, RAG, OpenClaw, Agent Teams)

AI агенты в 2026: всё что работает прямо сейчас (Claude Code, n8n, RAG, OpenClaw, Agent Teams)

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

1С: ИИ пишет весь код без человека: магия нейросетей

1С: ИИ пишет весь код без человека: магия нейросетей

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

Я сэкономил 1460 часов на обучении (NotebookLM + Gemini + Obsidian)

Я сэкономил 1460 часов на обучении (NotebookLM + Gemini + Obsidian)

thermodynamics

КАК УСТРОЕН TCP/IP?

КАК УСТРОЕН TCP/IP?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

Как Сделать Настольный ЭЛЕКТРОЭРОЗИОННЫЙ Станок?

ИИ знает кто ты.Хакер взломал 600 серверов через Claude. Сlaude и новые функции. GPT 5.4 | ИИ news#2

ИИ знает кто ты.Хакер взломал 600 серверов через Claude. Сlaude и новые функции. GPT 5.4 | ИИ news#2

Учёные СКОПИРОВАЛИ Реальный Мозг и он ЗАРАБОТАЛ сам по себе! Обучение Больше НЕ НУЖНО!

Учёные СКОПИРОВАЛИ Реальный Мозг и он ЗАРАБОТАЛ сам по себе! Обучение Больше НЕ НУЖНО!

Как Создавать ИИ-Агентов: Полное Руководство для Начинающих

Как Создавать ИИ-Агентов: Полное Руководство для Начинающих

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Я разобрал всю ИИ-экосистему Google — 7 ключевых инструментов

Забудьте про готовые VPN. ИИ-агент настроит вам личный за 10 минут!

Забудьте про готовые VPN. ИИ-агент настроит вам личный за 10 минут!

Глава Google DeepMind: мы вступаем в эру суверенного ИИ

Глава Google DeepMind: мы вступаем в эру суверенного ИИ