ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

On Surprising Effectiveness of Masking Updates in Adaptive Optimizers (Feb 2026)

Автор: AI Paper Slop

Загружено: 2026-02-21

Просмотров: 16

Описание: Title: On Surprising Effectiveness of Masking Updates in Adaptive Optimizers (Feb 2026)
Link: http://arxiv.org/abs/2602.15322v1
Date: February 2026

Summary:
This paper demonstrates that randomly masking parameter updates in adaptive optimizers can significantly improve LLM pre-training by inducing an implicit curvature-dependent geometric regularization. The authors introduce Magma (Momentum-aligned gradient masking), a drop-in wrapper that prioritizes updates based on momentum-gradient alignment. Magma yields substantial perplexity reductions and enhanced training stability across model scales, outperforming state-of-the-art optimizers like Adam and Muon while remaining robust to learning rate variations.

Key Topics:
LLM Pre-training
Adaptive Optimizers
Gradient Masking
Geometric Regularization
Optimization Stability
Magma Optimizer
Curvature Sharpness

Chapters:
00:00 - Introducing Magma Optimizer
01:24 - Testing Random Skip Updates
02:53 - Comparing Weight vs Momentum
04:23 - Filtering Gradient Noise
06:09 - Implementing Block-Wise Masking
07:45 - Explaining Geometric Regularization
09:18 - Managing Heavy-Tailed Noise
10:42 - Analyzing LLM Benchmarks
12:08 - Scaling Mixture of Experts
13:35 - Enhancing Learning Rate Robustness
15:13 - Maintaining Dense History Buffers
16:51 - Evaluating Future Training Efficiency

Stock video credits:
Silviu Din - https://www.pexels.com/@silviu-din-16...
José Alfredo Munguía Lira - https://www.pexels.com/@rectorretro
cottonbro studio - https://www.pexels.com/@cottonbro
Google DeepMind - https://www.pexels.com/@googledeepmind
Pressmaster - https://www.pexels.com/@pressmaster
Soumya - https://www.pexels.com/@soumya-1446957
Bedrijfsfilmspecialist.nl - https://www.pexels.com/@bedrijfsfilms...
Tom Fisk - https://www.pexels.com/@tomfisk
Mikhail Nilov - https://www.pexels.com/@mikhail-nilov
Charlie Mounsey - https://www.pexels.com/@charlie-mouns...
Stas Knop - https://www.pexels.com/@stasknop
Danil Shostak - https://www.pexels.com/@danil-shostak...
Dan Cristian Pădureț - https://www.pexels.com/@paduret
Oleg Gamulinskii - https://www.pexels.com/@oleg-gamulins...
StefWithAnF - https://www.pexels.com/@stefwithanf-1...
Ron Lach - https://www.pexels.com/@ron-lach
Trippy Lagoon - https://www.pexels.com/@trippy-lagoon...
Pachon in Motion - https://www.pexels.com/@pachon-in-mot...
Nino Souza - https://www.pexels.com/@ninosouza
Anete Lusina - https://www.pexels.com/@anete-lusina
Colors Motion Graphics - https://www.pexels.com/@colors-motion...
tunnel motions - https://www.pexels.com/@tunnelmotions
Colin Jones - https://www.pexels.com/@larchmedia
Pavel Danilyuk - https://www.pexels.com/@pavel-danilyuk
Yaroslav Shuraev - https://www.pexels.com/@yaroslav-shuraev
Kindel Media - https://www.pexels.com/@kindelmedia
olia danilevich - https://www.pexels.com/@olia-danilevich
fauxels - https://www.pexels.com/@fauxels
Tiger Lily - https://www.pexels.com/@tiger-lily
Ketut Subiyanto - https://www.pexels.com/@ketut-subiyanto
Adis Resic - https://www.pexels.com/@adis-resic-29...
@svetjekolem - https://www.pexels.com/@svetjekolem
crazy motions - https://www.pexels.com/@crazy-motions...
Pixabay - https://www.pexels.com/@pixabay
Caleb Oquendo - https://www.pexels.com/@caleboquendo

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers (Feb 2026)

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

jina-embeddings-v5-text: Task-Targeted Embedding Distillation (Feb 2026)

jina-embeddings-v5-text: Task-Targeted Embedding Distillation (Feb 2026)

Вот откуда в атоме столько энергии? Он же такой маленький

Вот откуда в атоме столько энергии? Он же такой маленький

Началось всё: ИИ буквально пытался совершить убийство, чтобы избежать отключения

Началось всё: ИИ буквально пытался совершить убийство, чтобы избежать отключения

Зачем нужна топология?

Зачем нужна топология?

Qwen 3.5 Plus УНИЧТОЖАЕТ платные AI! Бесплатно + уровень Claude Opus

Qwen 3.5 Plus УНИЧТОЖАЕТ платные AI! Бесплатно + уровень Claude Opus

Новая комбинация экспертных методов MoE: спектральное разложение в ортогональных подпространствах.

Новая комбинация экспертных методов MoE: спектральное разложение в ортогональных подпространствах.

2026 Homelab Upgrade - What I’m Running Now

2026 Homelab Upgrade - What I’m Running Now

Самый тихий Новый год в Китае — кризис населения глубже, чем признают?

Самый тихий Новый год в Китае — кризис населения глубже, чем признают?

Россия — ходячий ТРУП! Липсиц объяснил, почему страна ОБРЕЧЕНА! #липсиц

Россия — ходячий ТРУП! Липсиц объяснил, почему страна ОБРЕЧЕНА! #липсиц

Będziemy płacić za emerytury Ukraińców!

Będziemy płacić za emerytury Ukraińców!

Scaling Beyond Masked Diffusion Language Models (Feb 2026)

Scaling Beyond Masked Diffusion Language Models (Feb 2026)

😱 «Страйкер»: американский колесный бронетранспортер M1126 — что он из себя представляет

😱 «Страйкер»: американский колесный бронетранспортер M1126 — что он из себя представляет

Андрей Девятов. Про битву...

Андрей Девятов. Про битву...

Израиль предлагает Индии ракету «Золотой горизонт»

Израиль предлагает Индии ракету «Золотой горизонт»

Experiential Reinforcement Learning (Feb 2026)

Experiential Reinforcement Learning (Feb 2026)

Как Telegram захватил мир. ГЕНИАЛЬНЫЙ ПЛАН ДУРОВА | Взяли Связали

Как Telegram захватил мир. ГЕНИАЛЬНЫЙ ПЛАН ДУРОВА | Взяли Связали

Почему Искусственные Острова Дубая Никому не Нужны?

Почему Искусственные Острова Дубая Никому не Нужны?

Главное ИИ-интервью 2026 года в Давосе: Anthropic и DeepMind на одной сцене

Главное ИИ-интервью 2026 года в Давосе: Anthropic и DeepMind на одной сцене

ЭТИ ФИЛЬМЫ СЛОМАЛИ КНИГИ — ТОП-10 САМЫХ МОЩНЫХ ЭКРАНИЗАЦИЙ

ЭТИ ФИЛЬМЫ СЛОМАЛИ КНИГИ — ТОП-10 САМЫХ МОЩНЫХ ЭКРАНИЗАЦИЙ

Способ увидеть невидимое: как создаются суперлинзы из оптических метаматериалов?

Способ увидеть невидимое: как создаются суперлинзы из оптических метаматериалов?

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]