Talk on "What Kinds of Functions Do Neural Networks Learn? Low-Norm vs. Flat Solutions"

Автор: SysConTalks

Загружено: 2026-02-19

Просмотров: 40

Описание: This talk investigates the fundamental differences between low-norm and flat solutions of shallow ReLU networks training problems, particularly in high-dimensional settings. We sharply characterize the regularity of the functions learned by neural networks in these two regimes. This enables us to show that global minima with small weight norms exhibit strong generalization guarantees that are dimension-independent. In contrast, local minima that are "flat" can generalize poorly as the input dimension increases. We attribute this gap to a phenomenon we call neural shattering, where neurons specialize to extremely sparse input regions, resulting in activations that are nearly disjoint across data points. This forces the network to rely on large weight magnitudes, leading to poor generalization. Our analysis establishes an exponential separation between flat and low-norm minima. In particular, while flatness does imply some degree of generalization, we show that the corresponding convergence rates necessarily deteriorate exponentially with input dimension. These findings suggest that flatness alone does not fully explain the generalization performance of neural networks.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Talk on "What Kinds of Functions Do Neural Networks Learn? Low-Norm vs. Flat Solutions"

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

Как LLM могут хранить факты | Глава 7, Глубокое обучение

SMDS-based Rigid Body Localization

SMDS-based Rigid Body Localization

Neural networks

Neural networks

Talk on "Differentiable World Models for Physical AI"

Chat uses Windows 10

Chat uses Windows 10

Ад на Ближнем Востоке

Ад на Ближнем Востоке

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Фильм Алексея Семихатова «ГРАВИТАЦИЯ»

Мартин Армстронг: Как Европа сама себя погубила и что будет дальше

Мартин Армстронг: Как Европа сама себя погубила и что будет дальше

Как дзета-функция Римана кодирует простые числа

Как дзета-функция Римана кодирует простые числа

✝️ Sacred Devotional Chapel Chant | Catholic Gregorian Prayer for Peace & Sleep 🕯️

✝️ Sacred Devotional Chapel Chant | Catholic Gregorian Prayer for Peace & Sleep 🕯️

Что происходит с нейросетью во время обучения?

Что происходит с нейросетью во время обучения?

После “Эпической ярости” Трампа Кремль вспомнил о международном праве /№1102/ Юрий Швец

После “Эпической ярости” Трампа Кремль вспомнил о международном праве /№1102/ Юрий Швец

Циркон. Что не сходится в версиях о перехватах над Украиной? История гиперзвуковой ракеты.

Циркон. Что не сходится в версиях о перехватах над Украиной? История гиперзвуковой ракеты.

Четыре года СВО: Почему так медленно? | Александр Казаков

Четыре года СВО: Почему так медленно? | Александр Казаков

Choose the Right C++ Parallelism Tool | Low-Level vs Async vs Coroutines vs Data Parallel

Choose the Right C++ Parallelism Tool | Low-Level vs Async vs Coroutines vs Data Parallel

Иноземцев: Москва под Пекином: как война изменила баланс сил в пользу Китая. Крах импортозамещения

Иноземцев: Москва под Пекином: как война изменила баланс сил в пользу Китая. Крах импортозамещения

Впечатления от Samsung Galaxy S26/Ultra: Больше смартфона, больше денег!

Впечатления от Samsung Galaxy S26/Ultra: Больше смартфона, больше денег!

Coding Station | Dark Subway Cyberpunk Programming Music

Coding Station | Dark Subway Cyberpunk Programming Music

Геополитика моральности: куда катится этот мир.

Геополитика моральности: куда катится этот мир.