ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Git Re-Basin @ DLCT

Автор: ML Collective

Загружено: 2022-10-24

Просмотров: 1176

Описание: This is a talk delivered at the (usually not recorded) weekly journal club "Deep Learning: Classics and Trends" (https://mlcollective.org/dlct/ ).

Speaker: Samuel Ainsworth

Title: Git Re-Basin: Merging Models modulo Permutation Symmetries

Abstract: The success of deep learning is due in large part to our ability to solve certain massive non-convex optimization problems with relative ease. Though non-convex optimization is NP-hard, simple algorithms -- often variants of stochastic gradient descent -- exhibit surprising effectiveness in fitting large neural networks in practice. We argue that neural network loss landscapes contain (nearly) a single basin after accounting for all possible permutation symmetries of hidden units a la Entezari et al. (2021). We introduce three algorithms to permute the units of one model to bring them into alignment with a reference model in order to merge the two models in weight space. This transformation produces a functionally equivalent set of weights that lie in an approximately convex basin near the reference model. Experimentally, we demonstrate the single basin phenomenon across a variety of model architectures and datasets, including the first (to our knowledge) demonstration of zero-barrier linear mode connectivity between independently trained ResNet models on CIFAR-10 and CIFAR-100. Additionally, we identify intriguing phenomena relating model width and training time to mode connectivity. Finally, we discuss shortcomings of the linear mode connectivity hypothesis, including a counterexample to the single basin theory.

Speaker bio: Samuel Ainsworth is a Senior Research Scientist at Cruise AI Research where he studies imitation learning, robustness, and efficiency. He completed his undergraduate in Computer Science and Applied Mathematics at Brown University and received his PhD from the School of Computer Science and Engineering at the University of Washington. His research interests span reinforcement learning, deep learning, programming languages, and drug discovery. He has previously worked on recommender systems, Bayesian optimization, and variational inference at organizations such as The New York Times and Google.

Paper link: https://arxiv.org/abs/2209.04836

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Git Re-Basin @ DLCT

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

OptFormer @ DLCT

OptFormer @ DLCT

DALL-E 2 (2/3) @ DLCT

DALL-E 2 (2/3) @ DLCT

Self-generated data @ DLCT

Self-generated data @ DLCT

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

ЛЕКЦИЯ ПРО НАДЁЖНЫЕ ШИФРЫ НА КОНФЕРЕНЦИИ БАЗОВЫХ ШКОЛ РАН В ТРОИЦКЕ

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Почему RAG терпит неудачу — как CLaRa устраняет свой главный недостаток

Multi-Agent RL @ DLCT

Multi-Agent RL @ DLCT

Рабочая музыка для глубокой концентрации и сверхэффективности

Рабочая музыка для глубокой концентрации и сверхэффективности

Компания Salesforce признала свою ошибку.

Компания Salesforce признала свою ошибку.

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

Conversation with Elon Musk | World Economic Forum Annual Meeting 2026

Conversation with Elon Musk | World Economic Forum Annual Meeting 2026

Как происходит модернизация остаточных соединений [mHC]

Как происходит модернизация остаточных соединений [mHC]

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Synthetic Data @ DLCT

Synthetic Data @ DLCT

Privacy in LLMs @ DLCT

Privacy in LLMs @ DLCT

Opencode – Самый Удобный ИИ-агент для кодинга и автоматизаций

Opencode – Самый Удобный ИИ-агент для кодинга и автоматизаций

ЗАНИМАТЕЛЬНАЯ ВЕРОЯТНОСТЬ. ЛЕКЦИЯ 21.11.2025 В РАМКАХ ЛЕКТОРИЯ ВДНХ

ЗАНИМАТЕЛЬНАЯ ВЕРОЯТНОСТЬ. ЛЕКЦИЯ 21.11.2025 В РАМКАХ ЛЕКТОРИЯ ВДНХ

Трамп идет на Гренландию: встречайте мир без правил! | США, Европа, Россия, Китай, Арктика

Трамп идет на Гренландию: встречайте мир без правил! | США, Европа, Россия, Китай, Арктика

Все, что вам нужно знать о теории управления

Все, что вам нужно знать о теории управления

Понимание GD&T

Понимание GD&T

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]