Stanford CS336 - Языковые модели с нуля | Весенний курс 2025 | Лекция №3 - Гиперпараметры
Автор: ИИ борщ
Загружено: 2025-05-11
Просмотров: 319
Описание:
Оригинальный курс: • Stanford CS336 Language Modeling from Scra...
ОПИСАНИЕ:
Эта лекция представляет глубокий анализ архитектур трансформеров и процесса их обучения, охватывая ключевые компоненты, такие как нормализация слоев, функции активации и позиционные эмбеддинги. Рассматриваются общепринятые практики выбора гиперпараметров, включая размеры скрытых слоев, количество голов внимания и размеры словарей. Особое внимание уделяется методам повышения стабильности обучения больших языковых моделей и оптимизациям механизма внимания, таким как MQA/GQA и подходы для работы с длинными контекстами, с целью улучшения как производительности, так и эффективности моделей.
Затронуты самые актуальные темы - длинный контекст 10M токенов, Llama 4 и прочие.
ОТ УНИВЕРСИТЕТА:
Для получения дополнительной информации об онлайн-программах Стэнфорда по искусственному интеллекту посетите: https://stanford.io/ai
Чтобы узнать больше о том, как записаться на этот курс, посетите: https://www.youtube.com/redirect?even...
Чтобы ознакомиться с расписанием курсов и учебной программой, посетите: https://www.youtube.com/redirect?even...
Перси Лян
Доцент кафедры компьютерных наук
Директор Центра исследований Foundation Models (CRFM)
Тацунори Хасимото
Доцент кафедры Computer Science
Повторяем попытку...

Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: