#291
Автор: Data Science Gems
Загружено: 2025-11-26
Просмотров: 44
Описание:
Для масштабного сравнения авторегрессионных языковых моделей можно вычислить векторы логарифмического правдоподобия на основе предопределенного набора текстов в качестве признаков модели. Этот подход имеет прочную теоретическую основу: при использовании их в качестве координат модели квадрат евклидова расстояния аппроксимирует дивергенцию Кульбака-Лейблера вероятностей генерации текста. Этот метод обладает высокой масштабируемостью, вычислительные затраты линейно растут как с количеством моделей, так и с количеством образцов текста, и прост в реализации, поскольку необходимые признаки определяются путем кросс-энтропийной потери. Применив этот метод к более чем 1000 языковых моделей, авторы построили «карту моделей», открывающую новый взгляд на анализ крупномасштабных моделей.
В этом видео я расскажу о следующем: Что является хорошим представлением признаков для языковой модели? Можно ли использовать эти вложения моделей для прогнозирования производительности? Как эти вложения моделей работают с моделями с интерполяцией весов?
Подробнее см. по ссылке https://arxiv.org/pdf/2502.16173
Ояма, Момосэ, Хироаки Ямагива, Юсукэ Такасэ и Хидэтоси Симодаира. «Картирование более 1000 языковых моделей с помощью логарифмического вектора правдоподобия». Препринт arXiv, arXiv:2502.16173 (2025).
Спасибо за просмотр!
LinkedIn: http://aka.ms/manishgupta
Домашняя страница: https://sites.google.com/view/manishg/
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: