#291

deep learning

natural language processing

llms

large language models

log likelihood

kl divergence

euclidean distance

model embeddings

model representations

weight interpolation

Автор: Data Science Gems

Загружено: 2025-11-26

Просмотров: 44

Описание: Для масштабного сравнения авторегрессионных языковых моделей можно вычислить векторы логарифмического правдоподобия на основе предопределенного набора текстов в качестве признаков модели. Этот подход имеет прочную теоретическую основу: при использовании их в качестве координат модели квадрат евклидова расстояния аппроксимирует дивергенцию Кульбака-Лейблера вероятностей генерации текста. Этот метод обладает высокой масштабируемостью, вычислительные затраты линейно растут как с количеством моделей, так и с количеством образцов текста, и прост в реализации, поскольку необходимые признаки определяются путем кросс-энтропийной потери. Применив этот метод к более чем 1000 языковых моделей, авторы построили «карту моделей», открывающую новый взгляд на анализ крупномасштабных моделей.

В этом видео я расскажу о следующем: Что является хорошим представлением признаков для языковой модели? Можно ли использовать эти вложения моделей для прогнозирования производительности? Как эти вложения моделей работают с моделями с интерполяцией весов?

Подробнее см. по ссылке https://arxiv.org/pdf/2502.16173

Ояма, Момосэ, Хироаки Ямагива, Юсукэ Такасэ и Хидэтоси Симодаира. «Картирование более 1000 языковых моделей с помощью логарифмического вектора правдоподобия». Препринт arXiv, arXiv:2502.16173 (2025).

Спасибо за просмотр!
LinkedIn: http://aka.ms/manishgupta
Домашняя страница: https://sites.google.com/view/manishg/

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео