Михаил Тихомиров. Ruadapt: адаптация мультиязычных LLM на русский язык
Автор: CodeFest Russia
Загружено: 2025-08-21
Просмотров: 203
Описание:
Тезисы
Современный opensource в сфере LLM предлагает большой перечень моделей, пригодных для использования на русском языке. Однако многие упускают из вида тот факт, что токенизация у большинства мультиязычных LLM на русском языке в полтора раза хуже, чем на английском, что приводит по сути к существенному снижению эффективности использования (инференса) и дообучения таких моделей на русском языке.
Проект Ruadapt направлен на разработку методологии адаптации мультиязычных LLM на русский язык со сменой токенизации на более подходящую, что приводит к ускорению генерации (в символах) до 30-100%. Помимо повышения эффективности, в фокусе исследования также способы повышения качества понимания русских текстов. На основе разработанной методологии были адаптированы на русский язык модели серии Qwen2.5 (RuadaptQwen2.5), которые занимают одни из лидирующих позиций в своих весовых категориях.
В докладе будет описана как сама методология и вызовы с которыми мы сталкиваемся, так и технические детали процесса адаптации.
Аудитория
Data-scientist, ml-engineer.
Уровень сложности
Middle.
Сайт – https://codefest.ru
Презентация – https://disk.yandex.ru/i/nger-hsCGi_fWQ
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: