От GRPO к SAMPO: решение проблемы сбоя обучения в агентном обучении с подкреплением
Автор: Discover AI
Загружено: 2026-03-02
Просмотров: 1061
Описание:
Новый алгоритм постобработки для моделей ИИ, реализующий новый метод обучения с подкреплением (RL) на основе оптимизированной оптимизации политики (PO) для одного сложного агента LLM с многоходовой PO.
Все права принадлежат авторам:
ARLArena: Единая структура для стабильного
агентного обучения с подкреплением
Сяосюань Ван1,*, Хань Чжан1,*, Хайсинь Ван1,*, Идань Ши1,†, Руоян Ли1,†, Кайцяо Хань1,†, Ченьи Тонг2,
Хаоран Дэн1, Ренлян Сунь1, Александр Тейлор1, Яньцяо Чжу1, Джейсон Конг1, Ичжоу Сунь1, Вэй Ван1
из
1 Калифорнийского университета в Лос-Анджелесе,
2 Университета Висконсина в Мэдисоне
#airesearch
#aiexplained
#scienceexplained
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: