Пусть студенты магистратуры путешествуют: разработка сред обучения с подкреплением — Стефано Фиор...
Автор: AI Engineer
Загружено: 2026-04-07
Просмотров: 6093
Описание:
Модели рассуждений, такие как DeepSeek R1, продемонстрировали, что обучение на основе взаимодействия так же важно, как и обучение на примерах. Чтобы развить эти возможности самостоятельно, нам нужно выйти за рамки статических наборов данных и начать создавать среды обучения с подкреплением: небольшие миры, где модели могут действовать, получать вознаграждения и учиться.
В этом докладе я расскажу о своем пути изучения этой области с практической точки зрения разработки программного обеспечения.
Мы рассмотрим:
Как классические концепции обучения с подкреплением переносятся на языковые модели
Verifiers, библиотеку с открытым исходным кодом для создания сред в качестве программных артефактов
Конкретные примеры сред, от задач на один ход до многоходовых игр и агентов, использующих инструменты
Как использовать эти среды как для оценки, так и для обучения небольших языковых моделей.
Присоединяйтесь ко мне, чтобы узнать, как перейти от подсказок моделям к созданию сред, где они учатся.
Стефано Фиоруччи - инженер/исследователь в области ИИ/программного обеспечения, deepset
Стефано - инженер и исследователь в области ИИ/программного обеспечения.
В настоящее время он работает над оркестровкой ИИ в Deepset, где вносит свой вклад в разработку и поддержку Haystack, широко используемого фреймворка с открытым исходным кодом для создания приложений на основе языковых моделей.
Он увлекается экспериментами с небольшими языковыми моделями, постобучением и обучением с подкреплением, и делится своими знаниями посредством кода, статей и докладов.
Курс LLM RL Environments Lil Course: https://github.com/anakin87/llm-rl-en...
Социальные сети:
/ theanakin87
/ stefano-fiorucci
https://github.com/anakin87
https://huggingface.co/anakin87
Слайды:
https://drive.google.com/file/d/116PK...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: