ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Пусть студенты магистратуры путешествуют: разработка сред обучения с подкреплением — Стефано Фиор...

ai

ai engineer

ai engineering

software development

tech

startups

software architecture

machine learning

Автор: AI Engineer

Загружено: 2026-04-07

Просмотров: 6093

Описание: Модели рассуждений, такие как DeepSeek R1, продемонстрировали, что обучение на основе взаимодействия так же важно, как и обучение на примерах. Чтобы развить эти возможности самостоятельно, нам нужно выйти за рамки статических наборов данных и начать создавать среды обучения с подкреплением: небольшие миры, где модели могут действовать, получать вознаграждения и учиться.

В этом докладе я расскажу о своем пути изучения этой области с практической точки зрения разработки программного обеспечения.

Мы рассмотрим:
Как классические концепции обучения с подкреплением переносятся на языковые модели
Verifiers, библиотеку с открытым исходным кодом для создания сред в качестве программных артефактов
Конкретные примеры сред, от задач на один ход до многоходовых игр и агентов, использующих инструменты
Как использовать эти среды как для оценки, так и для обучения небольших языковых моделей.

Присоединяйтесь ко мне, чтобы узнать, как перейти от подсказок моделям к созданию сред, где они учатся.

Стефано Фиоруччи - инженер/исследователь в области ИИ/программного обеспечения, deepset

Стефано - инженер и исследователь в области ИИ/программного обеспечения.

В настоящее время он работает над оркестровкой ИИ в Deepset, где вносит свой вклад в разработку и поддержку Haystack, широко используемого фреймворка с открытым исходным кодом для создания приложений на основе языковых моделей.

Он увлекается экспериментами с небольшими языковыми моделями, постобучением и обучением с подкреплением, и делится своими знаниями посредством кода, статей и докладов.

Курс LLM RL Environments Lil Course: https://github.com/anakin87/llm-rl-en...

Социальные сети:
  / theanakin87  
  / stefano-fiorucci  
https://github.com/anakin87
https://huggingface.co/anakin87

Слайды:
https://drive.google.com/file/d/116PK...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Пусть студенты магистратуры путешествуют: разработка сред обучения с подкреплением — Стефано Фиор...

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]