Küçük bir LLM'i oyun oynamaya nasıl eğittim? | TRL - GRPO

Автор: Heuristic AI

Загружено: 2026-02-01

Просмотров: 44

Описание: ZIP Game AI - GRPO ile Oyun Oynayan Yapay Zeka

Bu videoda, Qwen 2.5 modelini GRPO
ile eğiterek ZIP bulmaca oyununu oynamayı öğreten sistemi gösteriyorum.

🔧 Kullanılan Teknolojiler:
Qwen 2.5 0.5B Instruct (Base Model)
TRL GRPO Trainer (Reinforcement Learning)
LoRA Fine-tuning (Düşük VRAM kullanımı)
FastAPI Web UI (Görselleştirme)
.
Github Repo: https://github.com/AltanReisoglu/ZIP_...
Kaggle: https://www.kaggle.com/bahaaltanreisolu
Destek İçin: https://buymeacoffee.com/altanreisoglu
.
.
.
.
.
#AI #MachineLearning #ReinforcementLearning #GRPO #LLM #Python
#AI #DeepLearning #flowmatching #diffusion #autoregressive #claude #gpt #llama #gemini #veo3 #DeepSeek #MachineLearning #yapayzeka #ArtificialIntelligence #LLM #DataScience #NeuralNetworks #TechTrends

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Küçük bir LLM'i oyun oynamaya nasıl eğittim? | TRL - GRPO

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Cursor AI: полный гайд по вайб-кодингу (настройки, фишки, rules, MCP)

Cursor AI: полный гайд по вайб-кодингу (настройки, фишки, rules, MCP)

This Common Substance Was Once Worth Millions

This Common Substance Was Once Worth Millions

AWS Strands and Google ADK agents with MCP tools directly or via MCP Proxy #strands #adk #mcp

AWS Strands and Google ADK agents with MCP tools directly or via MCP Proxy #strands #adk #mcp

Veo3🔥 - Лучшая нейросеть для видео. Полный разбор

Veo3🔥 - Лучшая нейросеть для видео. Полный разбор

RadialBird Attention Mekanizması | radial+bigbird

RadialBird Attention Mekanizması | radial+bigbird

AI AGENTLARINI BİRBİRİNE NASIL BAĞLARSIN | AGENTSQUAD

AI AGENTLARINI BİRBİRİNE NASIL BAĞLARSIN | AGENTSQUAD

Вайбкодинг з AI: створюємо гру «Хрестики-нулики» на Python. Частина 1

Вайбкодинг з AI: створюємо гру «Хрестики-нулики» на Python. Частина 1

Qwen 3.5 Plus УНИЧТОЖАЕТ платные AI! Бесплатно + уровень Claude Opus

Qwen 3.5 Plus УНИЧТОЖАЕТ платные AI! Бесплатно + уровень Claude Opus

Türkiye Neden Boğaz Köprülerini Satmak İstiyor?

Türkiye Neden Boğaz Köprülerini Satmak İstiyor?

MİLYONER YARIŞMASINI DOLANDIRAN ADAM

MİLYONER YARIŞMASINI DOLANDIRAN ADAM

Kimi K2 Thinking Modelini İnceleme

Kimi K2 Thinking Modelini İnceleme

Dlaczego powrót z Marsa jest niemożliwy – ostrzeżenie Richarda Feynmana

Dlaczego powrót z Marsa jest niemożliwy – ostrzeżenie Richarda Feynmana

Nowości AI 2026: Jak AI Zmienia Twoją Pracę

Nowości AI 2026: Jak AI Zmienia Twoją Pracę

Wybucha Wojna Domowa w Rosji: FSB Zwraca się PRZECIW Generałom

Wybucha Wojna Domowa w Rosji: FSB Zwraca się PRZECIW Generałom

ИИ-агенты — кошмар для безопасности? Разбираемся с OpenClaw

ИИ-агенты — кошмар для безопасности? Разбираемся с OpenClaw

Çatlak | Full Yerli Dram Filmi | Hakan Salınmış, Hakan Emre Ünal, Giray Altınok, Tuğçe Yolcu

Çatlak | Full Yerli Dram Filmi | Hakan Salınmış, Hakan Emre Ünal, Giray Altınok, Tuğçe Yolcu

Лучший документальный фильм про создание ИИ

Лучший документальный фильм про создание ИИ

Я попробовал все нейросети для видео! Какую выбрать? МОЙ ТОП

Я попробовал все нейросети для видео! Какую выбрать? МОЙ ТОП

TAJEMNICA ANTARKTYDY 1955: Co Andropow kazał ukryć pod 3 km lodu? (Sekret ukrywany przez 70 lat)

TAJEMNICA ANTARKTYDY 1955: Co Andropow kazał ukryć pod 3 km lodu? (Sekret ukrywany przez 70 lat)

Taş Devri’nde Bir Mağara Adamı Olarak Yaşamak Nasıldı | Uyku Belgeseli

Taş Devri’nde Bir Mağara Adamı Olarak Yaşamak Nasıldı | Uyku Belgeseli