TunexRL - Reinforcement Learning for Reliable LLM Explanations using Tunix

Автор: Om Shree

Загружено: 2026-01-12

Просмотров: 17

Описание: This video presents my submission for the Google Tunix Hackathon, where I fine-tune Gemma-3-1B to produce explicit, judge-visible reasoning traces using Tunix, Google’s JAX-native post-training library.

The goal of this project is not to maximize benchmark accuracy, but to train a model that reliably explains its reasoning in a strict, reproducible format

The model is trained end-to-end using GRPO (Group Relative Policy Optimization) in a single Kaggle TPU session, with no inference-time post-processing or output repair. If the model produces invalid output, it is surfaced exactly as generated—matching judge evaluation behavior.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

TunexRL - Reinforcement Learning for Reliable LLM Explanations using Tunix

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Путин и лисий хвост. 2 млн потерь? Хуже может быть всегда. Трамп и Иран | Пастухов, Еловский

Путин и лисий хвост. 2 млн потерь? Хуже может быть всегда. Трамп и Иран | Пастухов, Еловский

Baron PO zdemolował państwowy koncern. KGHM na gigantycznej przecenie. Wszystko przez wojnę u Tuska

Baron PO zdemolował państwowy koncern. KGHM na gigantycznej przecenie. Wszystko przez wojnę u Tuska

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Google победил? Чего ждать от квантового чипа Willow | Первый отдел

Google победил? Чего ждать от квантового чипа Willow | Первый отдел

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Катастрофа возобновляемой энергии

Катастрофа возобновляемой энергии

Leetcode 1458 | Max Dot Product of Two Subsequences | Optimized Solution + Code

Leetcode 1458 | Max Dot Product of Two Subsequences | Optimized Solution + Code

15 ПРЕСТУПНО НЕДООЦЕНЕННЫХ ФАНТАСТИЧЕСКИХ ФИЛЬМОВ, которые НУЖНО УВИДЕТЬ! 2026

15 ПРЕСТУПНО НЕДООЦЕНЕННЫХ ФАНТАСТИЧЕСКИХ ФИЛЬМОВ, которые НУЖНО УВИДЕТЬ! 2026

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

Фридман Ошарашил Анализом Перелом Уже Произошёл Но Его Ещё Не Видят

Фридман Ошарашил Анализом Перелом Уже Произошёл Но Его Ещё Не Видят

КАК Япония Незаметно СТАЛА Мировой Станкостроительной ДЕРЖАВОЙ!

КАК Япония Незаметно СТАЛА Мировой Станкостроительной ДЕРЖАВОЙ!

Запуск нейросетей локально. Генерируем - ВСЁ

Запуск нейросетей локально. Генерируем - ВСЁ

ТРАМП ЛОМАЕТ ДОЛЛАР: Инструкция по выживанию в мире слабого доллара

ТРАМП ЛОМАЕТ ДОЛЛАР: Инструкция по выживанию в мире слабого доллара

Clawdbot to Moltbot to OpenClaw: The 72 Hours That Broke Everything (The Full Breakdown)

Clawdbot to Moltbot to OpenClaw: The 72 Hours That Broke Everything (The Full Breakdown)

СЕРЕБРО -37%. Кто нажал на кнопку и зачем.

СЕРЕБРО -37%. Кто нажал на кнопку и зачем.

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Новый курс обучения DeepSeek LLM - Гиперсоединения с ограничениями многообразия (mHC)

Новый курс обучения DeepSeek LLM - Гиперсоединения с ограничениями многообразия (mHC)

Китай играет решающую роль в снабжении армии РФ.

Китай играет решающую роль в снабжении армии РФ.

Написал нейросети для рисования | Как работает DeepDream?

Написал нейросети для рисования | Как работает DeepDream?

Брюс Ли был в спортзале, когда 136-килограммовый бодибилдер сказал ему: «Ты — одни кости» — спуст...

Брюс Ли был в спортзале, когда 136-килограммовый бодибилдер сказал ему: «Ты — одни кости» — спуст...