Обучение с подкреплением и тонкая настройка TPU | Подкаст The Agent Factory

Автор: Google Cloud Tech

Загружено: 2025-12-22

Просмотров: 1644

Описание: Благодаря тому, что Gemini 3 превосходит все ожидания, обучаясь и обслуживаясь исключительно на TPU, мы углубляемся в инфраструктуру, которая обеспечивает работу следующего поколения ИИ-агентов. В этом праздничном выпуске The Agent Factory мы выйдем за рамки шумихи и рассмотрим, как разработчики могут использовать TPU и обучение с подкреплением (RL) для создания специализированных, готовых к производству агентов в масштабе.

Присоединяйтесь к ведущим Ширу Меиру Ладору и Дону Маккасланду, а также специальному гостю Кайлу Меггсу, менеджеру по продуктам из команды Google TPU Training Team. Мы разберем «почему» и «как» тонкую настройку, критическую роль RL в выравнивании и безопасности модели, а также то, как архитектура TPU от Google обеспечивает непревзойденную эффективность для этих сложных рабочих нагрузок. Кроме того, не пропустите практическую демонстрацию MaxText 2.0, выполняющего задание GRPO на инфраструктуре TPU.

В этом эпизоде вы узнаете:
1️⃣ Основы тонкой настройки: Когда следует выбирать тонкую настройку вместо оперативной разработки (с акцентом на специализацию, конфиденциальность и стоимость).

2️⃣ Жизненный цикл модели: Четкое разграничение предварительного и последующего обучения (SFT и RL) с использованием аналогии Андрея Карпати с «учебником по химии».

3️⃣ Углубленный анализ обучения с подкреплением: Когда следует использовать RL? Какую дополнительную ценность оно приносит? Каковы последние достижения в этой области?

4️⃣ Преимущества TPU: Как модули TPU и межчиповое соединение (ICI) решают критические проблемы в крупномасштабной тонкой настройке.

5️⃣ Демонстрация RL на TPU: Технический обзор стека MaxText 2.0, работающего с обучением с подкреплением (GRPO) на TPU Google Cloud.

Разделы:
0:00 - Введение: Gemini 3 и появление TPU
3:13 - Зачем нужна тонкая настройка? Специализация и конфиденциальность
3:52 - Что такое тонкая настройка? (Объяснение SFT и RL)
5:50 - Что такое RL и зачем он нам нужен?

7:10 - Дополнительная ценность в обучении с подкреплением
8:33 - Путь отрасли: почему 2025 год - год обучения с подкреплением (DeepSeek-R1, Grok 4, Gemini 3)
10:46 - Проблемы обучения с подкреплением: инфраструктура, алгоритмы и оркестровка
12:52 - Производственный цех: как проектируются TPU для масштабируемости
15:53 - [Демонстрация] Обучение с подкреплением (GRPO) с MaxText 2.0 на TPU
21:46 - Масштабирование до 1000+ чипов и подведение итогов сезона

О The Agent Factory: «The Agent Factory» — это технический подкаст для разработчиков, созданный разработчиками, ориентированный на разработку готовых к производству ИИ-агентов. Мы изучаем, как проектировать, создавать, развертывать и управлять агентами, которые приносят реальную пользу.

🔗 Упомянутые ресурсы и ссылки:
➖ Документация после обучения → https://goo.gle/4sbBLAd
➖ Документация Google Cloud TPU (Ironwood) → https://goo.gle/3MMFOCY

🔗 Открытый исходный код Google Cloud:
➖ MaxText → https://goo.gle/4pcDQt4
➖ Рецепты для GPU → https://goo.gle/495tp4x
➖ Рецепты для TPU → https://goo.gle/4qgMF5U
➖ Андрей Карпати - Химическая аналогия → https://goo.gle/4pQcMAO
➖ Статья: "Small Language Models are the Future of Agentic AI" (Nvidia) → https://goo.gle/4qmLQIH
➖ Блог о тонкой настройке → https://goo.gle/4pR211n

🔔 Подпишитесь на Шир → https://goo.gle/49SAveB
🔔 Подпишитесь на Дона → https://goo.gle/3KKCrff
🔔 Подпишитесь на Кайла → https://goo.gle/4j7Mg3k

Присоединяйтесь к обсуждению в социальных сетях с хэштегом #TheAgentFactory.

Общайтесь с сообществом на форумах программы Google Developer Program. → https://goo.gle/4oP9bmb

Смотрите больше видео Agent Factory → • The Agent Factory

🔔 Подпишитесь на Google Cloud Tech → https://goo.gle/GoogleCloudTech

#TPU #ОбучениеСПодкреплением #ТонкаяНастройка

Спикеры: Шир Мейр Ладор, Кайл Меггс, Дон МакКасланд
Упомянутые продукты: TPU, Gemini 3, Maxtext

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Обучение с подкреплением и тонкая настройка TPU | Подкаст The Agent Factory

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Краткий обзор новой версии n8n 2.0 🚀

Краткий обзор новой версии n8n 2.0 🚀

Все ноды n8n: Summarization Chain. Часть 1. Методы саммаризации

Все ноды n8n: Summarization Chain. Часть 1. Методы саммаризации

ЭТИ законы изменят ВСЕ! / Что ждет КАЖДОГО уже с 1 января 2026?

ЭТИ законы изменят ВСЕ! / Что ждет КАЖДОГО уже с 1 января 2026?

Волна ликвидаций в России

Волна ликвидаций в России

NotebookLM тихо обновился. Как делать Инфографику, Презентации, Видеопересказ.

NotebookLM тихо обновился. Как делать Инфографику, Презентации, Видеопересказ.

Почему МАЛЕНЬКИЙ атом создает такой ОГРОМНЫЙ взрыв?

Почему МАЛЕНЬКИЙ атом создает такой ОГРОМНЫЙ взрыв?

Учебное пособие по программированию на Claude для начинающих.

Учебное пособие по программированию на Claude для начинающих.

ЭКОНОМИКА ВСЁ? Липсиц: Как спасти деньги, пока не поздно

ЭКОНОМИКА ВСЁ? Липсиц: Как спасти деньги, пока не поздно

How CATL’s Reinforced Sodium Battery is Insanely Cheap

How CATL’s Reinforced Sodium Battery is Insanely Cheap

Making spirits bright (and models smarter): Powering up with Gemini 3

Making spirits bright (and models smarter): Powering up with Gemini 3

Итоги 2025: Российская экономика - Russia TalkS02E04(Владислав Иноземцев)

Итоги 2025: Российская экономика - Russia TalkS02E04(Владислав Иноземцев)

Как стать круче 99% людей с помощью ИИ

Как стать круче 99% людей с помощью ИИ

8 НОВЫХ Бесплатных ИИ от Google! Gemini 3.0 и NotebookLM 2.0. Успей пока не стал ПЛАТНЫМ.

8 НОВЫХ Бесплатных ИИ от Google! Gemini 3.0 и NotebookLM 2.0. Успей пока не стал ПЛАТНЫМ.

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Обучение с подкреплением для агентов — Уилл Браун, исследователь машинного обучения в Morgan Stanley

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Claude Code: полный гайд по AI-кодингу (хаки, техники и секреты)

Декораторы Python — наглядное объяснение

Декораторы Python — наглядное объяснение

14 ГЛАВНЫХ НЕЙРОСЕТЕЙ 2025 ГОДА

14 ГЛАВНЫХ НЕЙРОСЕТЕЙ 2025 ГОДА

Как работает ChatGPT: объясняем нейросети просто

Как работает ChatGPT: объясняем нейросети просто