Обучение с подкреплением и тонкая настройка TPU | Подкаст The Agent Factory
Автор: Google Cloud Tech
Загружено: 2025-12-22
Просмотров: 1644
Описание:
Благодаря тому, что Gemini 3 превосходит все ожидания, обучаясь и обслуживаясь исключительно на TPU, мы углубляемся в инфраструктуру, которая обеспечивает работу следующего поколения ИИ-агентов. В этом праздничном выпуске The Agent Factory мы выйдем за рамки шумихи и рассмотрим, как разработчики могут использовать TPU и обучение с подкреплением (RL) для создания специализированных, готовых к производству агентов в масштабе.
Присоединяйтесь к ведущим Ширу Меиру Ладору и Дону Маккасланду, а также специальному гостю Кайлу Меггсу, менеджеру по продуктам из команды Google TPU Training Team. Мы разберем «почему» и «как» тонкую настройку, критическую роль RL в выравнивании и безопасности модели, а также то, как архитектура TPU от Google обеспечивает непревзойденную эффективность для этих сложных рабочих нагрузок. Кроме того, не пропустите практическую демонстрацию MaxText 2.0, выполняющего задание GRPO на инфраструктуре TPU.
В этом эпизоде вы узнаете:
1️⃣ Основы тонкой настройки: Когда следует выбирать тонкую настройку вместо оперативной разработки (с акцентом на специализацию, конфиденциальность и стоимость).
2️⃣ Жизненный цикл модели: Четкое разграничение предварительного и последующего обучения (SFT и RL) с использованием аналогии Андрея Карпати с «учебником по химии».
3️⃣ Углубленный анализ обучения с подкреплением: Когда следует использовать RL? Какую дополнительную ценность оно приносит? Каковы последние достижения в этой области?
4️⃣ Преимущества TPU: Как модули TPU и межчиповое соединение (ICI) решают критические проблемы в крупномасштабной тонкой настройке.
5️⃣ Демонстрация RL на TPU: Технический обзор стека MaxText 2.0, работающего с обучением с подкреплением (GRPO) на TPU Google Cloud.
Разделы:
0:00 - Введение: Gemini 3 и появление TPU
3:13 - Зачем нужна тонкая настройка? Специализация и конфиденциальность
3:52 - Что такое тонкая настройка? (Объяснение SFT и RL)
5:50 - Что такое RL и зачем он нам нужен?
7:10 - Дополнительная ценность в обучении с подкреплением
8:33 - Путь отрасли: почему 2025 год - год обучения с подкреплением (DeepSeek-R1, Grok 4, Gemini 3)
10:46 - Проблемы обучения с подкреплением: инфраструктура, алгоритмы и оркестровка
12:52 - Производственный цех: как проектируются TPU для масштабируемости
15:53 - [Демонстрация] Обучение с подкреплением (GRPO) с MaxText 2.0 на TPU
21:46 - Масштабирование до 1000+ чипов и подведение итогов сезона
О The Agent Factory: «The Agent Factory» — это технический подкаст для разработчиков, созданный разработчиками, ориентированный на разработку готовых к производству ИИ-агентов. Мы изучаем, как проектировать, создавать, развертывать и управлять агентами, которые приносят реальную пользу.
🔗 Упомянутые ресурсы и ссылки:
➖ Документация после обучения → https://goo.gle/4sbBLAd
➖ Документация Google Cloud TPU (Ironwood) → https://goo.gle/3MMFOCY
🔗 Открытый исходный код Google Cloud:
➖ MaxText → https://goo.gle/4pcDQt4
➖ Рецепты для GPU → https://goo.gle/495tp4x
➖ Рецепты для TPU → https://goo.gle/4qgMF5U
➖ Андрей Карпати - Химическая аналогия → https://goo.gle/4pQcMAO
➖ Статья: "Small Language Models are the Future of Agentic AI" (Nvidia) → https://goo.gle/4qmLQIH
➖ Блог о тонкой настройке → https://goo.gle/4pR211n
🔔 Подпишитесь на Шир → https://goo.gle/49SAveB
🔔 Подпишитесь на Дона → https://goo.gle/3KKCrff
🔔 Подпишитесь на Кайла → https://goo.gle/4j7Mg3k
Присоединяйтесь к обсуждению в социальных сетях с хэштегом #TheAgentFactory.
Общайтесь с сообществом на форумах программы Google Developer Program. → https://goo.gle/4oP9bmb
Смотрите больше видео Agent Factory → • The Agent Factory
🔔 Подпишитесь на Google Cloud Tech → https://goo.gle/GoogleCloudTech
#TPU #ОбучениеСПодкреплением #ТонкаяНастройка
Спикеры: Шир Мейр Ладор, Кайл Меггс, Дон МакКасланд
Упомянутые продукты: TPU, Gemini 3, Maxtext
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: