Generative AI Model Data Pre-Training on Kubernetes: A Use Case S... Anish Asthana & Mohammad Nassar

Автор: The Linux Foundation

Загружено: 2025-07-02

Просмотров: 80

Описание: Don't miss out! Join us at the next Open Source Summit in Hyderabad, India (August 5); Amsterdam, Netherland (August 25-29); Seoul, South Korea (November 4-5). Join us at the premier vendor-neutral open source conference, where developers and technologists come together to collaborate, share knowledge, and explore the latest innovations and advancements in open source technology. Learn more at https://events.linuxfoundation.org/

Generative AI Model Data Pre-Training on Kubernetes: A Use Case Study - Anish Asthana, Red Hat & Mohammad Nassar, IBM

Large Language Models (LLM) require preprocessing vast amounts of data, a process that can span days due to its complexity and scale, often involving PetaBytes of data. This talk demonstrates how Kubeflow Pipelines (KFP) simplify LLM data processing with flexibility, repeatability, and scalability. These pipelines are being used daily at IBM Research to build indemnified LLMs tailored for enterprise applications.

Different data preparation toolkits are built on Kubernetes, Rust, Slurm, or Spark. How would you choose one for your own LLM experiments or enterprise use cases and why should you consider Kubernetes and KFP?

This talk describes how open source Data Prep Toolkit leverages KFP and KubeRay for scalable pipeline orchestration, e.g. deduplication, content classification, and tokenization.

We share challenges, lessons, and insights from our experience with KFP, highlighting its applicability for diverse LLM tasks, such as data preprocessing, RAG retrieval, and model fine-tuning.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Generative AI Model Data Pre-Training on Kubernetes: A Use Case S... Anish Asthana & Mohammad Nassar

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

Что такое стек ИИ? Магистратура LLM, RAG и аппаратное обеспечение ИИ

What’s New in Valkey - Madelyn Olson, Amazon & Ping Xie, Google

What’s New in Valkey - Madelyn Olson, Amazon & Ping Xie, Google

Why Pinecone — Resolve AI

Why Pinecone — Resolve AI

KubeRay: A Ray cluster management solution on Kubernetes

KubeRay: A Ray cluster management solution on Kubernetes

SkyPilot: Run AI on Any Cloud

SkyPilot: Run AI on Any Cloud

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

LLM fine-tuning или ОБУЧЕНИЕ малой модели? Мы проверили!

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Все стратегии RAG объясняются за 13 минут (без лишних слов)

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

Новое инженерное решение - неограниченный контекст и предсказуемые рассуждения - Recursive LM.

«Мы на дне уже»? Что ждет Россию в 2026 | Наталья Зубаревич о серьезных проблемах экономики и людей

«Мы на дне уже»? Что ждет Россию в 2026 | Наталья Зубаревич о серьезных проблемах экономики и людей

Почему 66% рабочих нагрузок ИИ теперь выполняются на Kubernetes: Сдвиг в инфраструктуре | Хилари ...

Почему 66% рабочих нагрузок ИИ теперь выполняются на Kubernetes: Сдвиг в инфраструктуре | Хилари ...

🚨 Пытаюсь пройти РЕАЛЬНЫЙ собес на Sr. Python / System design for Web Scrapper / Опять фиаско?

🚨 Пытаюсь пройти РЕАЛЬНЫЙ собес на Sr. Python / System design for Web Scrapper / Опять фиаско?

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

400 часов вайб-кодинга: всё, что нужно знать | Claude, GPT, агенты

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Kubernetes 1.35: Обновление подов на месте, собственная идентификация рабочих нагрузок и планиров...

Kubernetes 1.35: Обновление подов на месте, собственная идентификация рабочих нагрузок и планиров...

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

We still don't understand magnetism

We still don't understand magnetism

Интеграция Claude + Power BI 🧠 ОГРОМНЫЙ прорыв благодаря MCP 💥 (обновление за ноябрь 2025 г.)

Интеграция Claude + Power BI 🧠 ОГРОМНЫЙ прорыв благодаря MCP 💥 (обновление за ноябрь 2025 г.)

Управление поведением LLM без тонкой настройки

Управление поведением LLM без тонкой настройки

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Мы стоим на пороге нового конфликта! Что нас ждет дальше? Андрей Безруков про США, Россию и кризис

Мы стоим на пороге нового конфликта! Что нас ждет дальше? Андрей Безруков про США, Россию и кризис