PySpark Tutorial (Part 3): How to Deploy PySpark Pipelines to Google DataProc

Автор: Anton T. Ruberts

Загружено: 2024-01-12

Просмотров: 1869

Описание: After learning all the basics of PySpark, it's finally time to put it all together into one coherent pipeline. We can run this data and ML pipeline locally but what happens when you need to scale it past your personal computer capabilities? That's when the services like DataProc come in.

DataProc is a managed Spark service that helps you create clusters quickly, manage them easily, and gives you the flexibility to turn the on/off on demand.

This tutorial will show you how to put all the code from the previous parts (and some new code as well) into a PySpark pipeline, how UDFs can be used to extend Spark's functionalities, how hyper-parameter tuning can be performed with Hyperopt and PySpark, how to create GCP infrastructure for running PySpark code, and how PySpark jobs can be submitted to your DataProc Cluster.

Tutorial Part 1 - • PySpark Tutorial for Beginners: Step-by-St...
Tutorial Part 2 - • PySpark Tutorial for Beginners: Feature En...

GitHub Repository - https://github.com/aruberts/tutorials...
Dataset link - https://www.kaggle.com/datasets/agung...
DataProc Documentation - https://cloud.google.com/dataproc/doc...

0:00 - Introduction
0:26 - Project Setup
02:11 - PySpark Pipelien Overview
08:05 - Used Defined Functions
11:14 - UDF example
14:34 - Hyper-parameter tuning
20:16 - Google Cloud Storage and DataProc setup
27:44 - Submit jobs to DataProc
30:07 - Outro

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

PySpark Tutorial (Part 3): How to Deploy PySpark Pipelines to Google DataProc

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

PySpark Tutorial for Beginners: Feature Engineering and Machine Learning

PySpark Tutorial for Beginners: Feature Engineering and Machine Learning

PySpark Tutorial for Beginners: Step-by-Step Data Analysis Project

PySpark Tutorial for Beginners: Step-by-Step Data Analysis Project

MLFlow Tutorial Part 1: Experiment Tracking

MLFlow Tutorial Part 1: Experiment Tracking

Kubernetes — Простым Языком на Понятном Примере

Kubernetes — Простым Языком на Понятном Примере

Build an AI Agent with Gravix Layer (Part 3) – Specialist + Web Intelligence

Build an AI Agent with Gravix Layer (Part 3) – Specialist + Web Intelligence

Крах Jaguar: Как “повестка” в рекламе добила легенду британского автопрома

Крах Jaguar: Как “повестка” в рекламе добила легенду британского автопрома

MinIO УМЕР. Великая Миграция началась. Что делать DevOps?

MinIO УМЕР. Великая Миграция началась. Что делать DevOps?

Запуск заданий Apache Spark на бессерверном Dataproc

Запуск заданий Apache Spark на бессерверном Dataproc

The Good Life Radio • 24/7 Live Radio | Best Relax House, Chillout, Study, Running, Gym, Happy Music

The Good Life Radio • 24/7 Live Radio | Best Relax House, Chillout, Study, Running, Gym, Happy Music

КЛАССИЧЕСКАЯ МУЗЫКА ДЛЯ ВОССТАНОВЛЕНИЯ НЕРВНОЙ СИСТЕМЫ🌿 Нежная музыка успокаивает нервную систему 22

КЛАССИЧЕСКАЯ МУЗЫКА ДЛЯ ВОССТАНОВЛЕНИЯ НЕРВНОЙ СИСТЕМЫ🌿 Нежная музыка успокаивает нервную систему 22

🔀 Фронтендеры не знают Web API: OPFS, Web Crypto, Websocket, WebRTC, Locks, Workers, Cache API...

🔀 Фронтендеры не знают Web API: OPFS, Web Crypto, Websocket, WebRTC, Locks, Workers, Cache API...

Data Science Projects: How to Stand Out (Part 2)

Data Science Projects: How to Stand Out (Part 2)

«Вот теперь я задумался об эмиграции»: зачем Кремль заблокировал Roblox и как реагируют россияне

«Вот теперь я задумался об эмиграции»: зачем Кремль заблокировал Roblox и как реагируют россияне

ИСТЕРИКА ВОЕНКОРОВ. Z-ники в ярости из-за приезда Зеленского в Купянск. Требуют отставки Герасимова

ИСТЕРИКА ВОЕНКОРОВ. Z-ники в ярости из-за приезда Зеленского в Купянск. Требуют отставки Герасимова

AGI Достигнут! ChatGPT 5.2 Рвет ВСЕ Тесты! Внезапно OpenAI Выкатил Новую ИИ! Новая Qwen от Alibaba.

AGI Достигнут! ChatGPT 5.2 Рвет ВСЕ Тесты! Внезапно OpenAI Выкатил Новую ИИ! Новая Qwen от Alibaba.

Data Science Projects: How to Stand Out (Part 1)

Data Science Projects: How to Stand Out (Part 1)

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Музыка для работы за компьютером | Фоновая музыка для концентрации и продуктивности

Gemini 3: что ИМБА, а что ПРОВАЛ | 13 реальных тестов

Gemini 3: что ИМБА, а что ПРОВАЛ | 13 реальных тестов

Краткий обзор новой версии n8n 2.0 🚀

Краткий обзор новой версии n8n 2.0 🚀

Почему перекос данных может подорвать производительность вашего Spark

Почему перекос данных может подорвать производительность вашего Spark