🚕 Обработка 2.8 ГБ данных Нью-Йоркского такси в Apache Spark | Анализ и визуализация в Python
Автор: Alexey Voronin IT Channel
Загружено: 2025-11-11
Просмотров: 4
Описание:
В этом видео — небольшой практический обзор работы с Apache Spark на примере реальных данных нью-йоркского такси 🚖.
Мы загрузим более 2.8 ГБ parquet-файлов, проведём агрегации, фильтрацию, построим графики и посмотрим, как Spark использует GPU для ускорения вычислений.
🔹 Что в видео:
Подготовка и чтение parquet-файлов в Spark
Изучение структуры данных (Yellow Taxi NYC)
Агрегации и группировки (groupBy, agg)
Сравнение производительности
Конвертация данных в Pandas и построение графиков
Наблюдение за использованием GPU
💻 Технологии:
Apache Spark, Python, Pandas, Matplotlib, WSL (Linux под Windows)
📊 Подходит для:
Начинающих аналитиков данных, инженеров и всех, кто хочет понять, как Spark работает с большими объёмами данных локально.
#DataScience #ApacheSpark #BigData #Python #Pandas #NYCTaxi #Parquet #DataEngineering #GPUComputing #Analytics #MachineLearning #SparkTutorial #PythonProgramming #DataVisualization #SparkSession #SparkSQL #PySpark
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: