Учебное пособие по PySpark: чтение CSV-файлов, фильтрация, группировка и сортировка (в отличие от...

Автор: itversity

Загружено: 2026-01-07

Просмотров: 20

Описание: Освойте основы PySpark! Узнайте, как работать с DataFrames в PySpark, от создания сессии Spark до фильтрации, группировки и сортировки данных. Это всеобъемлющее руководство по PySpark для начинающих сравнивает синтаксис PySpark с Pandas и Polars, помогая вам понять ключевые различия в библиотеках обработки данных Python.

В отличие от Pandas и Polars, PySpark имеет совершенно другой синтаксис, требующий настройки сессии Spark перед обработкой данных. Мы рассмотрим основные операции PySpark, используя один и тот же набор данных о продажах автомобилей, что позволит легко сравнить подходы всех трех библиотек.

Для получения заметок и материалов по теме «Pandas vs Polars vs PySpark» подпишитесь на нашу рассылку. Вот ссылка на статью: https://itversity.substack.com/p/whic....

Также вы можете найти материалы по теме "Pandas vs Polars vs PySpark" на Medium: https://medium.com/itversity/which-py...

Что вы узнаете:
✅ Импорт и создание объекта сессии Spark в Python
✅ Понимание уникальных требований к инициализации PySpark
✅ Чтение CSV-файлов с помощью session.read.csv() с правильной конфигурацией
✅ Правильная установка параметров header=True и inferSchema=True
✅ Понимание концепции infer schema и почему она важна в PySpark
✅ Использование .count() для получения количества записей и .show() для предварительного просмотра данных
✅ Фильтрация DataFrame PySpark с помощью функции .filter()
✅ Выбор определенных столбцов с помощью .select() метод
✅ Импорт и использование функций агрегирования PySpark (sum, count, round, col)
✅ Группировка и агрегирование данных с помощью .groupBy(), .agg()
✅ Применение псевдонимов столбцов для агрегированных результатов
✅ Сортировка данных с помощью .orderBy() или .sort() с .desc()
✅ Преобразование PySpark DataFrame в Pandas с помощью .toPandas()
✅ Правильное форматирование отображения в научной нотации

Основные функции PySpark:
SparkSession.builder - Создание сессии Spark
session.read.csv() - Чтение CSV с заголовком и inferSchema
.filter() - Фильтрация строк DataFrame
.select() - Выбор определенных столбцов
.groupBy() - Группировка данных (примечание: заглавная буква B)
.agg() - Функции агрегирования
sum(), count(), round() - Функции SQL PySpark
.alias() - Псевдонимы столбцов
.orderBy() / .sort() - Сортировка данных
col() и .desc() - Ссылка на столбец и убывающий порядок
.toPandas() - Преобразование в Pandas для лучшего форматирования

Ключевые отличия PySpark от Pandas:
Инициализация: PySpark требует создания сессии Spark; Pandas/Polars этого не требуют
Вывод схемы: В PySpark необходимо явно установить inferSchema=True
Обработка заголовка: В PySpark необходимо указать header=True
Именование функций: .groupBy() с заглавной буквой B против .groupby() в Pandas
Предварительный просмотр данных: .show() в PySpark против .head() в Pandas
Форматирование: Используйте .toPandas(), чтобы избежать научной нотации в PySpark

🔔 ПОДПИСЫВАЙТЕСЬ, чтобы получать уведомления о предстоящих сравнениях производительности и руководствах по проектированию данных!

Свяжитесь с нами:
Рассылка новостей: http://notifyme.itversity.com
LinkedIn:   / itversity
Facebook:   / itversity
Twitter:   / itversity
Instagram:   / itversity

Присоединяйтесь к этому каналу, чтобы получить доступ к бонусам:
   / @itversity

#PySpark #Python #Spark #DataEngineering #Pandas

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Учебное пособие по PySpark: чтение CSV-файлов, фильтрация, группировка и сортировка (в отличие от...

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Pandas, Polar и PySpark: комплексная система принятия решений.

Pandas, Polar и PySpark: комплексная система принятия решений.

ТОП Нейросети для таблиц. Полный гайд за 7 минут.

ТОП Нейросети для таблиц. Полный гайд за 7 минут.

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Твоя ПЕРВАЯ НЕЙРОСЕТЬ на Python с нуля! | За 10 минут :3

Твоя ПЕРВАЯ НЕЙРОСЕТЬ на Python с нуля! | За 10 минут :3

Comedy Club: Измена во сне | Демис Карибидис, Марина Кравец @ComedyClubRussia

Comedy Club: Измена во сне | Демис Карибидис, Марина Кравец @ComedyClubRussia

Python For Loops Explained Simply | range(), break, continue & Nested Loops

Python For Loops Explained Simply | range(), break, continue & Nested Loops

Полярные птицы против панд: в 10 раз быстрее! Обработка 12,9 млн записей за 1 секунду.

Полярные птицы против панд: в 10 раз быстрее! Обработка 12,9 млн записей за 1 секунду.

Tailwind — потрясающая программа. Но я всё-таки перейду на другую.

Tailwind — потрясающая программа. Но я всё-таки перейду на другую.

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Ночные пробуждения в 3–4 часа: как найти причину и вернуть глубокий сон.

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Уральские пельмени. Мир в котором нет алкоголя!

Уральские пельмени. Мир в котором нет алкоголя!

РЫСЬ В ДЕЛЕ... Рысь против волка, койота, змеи, оленя!

РЫСЬ В ДЕЛЕ... Рысь против волка, койота, змеи, оленя!

Фишки Excel, которые я использую КАЖДЫЙ ДЕНЬ! ЭТО нужно каждому

Фишки Excel, которые я использую КАЖДЫЙ ДЕНЬ! ЭТО нужно каждому

Изучите Apache Spark за 10 минут | Пошаговое руководство

Изучите Apache Spark за 10 минут | Пошаговое руководство

Мне 73. Я жалею, что понял это только сейчас.

Мне 73. Я жалею, что понял это только сейчас.

Рекламы с черным юмором. Сборник №1/Black humor commercials. Vol. 1

Рекламы с черным юмором. Сборник №1/Black humor commercials. Vol. 1

Обработка 120 CSV-файлов с помощью Pandas: 12,9 млн записей за 14 секунд.

Обработка 120 CSV-файлов с помощью Pandas: 12,9 млн записей за 14 секунд.

Гениальные строители другого уровня 🏗️🔥

Гениальные строители другого уровня 🏗️🔥

$12 Миллиардов, Но Бесплатно Для Всех. Что Скрывает GPS?

$12 Миллиардов, Но Бесплатно Для Всех. Что Скрывает GPS?

Самая холодная деревня в мире: Оймякон (-71°C)

Самая холодная деревня в мире: Оймякон (-71°C)