ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

Eng & Kwon - Scaling data workloads using the best of both worlds: pandas and Spark

Автор: PyData

Загружено: 2023-06-20

Просмотров: 695

Описание: www.pydata.org

It is indisputable that pandas is oftentimes the keystone element in any data wrangling and analysis workloads. However, the challenge is that pandas is not meant for big data processing. This presents data practitioners a dilemma: should we downsample data and lose information? Or should we explore a distributed processing framework to scale out data workloads? An example of a mainstream distributed processing tool is Apache Spark. However, this means data practitioners now have to learn a new language, PySpark. Not all is bleak though: pandas API on Spark provides pandas equivalent APIs in PySpark. It allows pandas users to transition from single-node to distributed environment, by just simply swapping the pandas package with pyspark.pandas.

On the other hand, existing PySpark users may wish to write their own custom user-defined functions (UDFs) that are not included in existing PySpark API. Pandas Function APIs, newly included in Spark 3.0+, allow users to apply arbitrary Python native functions, with pandas instances as the input and output against a PySpark dataframe. For instance, data scientists could use pandas function API to train a ML model based on each group of data using a single line of code.

Co-presented by both a top open-source Apache Spark commiter and a hands-on data science consultant, this talk equips data analysts and scientists with the knowledge of scaling their data analysis workloads with implementation details and best practice guidance. Working knowledge of pandas, basic Spark, and machine learning is helpful.

PyData is an educational program of NumFOCUS, a 501(c)3 non-profit organization in the United States. PyData provides a forum for the international community of users and developers of data analysis tools to share ideas and learn from each other. The global PyData network promotes discussion of best practices, new approaches, and emerging technologies for data management, processing, analytics, and visualization. PyData communities approach data science using many languages, including (but not limited to) Python, Julia, and R.

PyData conferences aim to be accessible and community-driven, with novice to advanced level presentations. PyData tutorials and talks bring attendees the latest project features along with cutting-edge use cases.

00:00 Welcome!
00:10 Help us add time stamps or captions to this video! See the description for details.

Want to help add timestamps to our YouTube videos to help with discoverability? Find out more here: https://github.com/numfocus/YouTubeVi...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
Eng & Kwon - Scaling data workloads using the best of both worlds: pandas and Spark

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Betchel & Kiraly - a workbench for creating scikit-learn like parametric objects and libraries

Betchel & Kiraly - a workbench for creating scikit-learn like parametric objects and libraries

Eugene Ciurana - Particle Swarm Classification for Next-Gen Recommendation Engines

Eugene Ciurana - Particle Swarm Classification for Next-Gen Recommendation Engines

Keynote Lisa Amini-What’s Next in AI for Data and Data Management--Pydata Global 2025

Keynote Lisa Amini-What’s Next in AI for Data and Data Management--Pydata Global 2025

Keynote Speaker-IIsabel Zimmerman-PyData Global 2025

Keynote Speaker-IIsabel Zimmerman-PyData Global 2025

Автоматизированное извлечение и отбор признаков для сложных задач прогнозирования временных рядов.

Автоматизированное извлечение и отбор признаков для сложных задач прогнозирования временных рядов.

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

Для Чего РЕАЛЬНО Нужен был ГОРБ Boeing 747?

PyData Seattle 2023

PyData Seattle 2023

Катастрофа возобновляемой энергии

Катастрофа возобновляемой энергии

15 ПРЕСТУПНО НЕДООЦЕНЕННЫХ ФАНТАСТИЧЕСКИХ ФИЛЬМОВ,  которые НУЖНО УВИДЕТЬ! 2026

15 ПРЕСТУПНО НЕДООЦЕНЕННЫХ ФАНТАСТИЧЕСКИХ ФИЛЬМОВ, которые НУЖНО УВИДЕТЬ! 2026

ПОЛНЫЙ РАЗБОР URL: Пагинация, версионирование API, фильтрация, сортировка и другие возможности

ПОЛНЫЙ РАЗБОР URL: Пагинация, версионирование API, фильтрация, сортировка и другие возможности

Брюс Ли был в спортзале, когда 136-килограммовый бодибилдер сказал ему: «Ты — одни кости» — спуст...

Брюс Ли был в спортзале, когда 136-килограммовый бодибилдер сказал ему: «Ты — одни кости» — спуст...

OpenAI just dropped their Cursor killer

OpenAI just dropped their Cursor killer

Clawdbot to Moltbot to OpenClaw: The 72 Hours That Broke Everything (The Full Breakdown)

Clawdbot to Moltbot to OpenClaw: The 72 Hours That Broke Everything (The Full Breakdown)

Почему 100 лет в электропоездах применяли не самый лучший двигатель? #энерголикбез

Почему 100 лет в электропоездах применяли не самый лучший двигатель? #энерголикбез

Экспресс-курс RAG для начинающих

Экспресс-курс RAG для начинающих

Грозев шокировал заявлением: что на самом деле происходит внутри Кремля из-за войны

Грозев шокировал заявлением: что на самом деле происходит внутри Кремля из-за войны

🧑‍🦽 ВРЕМЯ ТРУДНЫХ УСТУПОК: УКРАИНА ИСКАЛЕЧЕНА! Перемирию конец. Рейды против уклонистов - Арестович

🧑‍🦽 ВРЕМЯ ТРУДНЫХ УСТУПОК: УКРАИНА ИСКАЛЕЧЕНА! Перемирию конец. Рейды против уклонистов - Арестович

Holden Karau: A brief introduction to Distributed Computing with PySpark

Holden Karau: A brief introduction to Distributed Computing with PySpark

Арестович & Шелест: День 1440. Дневник войны. Сбор для военных👇

Арестович & Шелест: День 1440. Дневник войны. Сбор для военных👇

СЕРЕБРО -37%. Кто нажал на кнопку и зачем.

СЕРЕБРО -37%. Кто нажал на кнопку и зачем.

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]