Обнаружение и обработка выбросов в науке о данных | Полное руководство для проектов машинного обу...
Автор: Binary Study
Загружено: 2025-10-19
Просмотров: 47
Описание:
Изучите обнаружение и обработку выбросов в науке о данных и машинном обучении!
В этом полном руководстве мы подробно рассмотрим выбросы: как выявлять, анализировать и обрабатывать выбросы в наборе данных — критически важный этап предварительной обработки данных перед построением любой модели машинного обучения.
Независимо от того, новичок вы или работаете над проектом машинного обучения, это видео познакомит вас с практическими методами эффективной обработки выбросов и повышения производительности вашей модели.
GitHub (Jupyter Notebook & Dataset):
https://github.com/binary-study/data-...
Временные метки:
00:00 Введение
01:42 Полное введение в выбросы?
06:55 Подготовка данных
08:20 Как обнаружить выбросы?
08:49 1.1 Графические методы — ящики с усами
11:06 1.2 Графические методы — гистограмма
14:10 1.3 Графические методы — диаграмма рассеяния (двумерные выбросы)
15:36 2. Статистические методы
17:56 2.1 Z-оценка (нормально распределенные данные)
27:47 2.2 Межквартильный размах (IQR) — асимметричные данные
34:47 3. Методы машинного обучения — изолирующий лес, DBSCAN или алгоритмы кластеризации
35:32 Как обрабатывать выбросы?
35:45 1. Удаление выбросов
42:30 2. Верхний/нижний предел (Winsorization)
52:55 3. Импутация
57:01 4. Преобразование данных
59:40 Заключение
Что вы узнаете:
Что такое выбросы в науке о данных?
Почему необходимо обрабатывать выбросы?
Когда выбросы важны?
Как обнаружить выбросы (Z-счёт, межквартильный размах (IQR), ящичная диаграмма (box plot), гистограмма, диаграмма рассеяния)
Как обрабатывать или удалять выбросы? (Удаление выбросов, ограничение/полное ограничение, винсоризация, импутация, преобразование данных)
Обнаружение и обработка выбросов в Python (с Pandas и NumPy)
Пример реального проекта МО: до и после обработки выбросов
Использованные инструменты и библиотеки:
-- Python
-- Pandas
-- NumPy
-- Matplotlib
-- Seaborn
Что такое выбросы?
Значения, отличные от большинства других значений. Например, в наборе данных о зарплатах сотрудников зарплата генерального директора, скорее всего, будет выбросом, но это допустимый и важный элемент данных.
Почему следует обрабатывать выбросы?
-- Искажение статистических показателей
-- Влияние на модели машинного обучения
-- Ошибочные выводы и решения
Когда выбросы важны?
-- Обнаружение аномалий. Например, в медицинских данных выброс может указывать на редкое заболевание или уникальный ответ на лечение.
-- Обнаружение мошенничества
-- Обнаружение сетевых вторжений
Как обнаружить выбросы?
-- Графические методы
-- Диаграмма ящиков (Boxplot)
-- Гистограмма
-- Диаграмма рассеяния (двумерные выбросы)
-- Статистические методы
-- Z-оценка (нормально распределенные данные)
-- Межквартильный размах (IQR) -- Перекошенные данные
-- Методы машинного обучения
-- Лес изоляции, DBSCAN или алгоритмы кластеризации
Как обрабатывать выбросы?
-- Удалить выбросы
-- Если они вызваны ошибками ввода данных или нерелевантными записями.
-- Использовать условия фильтрации.
-- Верхний предел/нижний предел (Winsorization)
-- Заменить экстремальные значения ближайшим пороговым значением.
-- Импутация
-- Заменить средним значением, медианой или прогнозом на основе модели. – Преобразование данных
– логарифмическое преобразование – log(x)
– преобразование квадратного корня – sqrt(x)
– обратное преобразование – (1/x)
– степенное преобразование – преобразование Бокса-Кокса
Python Data Science Видео:
• Exploratory Data Analysis (EDA) with Pytho...
• Data Cleaning with Python & Pandas | Compl...
• Python Virtual Environment: How to Create,...
• How to Install Python (3.13.0) on Windows ...
Плейлист:
• Data Science
• Python Tutorial for Beginners
• Image Processing
#python #выбросы #наукаоданных #машинноеобучение #MLпроекты #eda #обработка данных #препроцессинг данных
Повторяем попытку...

Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: