SmartData

Big Data

JUG.ru Group

SmartData — конференция по инженерии данных (Conference on Data Engineering).

Конференция для дата-инженеров и тех, кто работает с большими данными. Эксперты из различных компаний обсуждают техническую конкретику по всем темам — от отказоустойчивости до MLOps.

Ближайшая конференция — SmartData 2025, даты будут анонсированы позднее.
Подробнее — по ссылке ниже.

Основные темы:
— MMP СУБД и хранилища данных
— SMP и специализированные СУБД
— Архетектура дата-платформ
— Data Processing
— DataOps
— Database Internals
— Data Management
— Cloud Solutions
— Миграция с одних инструментов и хранилищ в другие
— Дата-инженерия не для дата-инженеров

Илья Кокорин, Илья Асадуллин — Оптимизации сериализатора ВКонтакте

Николай Ижиков — One More Way to Make Backup in Ignite

Бронислав Житников — NiFi. Пишем код для codeless-системы

Татьяна Дидова — Как мы тестировали 5 способов загрузки данных в Greenplum и что из этого вышло

Олег Кочергин — Snowplow: утерянное руководство

Данила Самошкин, Анастасия Коткова — Автогенерация синтетических данных, используя алгоритмы ML

Алексей Стыценко — Каждый байт на вес золота. Опыт построения DMP в рекламе Яндекса

Леонид Борчук — Как мы делаем облачный Greenplum

Никита Благодарный, Александра Чекмарева (Китченко) — CI/CD в большом on-premise Datalake-проекте

Анар Багиров — Как мы сократили TTM создания дашбордов

Открытие офлайн-части конференции SmartData 2024

Михаил Лукин, Андрей Дмитриев — Михаил Лукин, Андрей Дмитриев

Александр Казанский — Storage для lake

Владимир Озеров, Олег Кочергин — Закрытие конференции SmartData 2024

Алсу Нурутдинова, Алина Кочева — Как построить пайплайн RAG с использованием LLamaIndex

Игорь Шемаров — Проблемы обработки Excel-файлов в Apache NiFi и как их решать

Sri Vishnu Chanderraju — Assessing Data Pipeline Quality & Sanity with Data Angiograms

Дмитрий Ульянин — Эффективные сервисы ML Inference нейросетей в Яндекс рекламе

Интервью с Дмитрием Устюговым

Открытие конференции SmartData 2024

Милена Булкина — Оптимизация распределения партиций в задачах распределенной обработки данных

Анастасия Сашина — Debezium Engine: практическое руководство по использованию

Альтернативные варианты восприятия информации в будущем программирования

Алексей Завальский и Дмитрий Крылов — Dagster: оркестратор пайплайнов для небольшой команды

Александр Токарев — Пишем свой cluster manager для Apache Spark

Денис Лукьянов — Data Vault 2.0. Когда внедрять, проблемы применения при построении DWH на Greenplum

Тимофей Брунько — Schema Registry: Ultimate Guide

Роман Ананьев — Как мы Apache Kafka на Redpanda меняли

Сергей Жемжицкий — Data sketches — быстро, дешево и (почти) точно!

Игорь Балюк — Как мы строим систему распределенного трейсинга, в которой можно терять данные