SmartData
SmartData — конференция по инженерии данных (Conference on Data Engineering).
Конференция для дата-инженеров и тех, кто работает с большими данными. Эксперты из различных компаний обсуждают техническую конкретику по всем темам — от отказоустойчивости до MLOps.
Ближайшая конференция — SmartData 2025, даты будут анонсированы позднее.
Подробнее — по ссылке ниже.
Основные темы:
— MMP СУБД и хранилища данных
— SMP и специализированные СУБД
— Архетектура дата-платформ
— Data Processing
— DataOps
— Database Internals
— Data Management
— Cloud Solutions
— Миграция с одних инструментов и хранилищ в другие
— Дата-инженерия не для дата-инженеров
Илья Кокорин, Илья Асадуллин — Оптимизации сериализатора ВКонтакте
Николай Ижиков — One More Way to Make Backup in Ignite
Бронислав Житников — NiFi. Пишем код для codeless-системы
Татьяна Дидова — Как мы тестировали 5 способов загрузки данных в Greenplum и что из этого вышло
Олег Кочергин — Snowplow: утерянное руководство
Данила Самошкин, Анастасия Коткова — Автогенерация синтетических данных, используя алгоритмы ML
Алексей Стыценко — Каждый байт на вес золота. Опыт построения DMP в рекламе Яндекса
Леонид Борчук — Как мы делаем облачный Greenplum
Никита Благодарный, Александра Чекмарева (Китченко) — CI/CD в большом on-premise Datalake-проекте
Анар Багиров — Как мы сократили TTM создания дашбордов
Открытие офлайн-части конференции SmartData 2024
Михаил Лукин, Андрей Дмитриев — Михаил Лукин, Андрей Дмитриев
Александр Казанский — Storage для lake
Владимир Озеров, Олег Кочергин — Закрытие конференции SmartData 2024
Алсу Нурутдинова, Алина Кочева — Как построить пайплайн RAG с использованием LLamaIndex
Игорь Шемаров — Проблемы обработки Excel-файлов в Apache NiFi и как их решать
Sri Vishnu Chanderraju — Assessing Data Pipeline Quality & Sanity with Data Angiograms
Дмитрий Ульянин — Эффективные сервисы ML Inference нейросетей в Яндекс рекламе
Интервью с Дмитрием Устюговым
Открытие конференции SmartData 2024
Милена Булкина — Оптимизация распределения партиций в задачах распределенной обработки данных
Анастасия Сашина — Debezium Engine: практическое руководство по использованию
Альтернативные варианты восприятия информации в будущем программирования
Алексей Завальский и Дмитрий Крылов — Dagster: оркестратор пайплайнов для небольшой команды
Александр Токарев — Пишем свой cluster manager для Apache Spark
Денис Лукьянов — Data Vault 2.0. Когда внедрять, проблемы применения при построении DWH на Greenplum
Тимофей Брунько — Schema Registry: Ultimate Guide
Роман Ананьев — Как мы Apache Kafka на Redpanda меняли
Сергей Жемжицкий — Data sketches — быстро, дешево и (почти) точно!
Игорь Балюк — Как мы строим систему распределенного трейсинга, в которой можно терять данные