System design - проектируем web crawler
Автор: Распределенные системы и system design
Загружено: 2026-02-27
Просмотров: 511
Описание:
Проектирую web crawler, обходящий 50 млрд веб-страниц за неделю. С масштабируемостью и отказоустойчивостью.
Комментарии-правки:
15:54 primary key не (domain, url, state), а (domain, state, url)
16:07 allowedRPS в табличке не int, а float - некоторые сайты разрешают запросы раз в несколько секунд
Тайм-коды:
00:00 Функциональные требования
01:10 Нефункциональные требования
07:04 Схема системы
08:03 Шаги (флоу)
11:34 Эффективный планировщик (scheduling). Проблемы, из-за которых Kafka и обычный брокер сообщений (очередь) не подойдет.
13:17 Kafka vs Amazon SQS
14:19 Схема с планировщиком (scheduler-ом) доменов
18:30 Планировщик: код для получения доменов через Redis
20:31 Планировщик: главный вывод
23:03 Общая схема ✅
24:40 Дедубликация по содержимому страниц
25:14 Масштабируемость и отказоустойчивость
27:40 Выбор баз данных
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: