Масштабирование GeoAI: почему мы перешли с Dask на Ray для анализа планетных данных.
Автор: Matt Forrest
Загружено: 2026-02-10
Просмотров: 959
Описание:
У нас никогда не было такого количества данных о нашей планете: петабайты спутниковых снимков, аэрофотоснимков и показаний датчиков, собираемых ежедневно. Однако превращение этого огромного объема «шума» в четкий сигнал остается фундаментальной проблемой геопространственной индустрии.
В этом эпизоде подкаста Spatial Stack я беседую с инженерами и специалистами по продуктам из Wherobots: Райаном, Филом и Леном, чтобы разобрать архитектуру, необходимую для обработки данных дистанционного зондирования Земли в планетарном масштабе. Мы отходим от модных терминов и обсуждаем инженерные «истории из практики» создания отказоустойчивых конвейеров обработки данных.
Мы подробно разбираем, почему индустрия отходит от простого компьютерного зрения в сторону «больших моделей Земли», которые функционируют как большие модели Земли для физического мира. Мы также углубляемся в детали технологического стека: битва между Dask и Ray за распределенные вычисления, почему оптимизированные для облака GeoTIFF (COG) не всегда являются решением для обработки данных, и как такие форматы, как Zarr, открывают возможности многомерного анализа.
В этом эпизоде мы обсудим:
Узкое место в данных: почему принцип «мусор на входе — мусор на выходе» по-прежнему является самым большим препятствием на пути мониторинга меняющейся планеты.
Реалии инфраструктуры: специфические ограничения Google Earth Engine и почему нам нужен был подход, не зависящий от облачной платформы.
Переход в инженерии: почему Wherobots перешли с Dask на Ray для решения проблем «сбоев кластера» и управления памятью.
Будущее гео-ИИ: как эмбеддинги и базовые модели сжимают петабайты данных в доступные для поиска семантические выводы.
✅ Зарегистрируйтесь на Wherobots: https://wherobots.com/
✅ Узнайте больше об Apache Sedona: https://wherobots.com/apache-sedona/
✅ Узнайте больше о RasterFlow: https://wherobots.com/blog/rasterflow...
✅ Зарегистрируйтесь для участия в закрытом предварительном просмотре RasterFlow: https://wherobots.com/rasterflow-prev...
00:00 – Анонс: Проблема «мусор на входе, мусор на выходе» в GeoAI
00:01:51 – Вступления и начало разговора (спорные мнения о мороженом)
00:03:08 – Задача: Мониторинг изменяющейся Земли в петабайтном масштабе
00:10:30 – Инженерия данных: Скрытая сложность NAIP, облаков и артефактов тайлинга
00:14:19 – Моделирование реальности: Почему стандартные модели компьютерного зрения не справляются с геопространственными данными
00:21:51 – Дебаты о Google Earth Engine: закрытые экосистемы против переноса вычислительных ресурсов непосредственно в данные
00:27:53 – Представляем Rasterflow: новая архитектура для масштабируемого вывода
00:36:51 – История инженерной войны: почему мы перешли с Dask на Ray
00:43:40 – Форматы файлов: почему Zarr превосходит COG для многомерного вывода
00:47:40 – Пошаговое описание рабочего процесса: запуск модели «Поля мира»
00:51:40 – «Момент GPT»: встраивания, базовые модели и большие модели Земли
00:57:40 – Как начать работу с Rasterflow
📰 Ежедневные современные аналитические материалы по ГИС: https://forrest.nyc
СВЯЖИТЕСЬ СО МНОЙ
📸 Instagram: / matt_forrest
💼 LinkedIn: / mbforr
📧 Рассылка новостей: https://forrest.nyc
🌐 Веб-сайт: https://forrest.nyc
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: