System-Level vs. Application-Level Checkpointing

Автор: IEEEComputerSociety

Загружено: 2020-09-09

Просмотров: 334

Описание: Fault tolerance is becoming increasingly important since the probability of permanent hardware failures increases with machine size. A typical resilience approach to fail/stop failures today is checkpointing, which can be performed on system- or application-level. Both levels come in many variants, but they fundamentally differ. On system-level, no code changes are required, full program states are saved, and after a failure the program must be restarted from the last checkpoint. In contrast, on application-level, only user-defined data are checkpointed, which requires some programming effort. Thereby, the running time overhead may be reduced significantly, and programs may continue execution after failures.

Typical representatives include DMTCP (Distributed MultiThreaded Checkpointing) for system-level, and FTGLB (Fault Tolerant Global Load Balancing) for application-level. DMTCP is a user-space library, which checkpoints parallel programs transparently and restarts them from a checkpoint. DMTCP supports many programming languages and HPC environments.

FTGLB bases on a distributed task-pool pattern, and writes uncoordinated in-memory checkpoints. Checkpoints only include task descriptors and interim results, and are written at regular time intervals and at certain events, e.g. work stealing.

In this work, we experimentally compare DMTCP and FTGLB with up to 320 processes. Moreover, we derive formulas for predicting running times, including failure handling. With these formulas, we compare DMTCP and FTGLB in failure-prone and larger settings. Overall, the results clearly show that the application-level optimizations of FTGLB are worthwhile since the running time overhead is significantly lower than that of DMTCP.

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

System-Level vs. Application-Level Checkpointing

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Efficient Process-to-Node Mapping Algorithms for Stencil Computations

Efficient Process-to-Node Mapping Algorithms for Stencil Computations

CLUSTER 2020

Checkpoint in DBMS

Checkpoint in DBMS

У меня ушло 10+ лет, чтобы понять то, что я расскажу за 11 минут

У меня ушло 10+ лет, чтобы понять то, что я расскажу за 11 минут

What is Checkpoint in spark? | Spark Optimization | IN 3 MINUTES | Definition | Applications

What is Checkpoint in spark? | Spark Optimization | IN 3 MINUTES | Definition | Applications

Блокировка Telegram в России началась. Кто победит?

Блокировка Telegram в России началась. Кто победит?

I Tested 5 Ways to Optimize DB Updates in .NET

I Tested 5 Ways to Optimize DB Updates in .NET

OSINT для новичков: найдите всё о юзернейме и фото с Sherlock и Google Dorks!

OSINT для новичков: найдите всё о юзернейме и фото с Sherlock и Google Dorks!

Забудьте про готовые VPN. ИИ-агент настроит вам личный за 10 минут!

Забудьте про готовые VPN. ИИ-агент настроит вам личный за 10 минут!

То Что Нашли на Дне Реки Лена Шокировало Весь Научный Мир

То Что Нашли на Дне Реки Лена Шокировало Весь Научный Мир

притворился БЕЗДОМНЫМ и сыграл на ДВУХ ГИТАРАХ СРАЗУ и ШОКИРОВАЛ ЛЮДЕЙ

притворился БЕЗДОМНЫМ и сыграл на ДВУХ ГИТАРАХ СРАЗУ и ШОКИРОВАЛ ЛЮДЕЙ

Жириновский: остатки Ирана и Турции войдут в состав России! Воскресный вечер с Соловьевым. 13.05.18

Жириновский: остатки Ирана и Турции войдут в состав России! Воскресный вечер с Соловьевым. 13.05.18

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

GLM-5 УНИЧТОЖИЛА DeepSeek! Бесплатная нейросеть БЕЗ ограничений. Полный тест 2026

ТАКОЕ НЕ ПОКАЖУТ В ВУЗах- Как работают и для чего нужны транзисторы ? Что такое PN переход?

ТАКОЕ НЕ ПОКАЖУТ В ВУЗах- Как работают и для чего нужны транзисторы ? Что такое PN переход?

ОАЭ Стирают с Карты Ормузский Пролив и Строят Свой Секретный Обход

ОАЭ Стирают с Карты Ормузский Пролив и Строят Свой Секретный Обход

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

Но что такое нейронная сеть? | Глава 1. Глубокое обучение

КАК УСТРОЕН TCP/IP?

КАК УСТРОЕН TCP/IP?

Qwen3-coder-next -- НОВЫЙ ТОП ИИ ЛОКАЛЬНО, БЕСПЛАТНО И БЕЗЛИМИТНО! CLI, сравнение кодинг агентов

Qwen3-coder-next -- НОВЫЙ ТОП ИИ ЛОКАЛЬНО, БЕСПЛАТНО И БЕЗЛИМИТНО! CLI, сравнение кодинг агентов

Overcoming IO Bottlenecks in HPC

Overcoming IO Bottlenecks in HPC