Синхронизация API формата файла 2 16 2026
Автор: Apache Iceberg
Загружено: 2026-02-16
Просмотров: 34
Описание:
Обсуждение предложения по API форматов файлов.
------------------
В настоящее время Iceberg поддерживает 3 различных формата файлов: Avro, Parquet, ORC. С появлением спецификации Iceberg V3 в Iceberg добавлено множество новых функций. Некоторые из этих функций, такие как новые типы столбцов, значения по умолчанию, требуют изменений на уровне формата файла. Изменения вносятся отдельными разработчиками с разным акцентом на разные форматы файлов. В результате не все функции доступны для каждого поддерживаемого формата файла.
Также появляются новые форматы файлов, такие как Vortex [1] или Lance [2], которые либо за счет специализации, либо за счет применения новых результатов исследований могут предоставить лучшие альтернативы для определенных сценариев использования, таких как произвольный доступ к данным или хранение моделей машинного обучения.
Цель данного предложения:
Предоставить чистый, четко определенный API, который должны реализовывать форматы файлов.
Реализовать новый API для поддерживаемых форматов файлов.
Сохранить обратную совместимость для текущих средств чтения/записи.
Упростить существующий код, удалив дублирование кода за счет использования общего API вместо больших блоков switch/case.
Предоставить набор тестов для проверки реализаций поддерживаемых форматов файлов.
------------------
Документация: Документ с предложением по API для чтения и записи файлов данных Iceberg
Запрос на API: https://github.com/apache/iceberg/pul...
Реализация PoC: https://github.com/apache/iceberg/pul...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: