ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Автор: LuxaK

Загружено: 2026-02-04

Просмотров: 2

Описание: PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

This document introduces PaddleOCR-VL, a state-of-the-art and resource-efficient model designed for multilingual document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the lightweight ERNIE-4.5-0.3B language model. This architecture significantly enhances dense text recognition and decoding efficiency, enabling the model to support 109 languages and excel at recognizing complex elements like text, tables, formulas, and charts with minimal resource consumption. PaddleOCR-VL employs a two-stage approach, first performing layout detection and reading order prediction, then feeding segmented elements into the VLM for recognition. Extensive evaluations confirm its state-of-the-art performance in both page-level parsing and element-level recognition, outperforming existing solutions and competing strongly with top-tier VLMs. The model boasts fast inference speeds and low training costs, making it highly suitable for practical deployment, especially in resource-constrained environments. A high-quality training data pipeline, utilizing over 30 million samples, prompt engineering, and automatic labeling, was developed to ensure robust performance.
#PaddleOCR #VisionLanguageModel #DocumentParsing #MultilingualAI #ResourceEfficient #SOTA #DeepLearning #OCR #AIResearch #Baidu

paper - https://arxiv.org/pdf/2510.14528
subscribe - https://t.me/arxivpaper
donations:
USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr
ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7
SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e
created with NotebookLM

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

Feed Your OWN Documents to a Local Large Language Model!

Feed Your OWN Documents to a Local Large Language Model!

The ICE test

The ICE test

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры

JetKVM - девайс для удаленного управления вашими ПК

JetKVM - девайс для удаленного управления вашими ПК

21 неожиданный способ использовать Gemini в повседневной жизни

21 неожиданный способ использовать Gemini в повседневной жизни

Самая быстрая передача файлов МЕЖДУ ВСЕМИ ТИПАМИ УСТРОЙСТВ 🚀

Самая быстрая передача файлов МЕЖДУ ВСЕМИ ТИПАМИ УСТРОЙСТВ 🚀

Taxonomy of the Retrieval System Framework: Pitfalls and Paradigms

Taxonomy of the Retrieval System Framework: Pitfalls and Paradigms

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Вся IT-база в ОДНОМ видео: Память, Процессор, Код

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Сисадмины больше не нужны? Gemini настраивает Linux сервер и устанавливает cтек N8N. ЭТО ЗАКОННО?

Перемирие всё. Кто не сдержал слова?

Перемирие всё. Кто не сдержал слова?

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

ChatGPT продает ваши чаты, Anthropic создает цифровых существ, а Маск как всегда…

Nested Learning & HOPE: Unlocking Continual Learning in AI

Nested Learning & HOPE: Unlocking Continual Learning in AI

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Gemini AI: полный гайд по работе с нейросетью от Google в 2026 году (+ Notebook LM)

Gemini AI: полный гайд по работе с нейросетью от Google в 2026 году (+ Notebook LM)

ChatGPT vs Gemini vs Perplexity: Полный СРАВНИТЕЛЬНЫЙ АНАЛИЗ (Free vs Pro) | Как не платить за AI?

ChatGPT vs Gemini vs Perplexity: Полный СРАВНИТЕЛЬНЫЙ АНАЛИЗ (Free vs Pro) | Как не платить за AI?

WIELKA WYPRAWA MARII WIERNIKOWSKIEJ W GŁĄB ROSJI #1

WIELKA WYPRAWA MARII WIERNIKOWSKIEJ W GŁĄB ROSJI #1

Новые угрозы и контрмеры в нейроморфных системах: обзор.

Новые угрозы и контрмеры в нейроморфных системах: обзор.

Самая сложная модель из тех, что мы реально понимаем

Самая сложная модель из тех, что мы реально понимаем

Как удалить следы SUNO.AI (МАСТЕР SUNO)

Как удалить следы SUNO.AI (МАСТЕР SUNO)

Декораторы Python — наглядное объяснение

Декораторы Python — наглядное объяснение

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]