The 0.9B OCR Model That Beats Gemini (GLM-OCR) | Benchmarks + Demo | Live Coding + Q&A (Mar 19th)

Автор: Roboflow

Загружено: 2026-03-20

Просмотров: 1180

Описание: GLM-OCR packs just 0.9B parameters — a 0.4B CogViT visual encoder and a 0.5B GLM language decoder — yet it tops OmniDocBench V1.5 at 94.62, approaching Gemini-level performance. A Multi-Token Prediction mechanism lets it decode multiple tokens per step, keeping latency low enough for edge deployment and production workloads.

In this stream I first benchmark GLM-OCR across 8 diverse datasets — captchas, LaTeX equations, receipts, date stamps, jersey numbers, container serials, tire codes, and license plates — to test its limits on real-world images. Then I build a complete smart parking management system that chains license plate detection, OC-SORT multi-object tracking, and GLM-OCR into a pipeline that reads plates automatically as vehicles enter a lot. Both Colab notebooks are linked below so you can follow along.

Resources:

📓 How to Perform OCR with GLM-OCR: https://colab.research.google.com/git...

📓 Smart Parking Management with GLM-OCR: https://colab.research.google.com/git...

📄 GLM-OCR Paper: https://arxiv.org/abs/2603.10910

🤗 GLM-OCR on HuggingFace: https://huggingface.co/zai-org/GLM-OCR

Stay updated with the projects I'm working on at https://github.com/roboflow and https://github.com/SkalskiP! ⭐

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

The 0.9B OCR Model That Beats Gemini (GLM-OCR) | Benchmarks + Demo | Live Coding + Q&A (Mar 19th)

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Напали на Иран. Уничтожили весь мир.

Напали на Иран. Уничтожили весь мир.

SPI-интерфейс в разрезе и медленно • C • Live coding

SPI-интерфейс в разрезе и медленно • C • Live coding

Учащимся об информатике и компьютерах, 1988

Учащимся об информатике и компьютерах, 1988

Стандартная модель Вселенной под вопросом? — Семихатов, Горбунов

Стандартная модель Вселенной под вопросом? — Семихатов, Горбунов

WinOLS ➜ Ghidra – Import map (DAMOS, A2L, Mappack)

WinOLS ➜ Ghidra – Import map (DAMOS, A2L, Mappack)

Структура файлов и каталогов в Linux

Структура файлов и каталогов в Linux

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Чем ОПАСЕН МАХ? Разбор приложения специалистом по кибер безопасности

Повышение производительности моделей машинного зрения с помощью непрерывных циклов обучения.

Повышение производительности моделей машинного зрения с помощью непрерывных циклов обучения.

Как взламывают любой Wi-Fi без пароля?

Как взламывают любой Wi-Fi без пароля?

Заявления о победе США: реальность против риторики - Щелин, Островский и Уварова

Заявления о победе США: реальность против риторики - Щелин, Островский и Уварова

Водородная бомба

Водородная бомба

Что НА САМОМ ДЕЛЕ происходит, когда нажимаешь

Что НА САМОМ ДЕЛЕ происходит, когда нажимаешь "ПРИНЯТЬ ВСЕ КУКИ"?

Люди бегут из банков! Что срочно делать с банковским вкладом? Банковский депозит курс доллара дефолт

Люди бегут из банков! Что срочно делать с банковским вкладом? Банковский депозит курс доллара дефолт

Best of Deep House [2026] | Melodic House & Progressive Flow

Best of Deep House [2026] | Melodic House & Progressive Flow

Как представить 10 измерений? [3Blue1Brown]

Как представить 10 измерений? [3Blue1Brown]

Mistral Small 4 First Look & Testing – A 120B Open Source Model!

Mistral Small 4 First Look & Testing – A 120B Open Source Model!

Roboflow Rapid Livestream | Use text prompts to train vision models

Roboflow Rapid Livestream | Use text prompts to train vision models

Вклады не "заморозят", а "охладят"! Почему россияне выносят из банков триллионы? Банковский кризис?

Третья неделя конфликта: План Нетаньяху и ловушка для американцев | Ростислав Ищенко

Третья неделя конфликта: План Нетаньяху и ловушка для американцев | Ростислав Ищенко

Гравитационный арбалет

Гравитационный арбалет