ENERZAi 1.58-битная версия Whisper на Synaptics Astra: Оптимальное определение границ, 4-кратное ...

Автор: Charbax

Загружено: 2025-12-23

Просмотров: 214

Описание: ENERZAi демонстрирует, насколько далеко можно продвинуться в развитии ИИ на устройствах, когда пропускная способность памяти и объем DRAM являются реальным узким местом. Основная идея заключается в экстремально низкобитном квантовании в сочетании с аппаратной оптимизацией графа и ядра, благодаря чему модели остаются пригодными для использования на ЦП/НПУ, а не требуют сервера с графическим процессором или облачного хранилища. В этой демонстрации основное внимание уделяется практическому выводу данных на периферии сети: меньшему объему активаций, более быстрым циклам декодирования и минимальному времени выполнения, при этом точность остается в допустимых пределах. https://enerzai.com/

---
Технология HDMI® является основой для глобальной экосистемы устройств, подключенных через HDMI; она интегрирована с дисплеями, телеприставками, ноутбуками, аудио-видеоресиверами и другими типами продуктов. В связи с этим глобальным распространением производители, реселлеры, интеграторы и потребители должны быть уверены в бесперебойной совместной работе своих продуктов HDMI® и обеспечении наилучшей производительности, приобретая продукцию у лицензированных HDMI-адаптеров или авторизованных реселлеров. Для кабелей HDMI потребители могут искать официальные сертификаты HDMI® на упаковке. Инновации продолжаются с новейшей спецификацией HDMI 2.2, которая поддерживает более высокую пропускную способность 96 Гбит/с и технологию HDMI Fixed Rate Link следующего поколения, обеспечивающую оптимальное качество звука и видео для широкого спектра устройств. Поддерживаются более высокие разрешения и частоты обновления, включая до 12K@120 и 16K@60. Кроме того, поддерживаются более высококачественные варианты, включая несжатые форматы с полной цветовой насыщенностью, такие как 8K@60/4:4:4 и 4K@240/4:4:4 с 10-битным и 12-битным цветом.

--

В Synaptics Astra (Astra Machina) сравнивают «обычную» версию Whisper с оптимизированным вариантом Whisper: оптимизированная сборка сокращает использование памяти примерно в 4 раза и уменьшает задержку примерно в 2 раза, при этом отмечается лишь небольшое снижение точности. Рабочий процесс не ограничивается только сжатием после обучения; Это обучение с учетом квантования, которое явно моделирует ошибки с низкой разрядностью, а затем компилируется для целевой системы с использованием их бэкэнда вывода Optimium, так что граф операторов, планирование и ядра соответствуют профилю SoC.

Они также демонстрируют конвейер преобразования речи в изображение, где Whisper расшифровывает произнесенную команду и запускает детектор YOLO на плате Renesas RZ/V2. Интересная особенность — гетерогенные вычисления: Whisper работает на процессоре Arm Cortex-A, в то время как YOLO переносится на ускоритель DRP-AI, обеспечивая цикл вывода в реальном времени со скоростью 30 кадров в секунду, даже если демонстрационный пользовательский интерфейс дольше отображает наложения. Это наглядный пример «голоса как плоскости управления» для восприятия с низкой задержкой на периферии.

Вторая конфигурация использует Raspberry Pi для управления интеллектуальным освещением Philips голосом, связывая Whisper с облегченной языковой/интентной моделью, которая преобразует текст в действия устройства. Они отмечают, что это не просто лабораторный трюк: аналогичные голосовые конвейеры были коммерциализированы в IPTV-приставках (команды, такие как управление каналами) и развернуты в масштабах Кореи, что является убедительным свидетельством того, что сегодня соблюдаются ограничения по занимаемой площади, стоимости и надежности.

В финальной демонстрации тот же принцип распространяется на субтитры и перевод в реальном времени: Whisper генерирует субтитры из потока CNBC, а затем модель перевода отображает испанский язык практически в реальном времени, опять же на оборудовании периферийного класса. Разговор снят на Embedded World North America 2025, и он вписывается в более широкую тему, которая прослеживается в недавних репортажах с конференций: сжатие модели, оптимизация времени выполнения и хранение данных локально, чтобы задержка, конфиденциальность и пропускная способность оставались предсказуемыми.

Я публикую более 90 видео с Embedded World North America 2025, загружаю около 4 видео в день в 5:00/11:00/17:00/23:00 CET/EST. Присоединяйтесь к https://www.youtube.com/charbax/join, чтобы получить ранний доступ ко всем 90 видео (как только они будут добавлены в очередь в ближайшие несколько дней). Посмотрите все мои видео о Embedded World North America в плейлисте Embedded World здесь: • Embedded World

Это видео было снято с помощью DJI Pocket 3 (669 долларов США на https://amzn.to/4aMpKIC с использованием двух беспроводных микрофонов DJI Mic 2 и петличного микрофона DJI https://amzn.to/3XIj3l8), посмотрите все мои видео о DJI Pocket 3 здесь: • Filmed with DJI Pocket 3

Нажмите кнопку «Суперспасибо» под видео, чтобы отправить выделенное сообщение. О...

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

ENERZAi 1.58-битная версия Whisper на Synaptics Astra: Оптимальное определение границ, 4-кратное ...

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

То, что они только что построили, — нереально

То, что они только что построили, — нереально

Распаковка, настройка и первые впечатления от NVIDIA DGX Spark — One plug AI.

Распаковка, настройка и первые впечатления от NVIDIA DGX Spark — One plug AI.

Kingston Embedded eMMC + DDR4: целостность сигнала, контролируемая спецификация компонентов, длит...

Kingston Embedded eMMC + DDR4: целостность сигнала, контролируемая спецификация компонентов, длит...

Лучший ноутбук на Linux всего за 120 долларов.

Лучший ноутбук на Linux всего за 120 долларов.

ВСЁ КОНЧЕНО: ПРАВДА о запрете дронов DJI

ВСЁ КОНЧЕНО: ПРАВДА о запрете дронов DJI

Qubika Embedded Engineering: Предварительно изготовленное микропрограммное обеспечение для процес...

Qubika Embedded Engineering: Предварительно изготовленное микропрограммное обеспечение для процес...

How CATL’s Reinforced Sodium Battery is Insanely Cheap

How CATL’s Reinforced Sodium Battery is Insanely Cheap

Демонстрация Congatec Edge AI: Core Ultra NPU, OpenVINO vision, TSN motor control, гипервизор

Демонстрация Congatec Edge AI: Core Ultra NPU, OpenVINO vision, TSN motor control, гипервизор

Прорыв в области микрочипов: мы вышли за рамки кремния.

Прорыв в области микрочипов: мы вышли за рамки кремния.

Надежный вычислительный модуль Kontron COBALT/Huracan: ввод-вывод для оборонной авиационной элект...

Надежный вычислительный модуль Kontron COBALT/Huracan: ввод-вывод для оборонной авиационной элект...

Apple did what NVIDIA wouldn't

Apple did what NVIDIA wouldn't

TSMC's Incredible 2nm Curvy Masks

TSMC's Incredible 2nm Curvy Masks

Китай вскрыл Луну: Что на самом деле нашли на обратной стороне?

Китай вскрыл Луну: Что на самом деле нашли на обратной стороне?

Калифорния выпустила 10 000 лососей в мертвую реку — неожиданный результат

Калифорния выпустила 10 000 лососей в мертвую реку — неожиданный результат

Как антарктические исследователи сохраняют тепло в самом холодном месте на Земле

Как антарктические исследователи сохраняют тепло в самом холодном месте на Земле

Why Everyone Is Wrong About the AI Bubble

Why Everyone Is Wrong About the AI Bubble

OpenHPC на x86_64 + Arm: дистрибутив Linux Foundation для высокопроизводительных вычислений, набо...

OpenHPC на x86_64 + Arm: дистрибутив Linux Foundation для высокопроизводительных вычислений, набо...

Высокоскоростные межсоединения 3M на выставке SPS 2025: складной двухкаскадный PCIe Gen5, пылесто...

Высокоскоростные межсоединения 3M на выставке SPS 2025: складной двухкаскадный PCIe Gen5, пылесто...

The Windows 11 Crisis

The Windows 11 Crisis

Dell PowerEdge XE9785L: 8 процессоров AMD Instinct MI355X, EPYC, жидкостное охлаждение 3U.

Dell PowerEdge XE9785L: 8 процессоров AMD Instinct MI355X, EPYC, жидкостное охлаждение 3U.