ENERZAi 1.58-битная версия Whisper на Synaptics Astra: Оптимальное определение границ, 4-кратное ...
Автор: Charbax
Загружено: 2025-12-23
Просмотров: 214
Описание:
ENERZAi демонстрирует, насколько далеко можно продвинуться в развитии ИИ на устройствах, когда пропускная способность памяти и объем DRAM являются реальным узким местом. Основная идея заключается в экстремально низкобитном квантовании в сочетании с аппаратной оптимизацией графа и ядра, благодаря чему модели остаются пригодными для использования на ЦП/НПУ, а не требуют сервера с графическим процессором или облачного хранилища. В этой демонстрации основное внимание уделяется практическому выводу данных на периферии сети: меньшему объему активаций, более быстрым циклам декодирования и минимальному времени выполнения, при этом точность остается в допустимых пределах. https://enerzai.com/
---
Технология HDMI® является основой для глобальной экосистемы устройств, подключенных через HDMI; она интегрирована с дисплеями, телеприставками, ноутбуками, аудио-видеоресиверами и другими типами продуктов. В связи с этим глобальным распространением производители, реселлеры, интеграторы и потребители должны быть уверены в бесперебойной совместной работе своих продуктов HDMI® и обеспечении наилучшей производительности, приобретая продукцию у лицензированных HDMI-адаптеров или авторизованных реселлеров. Для кабелей HDMI потребители могут искать официальные сертификаты HDMI® на упаковке. Инновации продолжаются с новейшей спецификацией HDMI 2.2, которая поддерживает более высокую пропускную способность 96 Гбит/с и технологию HDMI Fixed Rate Link следующего поколения, обеспечивающую оптимальное качество звука и видео для широкого спектра устройств. Поддерживаются более высокие разрешения и частоты обновления, включая до 12K@120 и 16K@60. Кроме того, поддерживаются более высококачественные варианты, включая несжатые форматы с полной цветовой насыщенностью, такие как 8K@60/4:4:4 и 4K@240/4:4:4 с 10-битным и 12-битным цветом.
--
В Synaptics Astra (Astra Machina) сравнивают «обычную» версию Whisper с оптимизированным вариантом Whisper: оптимизированная сборка сокращает использование памяти примерно в 4 раза и уменьшает задержку примерно в 2 раза, при этом отмечается лишь небольшое снижение точности. Рабочий процесс не ограничивается только сжатием после обучения; Это обучение с учетом квантования, которое явно моделирует ошибки с низкой разрядностью, а затем компилируется для целевой системы с использованием их бэкэнда вывода Optimium, так что граф операторов, планирование и ядра соответствуют профилю SoC.
Они также демонстрируют конвейер преобразования речи в изображение, где Whisper расшифровывает произнесенную команду и запускает детектор YOLO на плате Renesas RZ/V2. Интересная особенность — гетерогенные вычисления: Whisper работает на процессоре Arm Cortex-A, в то время как YOLO переносится на ускоритель DRP-AI, обеспечивая цикл вывода в реальном времени со скоростью 30 кадров в секунду, даже если демонстрационный пользовательский интерфейс дольше отображает наложения. Это наглядный пример «голоса как плоскости управления» для восприятия с низкой задержкой на периферии.
Вторая конфигурация использует Raspberry Pi для управления интеллектуальным освещением Philips голосом, связывая Whisper с облегченной языковой/интентной моделью, которая преобразует текст в действия устройства. Они отмечают, что это не просто лабораторный трюк: аналогичные голосовые конвейеры были коммерциализированы в IPTV-приставках (команды, такие как управление каналами) и развернуты в масштабах Кореи, что является убедительным свидетельством того, что сегодня соблюдаются ограничения по занимаемой площади, стоимости и надежности.
В финальной демонстрации тот же принцип распространяется на субтитры и перевод в реальном времени: Whisper генерирует субтитры из потока CNBC, а затем модель перевода отображает испанский язык практически в реальном времени, опять же на оборудовании периферийного класса. Разговор снят на Embedded World North America 2025, и он вписывается в более широкую тему, которая прослеживается в недавних репортажах с конференций: сжатие модели, оптимизация времени выполнения и хранение данных локально, чтобы задержка, конфиденциальность и пропускная способность оставались предсказуемыми.
Я публикую более 90 видео с Embedded World North America 2025, загружаю около 4 видео в день в 5:00/11:00/17:00/23:00 CET/EST. Присоединяйтесь к https://www.youtube.com/charbax/join, чтобы получить ранний доступ ко всем 90 видео (как только они будут добавлены в очередь в ближайшие несколько дней). Посмотрите все мои видео о Embedded World North America в плейлисте Embedded World здесь: • Embedded World
Это видео было снято с помощью DJI Pocket 3 (669 долларов США на https://amzn.to/4aMpKIC с использованием двух беспроводных микрофонов DJI Mic 2 и петличного микрофона DJI https://amzn.to/3XIj3l8), посмотрите все мои видео о DJI Pocket 3 здесь: • Filmed with DJI Pocket 3
Нажмите кнопку «Суперспасибо» под видео, чтобы отправить выделенное сообщение. О...
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: