ycliper

Популярное

Музыка Кино и Анимация Автомобили Животные Спорт Путешествия Игры Юмор

Интересные видео

2025 Сериалы Трейлеры Новости Как сделать Видеоуроки Diy своими руками

Топ запросов

смотреть а4 schoolboy runaway турецкий сериал смотреть мультфильмы эдисон
Скачать

LTX-2: Efficient Joint Audio-Visual Foundation Model

Автор: Xiaol.x

Загружено: 2026-01-16

Просмотров: 26

Описание: LTX-2: Efficient Joint Audio-Visual Foundation Model

Yoav HaCohen, Benny Brazowski, Nisan Chiprut, Yaki Bitterman, Andrew Kvochko, Avishai Berkowitz, Daniel Shalem, Daphna Lifschitz, Dudu Moshe, Eitan Porat, Eitan Richardson, Guy Shiran, Itay Chachy, Jonathan Chetboun, Michael Finkelson, Michael Kupchick, Nir Zabari, Nitzan Guetta, Noa Kotler, Ofir Bibi, Ori Gordon, Poriya Panet, Roi Benita, Shahar Armon, Victor Kulikov, Yaron Inger, Yonatan Shiftan, Zeev Melumian, Zeev Farbman

Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce LTX-2, an open-source foundational model capable of generating high-quality, temporally synchronized audiovisual content in a unified manner. LTX-2 consists of an asymmetric dual-stream transformer with a 14B-parameter video stream and a 5B-parameter audio stream, coupled through bidirectional audio-video cross-attention layers with temporal positional embeddings and cross-modality AdaLN for shared timestep conditioning. This architecture enables efficient training and inference of a unified audiovisual model while allocating more capacity for video generation than audio generation. We employ a multilingual text encoder for broader prompt understanding and introduce a modality-aware classifier-free guidance (modality-CFG) mechanism for improved audiovisual alignment and controllability. Beyond generating speech, LTX-2 produces rich, coherent audio tracks that follow the characters, environment, style, and emotion of each scene -- complete with natural background and foley elements. In our evaluations, the model achieves state-of-the-art audiovisual quality and prompt adherence among open-source systems, while delivering results comparable to proprietary models at a fraction of their computational cost and inference time. All model weights and code are publicly released.

https://arxiv.org/abs/2601.03233

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...
LTX-2: Efficient Joint Audio-Visual Foundation Model

Поделиться в:

Доступные форматы для скачивания:

Скачать видео

  • Информация по загрузке:

Скачать аудио

Похожие видео

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

ИИ - ЭТО ИЛЛЮЗИЯ ИНТЕЛЛЕКТА. Но что он такое и почему совершил революцию?

Пусть всё идёт своим чередом: агентное моделирование в стиле рок-н-ролла, построение модели ROME ...

Пусть всё идёт своим чередом: агентное моделирование в стиле рок-н-ролла, построение модели ROME ...

Research Colloquium 10/10/24 - Eric Liederman

Research Colloquium 10/10/24 - Eric Liederman

Самая быстрая передача файлов МЕЖДУ ВСЕМИ ТИПАМИ УСТРОЙСТВ 🚀

Самая быстрая передача файлов МЕЖДУ ВСЕМИ ТИПАМИ УСТРОЙСТВ 🚀

CLEANER Anatoly CHALLENGED BODYBUILDERS | GYM PRANK

CLEANER Anatoly CHALLENGED BODYBUILDERS | GYM PRANK

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

ЛУЧШАЯ БЕСПЛАТНАЯ НЕЙРОСЕТЬ Google, которой нет аналогов

Смешай ЦЕМЕНТ с ЭПОКСИДНОЙ СМОЛОЙ и преврати невозможное в МИЛЛИОННУЮ идею!

Смешай ЦЕМЕНТ с ЭПОКСИДНОЙ СМОЛОЙ и преврати невозможное в МИЛЛИОННУЮ идею!

Новое расширение Claude для Chrome: секретное оружие, которое должен использовать каждый

Новое расширение Claude для Chrome: секретное оружие, которое должен использовать каждый

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Typst: Современная замена Word и LaTeX, которую ждали 40 лет

Бесплатный ИИ для 3D: что работает, а что нет?

Бесплатный ИИ для 3D: что работает, а что нет?

Модели ловкого роботизированного фундамента

Модели ловкого роботизированного фундамента

Уоррен Баффет: Если вы хотите разбогатеть, перестаньте покупать эти 5 вещей.

Уоррен Баффет: Если вы хотите разбогатеть, перестаньте покупать эти 5 вещей.

Classic Space Galaxy ✦60:00 Minutes Universe Wallpaper✦ Longest FREE Motion Background HD 4K 60fps

Classic Space Galaxy ✦60:00 Minutes Universe Wallpaper✦ Longest FREE Motion Background HD 4K 60fps

Всё становится только хуже 😬 | Самые смешные новые неудачи, запечатлённые на видео

Всё становится только хуже 😬 | Самые смешные новые неудачи, запечатлённые на видео

Тренды в ИИ 2026. К чему готовиться каждому.

Тренды в ИИ 2026. К чему готовиться каждому.

Я проигнорировал все предупреждения о безопасности литиевых батарей... Ради науки!

Я проигнорировал все предупреждения о безопасности литиевых батарей... Ради науки!

When Your Cat Deserves an Oscar for Best Comedian 🏆😂 Funny Cat Videos

When Your Cat Deserves an Oscar for Best Comedian 🏆😂 Funny Cat Videos

Andrej Karpathy: Software Is Changing (Again)

Andrej Karpathy: Software Is Changing (Again)

Getting Started with Apple's Foundation Models Framework

Getting Started with Apple's Foundation Models Framework

Правильно реализованный VAR RL: решение конфликтов асинхронных политик в визуальной авторегрессив...

Правильно реализованный VAR RL: решение конфликтов асинхронных политик в визуальной авторегрессив...

© 2025 ycliper. Все права защищены.



  • Контакты
  • О нас
  • Политика конфиденциальности



Контакты для правообладателей: [email protected]