Klear (Kling): Unified Multi-Task Audio-Video Joint Generation
Автор: 류젠에이아이(LiuGenAI)
Загружено: 2026-01-11
Просмотров: 4
Описание:
#Klear #Kling #AudioVideoGeneration #aipaper #wonwizard
Kling(Kuaishou)통합 오디오-비디오 생성 프레임워크 Klear 제안. 기존 접근법들은 오디오-비주얼 비동기화, 불량한 입술-음성 정렬, 단일 모달 성능 저하 문제를 가지고 있었으나, 이 프레임워크는 통합된 DiT 블록과 Omni-Full Attention 메커니즘을 적용한 단일 타워 설계 채택 및 훈련 전략, 데이터 큐레이션 수행. 높은 충실도, 강력한 의미적 및 시간적 정렬, 그리고 공동 및 단일 모달 환경 모두에서 견고한 일반화를 갖춘 신뢰할 수 있는 명령어 추종 기능을 제공. 다양한 작업(T2AV/TI2AV/TI2V/T2V/T2A)에서 오픈소스 모델 중 Veo-3에 필적하는 성능을 달성 주장.
Klear: Unified Multi-Task Audio-Video Joint Generation (2601, Kling Team Kuaishou)
paper: https://arxiv.org/abs/2601.04151
*현재 논문만 나온 상태인 듯 하나 아마도 조만간 발표할 듯.
구독(subscription) : / @liugenai
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: