Я создал самую маленькую (и самую глупую) модель для генерации изображений.
Автор: Codeically
Загружено: 2026-01-29
Просмотров: 42127
Описание:
Я создал самую маленькую и глупую модель генерации изображений (менее 2 ГБ)
Что происходит, когда вы пытаетесь уместить стабильную диффузию в меньшее количество видеопамяти, чем вкладка Chrome? Вы получаете нечто прекрасно сломанное и удивительно функциональное. В этом видео я покажу вам два безумных эксперимента: сжатие стабильной диффузии до 1,5 ГБ видеопамяти с использованием агрессивного квантования и создание совершенно другой архитектуры с использованием VAE с остаточным квантованием, которая… ну, скажем так, в этом была необходимость.
🚀 Что вы узнаете:
• Как LoRA позволяет обучать модель с 10 миллионами параметров вместо 860 миллионов
• Жестокая правда о квантовании Q4_K (4 бита на вес!)
• Почему крошечный UNet с 15-25 миллионами параметров спас все
• Обучение на наборе данных LAPIS для генерации эстетически ориентированного искусства
🛠️ Часть 1 - Экстремальное стабильное диффузионное сжатие:
• Тонкая настройка LoRA для эффективного с точки зрения памяти обучения
• Квантование Q4_K: 4 бита на вес с минимальной потерей качества
• 8-битное квантование CLIP как компромисс
• Разгрузка декодера VAE процессором
🎨 Часть 2 - Эксперимент RQ-VAE:
• Квантование остаточных векторов для прогрессивного сжатия изображений
• Четырехслойное квантование: структура → края → текстуры → детали
• Спасательная миссия UNet для уточнения
• Потеря L1 + перцептивная потеря для Чёткие, высококачественные выходные данные
📊 Цифры:
• Стабильная диффузия: 4 ГБ → 1,5 ГБ (уменьшение на 62,5%)
• UNet: 860 млн параметров → 330 МБ квантованного изображения
• CLIP: 123 млн параметров → 250 МБ (8-бит)
• VAE: Перенесено на ЦП (сэкономлено 160 МБ видеопамяти)
• RQ-VAE: изображение 256×256 → 256 токенов → чёткий результат
• UNet для уточнения: 15-25 млн параметров
🎭 Набор данных LAPIS:
В этом проекте используется набор данных LAPIS — тщательно подобранная коллекция произведений искусства, оцененных людьми с различными эстетическими вкусами. Результаты тяготеют к абстрактному, интерпретативному искусству, а не к фотореализму. Речь идёт не о замене человеческого творчества, а об исследовании закономерностей эстетического вдохновения, подобно тому, как художники всегда изучали искусство до них.
🔧 Подробный технический анализ:
• Почему Q4_K превосходит наивное 4-битное квантование
• Поблочное квантование с масштабными коэффициентами
• Важность сохранения временных вложений в FP16
• Как работают экспоненциальные комбинации RQ-VAE (4 таблицы = более триллиона кодов)
• Почему декодер может угадывать только сглаженные средние значения при сильном сжатии
• Обучение остаточных сетей прогнозированию высокочастотных деталей
🔔 Не пропустите!
Если вам понравилось наблюдать, как я мучаю модели ИИ во имя агрессивной оптимизации, нажмите кнопку подписки! Ваша поддержка значит всё и помогает мне создавать больше великолепного образовательного контента о технологиях.
📚 Ресурсы и код:
• Полные скрипты обучения (ссылка в закрепленном комментарии)
🎵 Музыка:
Windmill Isle (Day) - Sonic Unleashed [OST]
Я не являюсь владельцем этой музыки и не намерен нарушать ее авторские права, поскольку знаю, что владельцы этого материала изначально выпустили его бесплатно.
🙏 Особая благодарность:
• Colab за вычислительные ресурсы
• Создателям набора данных LAPIS
💬 Давайте обсудим:
• Какой у вас опыт квантования моделей?
• Пробовали ли вы обучение на оборудовании с ограниченными ресурсами?
• Какие методы сжатия мне следует попробовать дальше?
• Задавайте свои вопросы в комментариях!
---
Эта модель не выиграет ни одного бенчмарка. Но если вам интересно, что происходит, когда вы доводите сжатие до предела, и вы не боитесь пробовать архитектуры, которые «не должны работать», вы попали по адресу.
🎯 Ключевые слова:
#AI #StableDiffusion #ImageGeneration #Quantization #LoRA #MachineLearning #RQVAE #VectorQuantization #DeepLearning #ModelCompression #TextToImage #ArtificialIntelligence #PyTorch #Diffusion #VAE #UNet #AIArt #TechExperiment #Programming #ComputerScience
Повторяем попытку...
Доступные форматы для скачивания:
Скачать видео
-
Информация по загрузке: