Я создал самую маленькую (и самую глупую) модель для генерации изображений.

Автор: Codeically

Загружено: 2026-01-29

Просмотров: 42127

Описание: Я создал самую маленькую и глупую модель генерации изображений (менее 2 ГБ)

Что происходит, когда вы пытаетесь уместить стабильную диффузию в меньшее количество видеопамяти, чем вкладка Chrome? Вы получаете нечто прекрасно сломанное и удивительно функциональное. В этом видео я покажу вам два безумных эксперимента: сжатие стабильной диффузии до 1,5 ГБ видеопамяти с использованием агрессивного квантования и создание совершенно другой архитектуры с использованием VAE с остаточным квантованием, которая… ну, скажем так, в этом была необходимость.

🚀 Что вы узнаете:
• Как LoRA позволяет обучать модель с 10 миллионами параметров вместо 860 миллионов
• Жестокая правда о квантовании Q4_K (4 бита на вес!)
• Почему крошечный UNet с 15-25 миллионами параметров спас все
• Обучение на наборе данных LAPIS для генерации эстетически ориентированного искусства

🛠️ Часть 1 - Экстремальное стабильное диффузионное сжатие:
• Тонкая настройка LoRA для эффективного с точки зрения памяти обучения
• Квантование Q4_K: 4 бита на вес с минимальной потерей качества
• 8-битное квантование CLIP как компромисс
• Разгрузка декодера VAE процессором

🎨 Часть 2 - Эксперимент RQ-VAE:
• Квантование остаточных векторов для прогрессивного сжатия изображений
• Четырехслойное квантование: структура → края → текстуры → детали
• Спасательная миссия UNet для уточнения
• Потеря L1 + перцептивная потеря для Чёткие, высококачественные выходные данные

📊 Цифры:
• Стабильная диффузия: 4 ГБ → 1,5 ГБ (уменьшение на 62,5%)
• UNet: 860 млн параметров → 330 МБ квантованного изображения
• CLIP: 123 млн параметров → 250 МБ (8-бит)
• VAE: Перенесено на ЦП (сэкономлено 160 МБ видеопамяти)
• RQ-VAE: изображение 256×256 → 256 токенов → чёткий результат
• UNet для уточнения: 15-25 млн параметров

🎭 Набор данных LAPIS:
В этом проекте используется набор данных LAPIS — тщательно подобранная коллекция произведений искусства, оцененных людьми с различными эстетическими вкусами. Результаты тяготеют к абстрактному, интерпретативному искусству, а не к фотореализму. Речь идёт не о замене человеческого творчества, а об исследовании закономерностей эстетического вдохновения, подобно тому, как художники всегда изучали искусство до них.

🔧 Подробный технический анализ:
• Почему Q4_K превосходит наивное 4-битное квантование
• Поблочное квантование с масштабными коэффициентами
• Важность сохранения временных вложений в FP16
• Как работают экспоненциальные комбинации RQ-VAE (4 таблицы = более триллиона кодов)
• Почему декодер может угадывать только сглаженные средние значения при сильном сжатии
• Обучение остаточных сетей прогнозированию высокочастотных деталей

🔔 Не пропустите!
Если вам понравилось наблюдать, как я мучаю модели ИИ во имя агрессивной оптимизации, нажмите кнопку подписки! Ваша поддержка значит всё и помогает мне создавать больше великолепного образовательного контента о технологиях.

📚 Ресурсы и код:
• Полные скрипты обучения (ссылка в закрепленном комментарии)

🎵 Музыка:
Windmill Isle (Day) - Sonic Unleashed [OST]
Я не являюсь владельцем этой музыки и не намерен нарушать ее авторские права, поскольку знаю, что владельцы этого материала изначально выпустили его бесплатно.

🙏 Особая благодарность:
• Colab за вычислительные ресурсы
• Создателям набора данных LAPIS

💬 Давайте обсудим:
• Какой у вас опыт квантования моделей?

• Пробовали ли вы обучение на оборудовании с ограниченными ресурсами?

• Какие методы сжатия мне следует попробовать дальше?

• Задавайте свои вопросы в комментариях!

---

Эта модель не выиграет ни одного бенчмарка. Но если вам интересно, что происходит, когда вы доводите сжатие до предела, и вы не боитесь пробовать архитектуры, которые «не должны работать», вы попали по адресу.

🎯 Ключевые слова:
#AI #StableDiffusion #ImageGeneration #Quantization #LoRA #MachineLearning #RQVAE #VectorQuantization #DeepLearning #ModelCompression #TextToImage #ArtificialIntelligence #PyTorch #Diffusion #VAE #UNet #AIArt #TechExperiment #Programming #ComputerScience

Не удается загрузить Youtube-плеер. Проверьте блокировку Youtube в вашей сети.
Повторяем попытку...

Я создал самую маленькую (и самую глупую) модель для генерации изображений.

Доступные форматы для скачивания:

Скачать видео

Информация по загрузке:

Скачать аудио

Похожие видео

Пять искусственных интеллектов работают вместе, чтобы создать операционную систему с нуля.

Пять искусственных интеллектов работают вместе, чтобы создать операционную систему с нуля.

Emergent Complexity

Emergent Complexity

How to Use Pretrained Model Deepfacelab (easy Method)

How to Use Pretrained Model Deepfacelab (easy Method)

We still don't understand magnetism

We still don't understand magnetism

How hackers reverse Math.random()

How hackers reverse Math.random()

Who can write the WORST CODE?

Who can write the WORST CODE?

Выбираем ЛУЧШЕЕ направление в АЙТИ)))

Выбираем ЛУЧШЕЕ направление в АЙТИ)))

Превращаем iPad в сенсорный экран для ПК

Превращаем iPad в сенсорный экран для ПК

I used Physics to write an Aimbot in Python

I used Physics to write an Aimbot in Python

I Coded Raytracing That Doesn't Burn Your GPU

I Coded Raytracing That Doesn't Burn Your GPU

Беззубчатые шестерни развивают гораздо больший крутящий момент, чем обычные, вот почему. Циклоида...

Беззубчатые шестерни развивают гораздо больший крутящий момент, чем обычные, вот почему. Циклоида...

Почему «Трансформеры» заменяют CNN?

Почему «Трансформеры» заменяют CNN?

ВСЕ ЧТО НУЖНО ЗНАТЬ ПРО LINUX

ВСЕ ЧТО НУЖНО ЗНАТЬ ПРО LINUX

A Display Powered by Air: 3D Printed Microfluidic Multiplexing

A Display Powered by Air: 3D Printed Microfluidic Multiplexing

Как рунет перестал быть свободным? История блокировок

Как рунет перестал быть свободным? История блокировок

Windows 11 Проклята

Windows 11 Проклята

Gaming on an Arduino

Gaming on an Arduino

How One Guy FIXED Procedural Generation

How One Guy FIXED Procedural Generation

ТЫ НИЧЕГО НЕ ЗНАЕШЬ ПРО ТЕКСТУРЫ В ИГРАХ

ТЫ НИЧЕГО НЕ ЗНАЕШЬ ПРО ТЕКСТУРЫ В ИГРАХ

Моя игра в 262 000 раз быстрее Minecraft. Я покажу вам, как.

Моя игра в 262 000 раз быстрее Minecraft. Я покажу вам, как.