
Концепция
Проект представляет собой обучение генеративной нейросети Stable Diffusion в стиле моей серии иллюстраций «Humility», которые я сделала на первом курсе.
Цель проекта — посмотреть, как искусственный интеллект воспримет, деконструирует и заново воссоздаст стиль иллюстраций и сложную гамму человеческих эмоций между двумя людьми.
Была собрана папка из квадратных изображений, которые являются моими иллюстрациями для проекта «Humility».
Humility — серия иллюстраций, которая начинается с изображения, где мужчина и женщина постепенно сливаются друг в друге. По мере продвижения в серии, иллюстрации начинают отражать разлуку и расстояние между мужчиной и женщиной.

Пример исходных изображений
Описание процесса обучения
Для генерации изображений была использована кастомизированная версия Stable Diffusion XL, дообученная методами DreamBooth и LoRA на собственном датасете с целью получения изображения в нужном стиле.
Процесс установки необходимых библиотек
Далее идет подготовка данных для работы в изолированной среде. Создаем функцию, которая объединяет несколько изображений в единую сетку (коллаж), затем отображает несколько изображений в виде одной строки.
Подготовка данных
После этого, я запустила код, который автоматически генерирует подписи к изображениям.
Каждое изображение получает автоматически сгенерированную текстовую подпись
Этот фрагмент кода настраивает среду для работы с библиотекой accelerate от Hugging Face. Далее я авторизировалась в Hugging Face Hub прямо из ноутбука, чтобы начать обучение нейросети.
Работа с библиотекой от Hugging Face
Затем начинается сам процесс обучения модели Stable Diffusion XL, он длился около часа. Разрешения изображений 512 px, всего 500 шагов обучения, чекпоинт сохранялся каждые 250 шагов.
Для обучения модели были заданы параметры выходной директории, после чего обученная модель была сохранена в репозиторий и использована для генерации изображений.
Далее код инициализирует и настраивает пайплайн для генерации изображений с использованием обученной LoRA-модели. fuse_lora (lora_scale=0.9) — данный фрагмент объединяет LoRA-веса с основной моделью с коэффициентом влияния 0.9
Последним этапом я начала вводить свои промпты.
Фрагмент кода с промптом к изображению
Фрагмент кода с промптом к изображению
Итоговая серия изображений
Я хотела посмотреть, как искусственный интеллект воспримет, деконструирует и заново воссоздаст сложную гамму человеческих эмоций между двумя людьми и художественную концепцию, заложенную в оригинальных работах.
Проект исследует границы между человеческим творчеством и машинной интерпретацией, задавая вопрос: может ли ИИ уловить и переосмыслить нарратив о любви, разлуке и слиянии, который был пережит и визуализирован автором?
Влечение/Восхищение/Доброта
Доверие/Жалость/Злость
Надежда/Отвращение/Отчаяние
Презрение/Ревность/Сомнение
Спокойствие/Уважение
Наученная модель усвоила ядро концепции — динамику слияния и разъединения двух людей. Она передала образ двух персонажей через призму абстракции. Нейросеть не запомнила и не воспроизвела конкретные лица. Вместо этого она вычленила и закрепила образ мужчины и женщины. Их взаимодействие — это главный сюжет каждого изображения.
Stable Diffusion — обучение генеративной нейросети под свой стиль.
Hugging Face — получения токена для обучения нейросети.
Kaggle — выполнение кода и генераций.
Figma — коллажирование готовых работ.