Original size 1240x1750

Обучение генеративной нейросети под свой стиль

КОНЦЕПЦИЯ И ПОДГОТОВКА ДАТАСЕТА

Для дообучения нейросети был выбран стиль жанра пуантилизм. Это вид живописи, когда изображение складывается из точек.

Original size 2880x1620

Примеры объектов из обучающего датасета

Всего в обучающем датасете 54 изображения. Для формирования стиля были выбраны фрагменты картин Поля Синьяка и Жоржа Сёра — наиболее ярких представителей пуантилизма.

ОБУЧЕНИЕ МОДЕЛИ

Обучение проводилось с использованием генеративной нейросети Stable Diffusion XL, на основе заранее подготовленного руководства (гайдлайна) из открытых источников.

Вначале происходит предустановка необходимых для дальнейшей работы моделей > > Затем перед началом непосредственного обучения выгружается и подготавливается датасет, приводя все изображения к одному размеру и сохраняя их в созданный репозиторий >

Original size 2382x1592

> Затем в рамках подготовительной работы, загружается специальная модель BLIP, которая конвертирует каждое изображение в его текстовое описание >

> Дополнительные веса, созданные в процессе обучения, будут сохранены на HuggingFace.co — для этого генерируется токен доступа и передается в код

Original size 2422x1616

Для обучения модели выбраны следующие параметры:

- Ключевой промпт: «a POINTILISTS painting» - Размер изображения: 1024×1024 - 500 шагов (по 1 изображению) - промежуточный чекпоинт на 250-м шаге

> На завершающем этапе, перед генерацией изображений в заданном стиле, дополнительные веса LoRA загружаются и интегрируются в модель Stable Diffusion

Original size 2422x1618

РЕЗУЛЬТАТ ОБУЧЕНИЯ: ГЕНЕРАЦИЯ

В итоговой серии были сгенерированы пейзажи и сюжетные сцены, отражающие атмосферу разных уголков мира — словно визуальные заметки путешественника. Такой подход перекликается с эстетикой и философией постимпрессионизма

1: prompt = «a POINTILISTS painting of small russian village» (checkpoint-500, steps=35) / 2: prompt = «a POINTILISTS painting, red square, moscow» (checkpoint-500, steps=25)

Обученная модель достаточно точно уловила особенности стиля, разделяя изображение на цветовые пятна и несколько упрощая формы изображенных объектов.

1: prompt = «a POINTILISTS painting of chinatown» (checkpoint-250, steps=25) / 2: prompt = «a POINTILISTS painting of a woman in traditional japanese costume» (checkpoint-250, steps=15)

Однако, чтобы достичь наилучшего соответствия исходному стилю, для каждого промпта подбиралась индивидуальная комбинация числа шагов генерации (num_inference_steps=15/25/35/50) и версий обученной модели (train_steps=250/500).

1: prompt = «a POINTILISTS painting, a painting of a house in the woods» (checkpoint-500, steps=50) / 2: prompt = «a POINTILISTS painting of ruan cathedral» (checkpoint-500, steps=50)

1: prompt = «a POINTILISTS painting of Eiffel Tower» (checkpoint-500, steps=35) / 2: prompt = «a POINTILISTS painting of dancing couple» (checkpoint-250, steps=25)

Серия изображений имеет как схожие черты так и различия: - Цветовые пятна (точки) могут варьироваться по размеру от изображения к изображению - Часто стилистически преобразованным и разложенным на точки оказывается только фон или задний план, а главный объект остается без изменений либо в легком размытии - Цветовая гамма в серии изображений выглядит достаточно единой, модель успешно раскладывает тона элементов на цветное зерно, что задает единую стилистику генерациям

1: prompt = «a POINTILISTS painting of times square in new york» (checkpoint-500, steps=35) / 2: prompt = «a POINTILISTS painting of seaside in hawaii» (checkpoint-250, steps=25)

1: prompt = «a POINTILISTS painting of stambul» (checkpoint-250, steps=25) / 2: prompt = «a POINTILISTS painting of lamas in mountains» (checkpoint-250, steps=25)

ПРИЛОЖЕНИЕ

Описание применения генеративной модели

Для обучения и генерации использована модель StableDiffusionXL, а также технологии DreamBooth и LoRA

Блокнот с кодом

Датасет

Обучение генеративной нейросети под свой стиль

Yaroslava Korzhova

artificial intelligence

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...