Original size 2280x3200

Обучение модели Stable Diffusion в стиле фигурок PopMart

PROTECT STATUS: not protected
31

Идея проекта

Идея для обучения генеративной нейросети заключается в том, что бы обучить ее рисовать персонажей в стилистике фигурок Pop Mart. Pop Mart — это китайская компания, специализирующаяся на коллекционных дизайнерских игрушках. Для обучения я собрала датасет из квадратных картинок, в одинаковом разрешении, с фигурками из разных коллекций. В частности из коллекции Skullpanda.

фигурки PopMart. коллекция Skullpanda

Датасет

big
Original size 1907x1370

Был собран датасет из 52 квадратных картинок. Все они отформатированы под размер 512×512. При выборе изображений ключевой задачей было найти наиболее разные по цветам, формам и позам картинки, но при этом ± в одной стилистике. Все это послужило тому, что бы модель смогла считать стиль персонажей для генерации будущих картинок.

Процесс обучения

0

Итоговые изображения

Original size 2048x2048

prompt: «person in skullpanda style, open eyes, doll, yellow hair, toy, tinker bell costume»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll.»

Первые попытки сгенерировать персонажей были в полне удачные. Стилистика начинает прослеживаться, особенно в лице. Анатомия хромает. Было решено попробовать разные варианты lora_scale.

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt.»

Подача и форма становится более похожа на оригинальные изображения, но анатомия так же хромает и все стала более «облачной». Было принято решение прописать негативный промпт.

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt, tinker bell.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel, dark hair.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, blonde hair, merlin monroe.»

Original size 2048x2048

prompt: «person in skullpanda style, closed eyes, doll, angel whith white hurt.»

Обучение модели Stable Diffusion в стиле фигурок PopMart
31
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more