Heart of the Metropolis — обучение генеративной модели on HSE Design
Original size 1140x1600

Heart of the Metropolis — обучение генеративной модели

PROTECT STATUS: not protected
24

Идея

Arcane — это анимационный сериал, основанный на вселенной League of Legends. Его главной особенностью является уникальный стиль — несмотря на то, что проект выполнен в 3D, текстуры нарисованы под 2D вручную с использованием в основном диффузной цветовой карты и ручной проработкой света и теней.

Каждая деталь в нём словно написана кистью, мазки остаются видимыми, создавая текстурность и ощущение традиционной живописи. При этом линии контурные, чёткие, но не жёсткие, а пластичные, что придаёт персонажам выразительность и энергию.

big
Original size 1280x660

Arcane: League of Legends, 2021-2024

big
Original size 3880x1078

Arcane: League of Legends, 2021-2024

Другой ключевой особенностью стиля является драматичное освещение. Световые акценты и тени создают глубину и подчёркивают эмоции. Цветовая палитра насыщенная, контрастная, с множеством неоновых и сияющих элементов, которые усиливают ощущение магии и технологичности.

Эстетика Arcane сочетает в себе брутальность и элегантность: грубые, индустриальные текстуры, металл и грязь соседствуют с утончённой архитектурой, плавными тканями и декоративными элементами.

big
Original size 1522x570

Arcane: League of Legends, 2021-2024

Такой стиль идеально подходит для тёмных фэнтези-миров, киберпанка и эпических историй с глубокой проработкой персонажей.

Original size 3556x1080

Arcane: League of Legends, 2021-2024

Original size 2400x1021

Arcane: League of Legends, 2021-2024

Цель проекта — до-обучить нейросеть Stable Diffusion и создать серию иллюстраций, вдохновлённых эстетикой сериала Arcane, но с уникальными сюжетами и персонажами.

Серия сгенерированных изображений

В рамках проекта была создана серия персонажей и разработан небольшой сюжет в уникальном мире, где переплетаются элементы стимпанка и магии.

Original size 3152x1024

Город, который никогда не спит, живёт благодаря древнему механизму в его центре — Сердцу города. Однако сбой в его работе ставит под угрозу существование всего мегаполиса. В сюжете фигурируют ключевые персонажи, каждый из которых играет важную роль в попытке понять и остановить разрушение города, включая инженера Ривера, старого архитектора Элиаса, беглую механическую куклу Лину и кошку Искру, которым предстоит противостоять главе Советов, скрывающему правду о городе.

Original size 2048x938
Original size 2088x1024
Original size 3152x1024

Ривер — инженер, чувствующий город.

С детства он умел «слышать» механизмы — не просто ремонтировать, а понимать их, будто они разговаривают с ним. Когда Ривер был ещё мальчишкой, живя в трущобах нижних уровней мегаполиса, его жизнь могла бы закончиться трагически. Но однажды его заметил старый архитектор на пенсии, который когда-то был одним из самых влиятельных мастеров города. Архитектор, узнав о необычном таланте Ривера, не просто предложил ему крышу над головой, но и стал его наставником.

Original size 3152x1026

Элиас Гримм — добрый старый архитектор на пенсии.

Когда-то он был одним из величайших инженеров города. После долгих лет работы на благо мегаполиса, он отошёл от дел и живёт в уединении, скрываясь от шума и политики Совета. Несмотря на свою старость, Элиас остаётся мудрым и проницательным, обладая глубокими знаниями о механизмах города и его магическом сердце. Его сердце не остыло, и он продолжает помогать тем, кто в этом нуждается. Элиас приютил Ривера, увидев в нём не только талант, но и душу, способную чувствовать и понимать город, как он сам когда-то.

Original size 3152x1024

Лина — беглая механическая кукла с собственной волей.

Созданная как декоративное существо для развлечения богачей, Лина не должна была иметь мыслей или чувств. Но однажды она «проснулась». В её памяти вспышками мелькают роскошь, страх, побег. Она нежна, внимательна, но её взгляд тревожит: он слишком живой. В её теле — шестерёнки и древняя магия, а в сердце — стремление обрести настоящее «я».

Original size 2048x1105
Original size 2088x1024

Искра — полу-механическая кошка, спутница инженера.

Когда-то уличная кошка, повреждённая в уличных боях и спасённая Ривером. Он принес её наставнику и заменил ей часть тела: одна лапа теперь из латуни. Искра часто помогает старому архитектору с проектами и иногда кажется, что она знает больше, чем сам Ривер.

Original size 2088x1024
Original size 2048x950

Верховный архитектор Маркалл — страж тайн города.

Маркалл — величественный, мрачный и почти мифический лидер Совета Архитекторов. Он не просто управляет городом — он его переписывает, как живой код. Его лицо редко видят — обычно он прячется за маской или проецируется в виде голограммы. Он — воплощение идеи: порядок любой ценой.

Original size 3152x1024

Процесс создания

Для до-обучения нейросети мне понадобилось 50 скриншотов из сериала с разрешением 1024*1024. Я старалась выбирать разных героев, ракурсы, а также включила в подборку несколько пейзажей.

Original size 1863x674

Фрагмент кода в Google Colab

Original size 1863x832

Фрагмент кода в Google Colab

Первым делом нужно было подключить необходимые для работы библиотеки и скачать скрипт из официального репозитория Hugging Face. После отобранные для обучения изображения загружаются в проект и выводятся на экран для проверки.

Original size 1863x468

Фрагмент кода в Google Colab

Затем для генерации описаний изображений загружается модель BLIP (Bootstrapping Language-Image Pretraining). Она будет использоваться для создания промптов, описывающих изображения.

Original size 1863x655

Фрагмент кода в Google Colab

Для каждого изображения из папки arcane_shots генерируется описание, которое начинается с префикса «art in arcane style». Эти описания сохраняются в файл metadata.jsonl, который будет использоваться для дальнейшего обучения модели.

Original size 1863x446

Фрагмент кода в Google Colab

Затем происходит небольшая очистка память, импорт новых инструментов и библиотек для работы с Hugging Face.

Original size 1863x616

Фрагмент кода в Google Colab

Происходит установка библиотек для работы с датасетами, затем — запускается DreamBooth LoRA-обучение. На 600 шагов с чекпоинтами каждые 200 ушел приблизительно час.

Original size 1863x757

Фрагмент кода в Google Colab

Original size 1874x593

Фрагмент кода в Google Colab

После обучения модель была загружена на Hugging Face, что позволяет обращаться к ней в дальнейшем.

Original size 3152x3152

В ходе работы были сгенерированы портреты людей и животных, полноценные сюжеты, а также пейзажи. Некоторые генерации требовали большее количество итераций для создания более точных изображений, например, сцены с несколькими героями.

0

Стоит отметить, что на некоторых изображениях нейросети удалось воспроизвести даже фокусное расстояние, сделав фон размытым.

Original size 3152x1024
Original size 2088x1024

Вывод

Всего было сгенерировано более 60 изображений. В целом, нейросети удалось успешно повторить заданный стиль. Наилучшие результаты были получены при генерации изображений людей. С понятием животных возникли проблемы — нейросеть выдавала антропоморфных существ вместо обычных четвероногих.

Original size 3152x612

Что касается пейзажей, результат в целом выглядит приемлемо по стилю, но качество детализации оставляет желать лучшего. Я думаю, что это связано с тем, что референсные изображения, на которых обучалась нейросеть, содержали слишком много элементов и насыщены мелкими деталями, что привело к путанице и некоторым потерям в точности.

Код

Исходный код лежит на Яндекс Диске: https://disk.yandex.ru/d/eNqSa5SxZodqHA

Описание применения генеративной модели

Stable Diffusion XL — до-обучена и использована для генерации изображений в стиле Arcane.

BLIP — использован для обучения модели с текстовыми описаниями.

Upscayl — улучшено качество изображений путём повышения разрешения и детализации.

GPT-4o — помощь с концепцией, написание промптов для генерации.

Heart of the Metropolis — обучение генеративной модели
24
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more