Original size 1140x1600

Arcane style — обучение генеративной нейросети

PROTECT STATUS: not protected
3
The project is taking part in the competition

Идея проекта

post

Цель проекта — обучить генеративную нейросеть Stable Diffusion XL с использованием метода LoRA на собственном датасете изображений в специфическом стилистическом направлении — ARCANA-CEL. Этот стиль сочетает в себе:

cel-shading — плоское теневое моделирование с чёткими границами,

painterly brushwork — имитацию живописных мазков,

bold ink outlines — жирные контурные линии, придающие изображению графический характер,

акцентный драматический свет, особенно контровой или боковой.

Исходные изображения для обучения

Для обучения был использован датасет из 200 квадратных PNG-изображений (1:1), отобранных из датасета artermiloff/arcanefaces с Kaggle. Ниже приведены несколько примеров изображений из обучающего набора

big
Original size 1026x515

Описание процесса обучения

Модель: Stable Diffusion XL Метод: LoRA (Low-Rank Adaptation) Размер датасета: 200 изображений Разрешение: 384×384 px (снижено для ускорения обучения) Количество шагов: 800 Batch size: 1 Использование: 8-bit Adam + fp16 Обучающий скрипт: train_dreambooth_lora_sdxl.py (официальный пример с Hugging Face) LoRA позволила не дообучать всю модель, а лишь адаптировать несколько тысяч параметров, что значительно ускоряет процесс и снижает потребность в ресурсах. Обучение производилось в среде Google Colab с GPU.

Проект начинается с подключения GPU и установки библиотек, затем загружается датасет с лицами персонажей, выбираются 200 изображений, обрезаются и масштабируются до нужного формата, после чего формируется и отображается превью выборки в виде коллажа.

Original size 1157x666

Создаётся metadata.jsonl с описанием для каждого изображения, где формируется единый промпт в выбранном стиле. Затем настраивается и запускается обучение модели с помощью accelerate, указываются пути к данным, параметры тренировки и конфигурация LoRA.

Сначала находится файл весов обученной LoRA-модели. Затем LoRA подключается к базовой модели Stable Diffusion, и по заранее заданным промптам генерируются изображения. В конце запускается серия генераций с разными описаниями, создавая разнообразные варианты лиц в выбранном стиле.

Результаты генерации

0

Комментарии к результатам

На всех изображениях сохраняются ключевые черты ARCANA-CEL стиля: контурные линии по краям лица и одежды, равномерная заливка цвета с минимальными градиентами, мягкие живописные мазки, особенно в области фона и одежды, драматический контровой свет (чаще холодных или неоновых оттенков).

Варьируются персонажи и сюжетные образы: от героических мужских портретов до утончённых женских с неоновой подсветкой и фэнтезийными элементами.

Модель хорошо обобщила стиль, не копируя конкретные обучающие изображения.

Различия между портретами обусловлены вариациями промптов — изменением пола, возраста, окружения, настроения света.

Генерация велась с использованием LoRA без дополнительных апскейлеров или inpainting, чтобы показать чистый результат переноса стиля.

Некоторые вариации демонстрируют усиленный контраст и насыщенность — характерную особенность cel-shading.

Arcane style — обучение генеративной нейросети
3
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more