Original size 1722x2431

VAN GOGH

PROTECT STATUS: not protected
4
The project is taking part in the competition

Идея проекта

Целью работы было обучение легкого адаптера LoRA на основе Stable Diffusion XL для переноса художественного стиля Винсента Ван Гога. Проект демонстрирует, как при использовании небольшого набора данных (21 изображениие) можно достичь устойчивого, узнаваемого почерка художника без копирования конкретных композиций.

Я сосредоточилась не на простом «фильтре под живопись», а на обучении модели, передающей именно выразительность мазка, цветовую энергетику и вихревую структуру линий, характерную для Ван Гога.

Установка зависимостей и проверка версий

Для начала настраиваю среду, загружая все необходимое: инструменты и инструкции для работы.

big
Original size 2466x598

Проверяем подключение к GPU

Исходные изображения

Для обучения использованы 21 цифровые репродукции, взятые с wikiart и находящиеся в Public Domain.

big
Original size 1686x521
big
Original size 3780x967
Original size 3780x967
Original size 3780x967
Original size 3780x967
Original size 3780x967
Original size 3780x967
Original size 3780x967

Обучение модели

Original size 1688x554
Original size 1712x1290

Инференс с LoRA из Hugging Face

Original size 1690x766

Результирующая серия изображений

Original size 1690x191

После обучения были сгенерированы изображения по новым сюжетам, не встречавшимся в обучающем наборе: • a mountain village at sunrise, swirling brushstrokes, expressive color palette, in the style of Vincent van Gogh • a small european town under a starry sky, glowing windows and reflections, thick impasto paint texture, van gogh style • a vase with wildflowers on a wooden table, vibrant yellows and blues, visible paint texture, post-impressionist oil painting • portrait of a woman in a hat, expressive brushwork, bright background, painted in the style of van gogh • old stone church surrounded by cypress trees, intense sky, dynamic composition, van gogh oil painting style

Original size 1690x384
Original size 1333x833

a mountain village at sunrise, swirling brushstrokes, expressive color palette, in the style of Vincent van Gogh»

Original size 1333x833

«a small european town under a starry sky, glowing windows and reflections, thick impasto paint texture, van gogh style»

Original size 1333x833

a vase with wildflowers on a wooden table, vibrant yellows and blues, visible paint texture, post-impressionist oil painting»

Original size 1333x833

«portrait of a woman in a hat, expressive brushwork, bold contours, bright background, painted in the style of van gogh»

Original size 1333x833

«old stone church surrounded by cypress trees, intense sky, dynamic composition, van gogh oil painting style»

Анализ результата

Модель уверенно перенесла фирменные приемы Ван Гога, например, короткие закрученные мазки. При разных промптах сохраняется характерная ритмичность мазков, фактурность поверхности и эмоциональное напряжение цвета. На портретах наблюдается мягкая деформация контуров и вихреобразные фоны, что также соответствует художественной манере автора.

• Детали генерации и методы улучшения. • Использован фиксированный VAE — madebyollin/sdxl-vae-fp16-fix, дающий более мягкие переходы цвета. • Для экономии видеопамяти включены режимы vae_slicing, vae_tiling, attention_slicing, sequential_cpu_offload. • Применен use_8bit_adam, что снизило использование vram. • LoRA-обучение проходило 1000 шагов с rank = 16, lr = 1e-4, batch = 1, grad_accum = 2, mixed precision = fp16

Описание применения генеративной модели

Проект показал, что даже небольшой датасет позволяет создать персонализированный художественный стиль при помощи LoRA-обучения SDXL. Полученные изображения демонстрируют узнаваемую стилистику и почерк Ван Гога, сохраняя при этом новизну композиции и сюжетов.

Итоги обучения

Модель научилась воспроизводить текстурную плотность без избыточного повторения оригинальных композиций. Ошибки проявляются при сложных многоплановых сценах, в этих случаях мазки расплываются из-за ограниченного объема датасета. Тем не менее, итоговые результаты соответствуют идее стилизации, а не копирования

Различия между изображениями связаны с балансом света и насыщенности: при дневных сценах цвета теплые и сочные, при ночных — контраст усиливается, мазки приобретают вихревую структуру, имитируя «звёздное небо».

Ноутбук с кодом и описание процесса обучения

К проекту приложен ноутбук van_gogh_lora.ipynb, содержащий четыре логических блока: • Установка зависимостей и проверка версий • Подготовка датасета и скачивание скрипта train_dreambooth_lora_sdxl.py. • Обучение LoRA с параметрами, приведенными выше. (Фрагмент закомментирован, т.к модель уже обучена и загружена на HF) • Инференс с подключением весов из Hugging Face.

Все обучение и вывод выполнялись на ресурсах Kaggle — GPU T4×2. Итоговые веса загружены в репозиторий: https://huggingface.co/wakai1/vangogh-sdxl-lora-modded

Использование ГенИИ

В проекте использовался Chat GPT-5 для проверки формулировок промптов на английском.

We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more