
Идея проекта
Идея проекта — обучить нейросетевую модель генерировать изображения в стиле ранних работ Винсента ван Гога. Его первые работы имеют свой уникальный стиль, отличающийся от того, что мы привыкли представлять, когда говорим о Ван Гоге.
Я сосредоточилась на формирующемся этапе творчества художника (1881–1886), где доминируют приглушённые цвета, пастозные мазки, бытовые и крестьянские сцены.
Проект исследует возможности fine-tuning нейросети и демонстрирует, как современные модели способны передавать не только внешние признаки стиля, но и эмоциональный строй художника.
Материал для обучения




Фокус был на работах с разнообразной палитрой и плотной фактурой мазка, чтобы сформировать узнаваемый стиль раннего периода художника.


Результат
Посмотрим на изображения, которые получились:


Серия работ демонстрирует широкую вариативность генераций при сохранении цельного стилевого ядра. Почти все изображения выполнены с характерной вибрацией мазка, имитирующей движение кисти Ван Гога — мазки плотные, направленные, создающие ритм поверхности. Удалось передать широкую цветовую палитру: от насыщенных светлых пейзажей с ярким морем и зелёными полями до мрачных, приглушённых по тону натюрмортов, в которых чувствуется влияние нюэненского периода — времени, когда Ван Гог работал с темами бедности и быта крестьян.




После обучения я провела серию генераций по текстовым промптам:
«sea and boat, bright colors»
«autoportrait of van ghog»
«kids playing in the backyard in 19 century in van ghog style»
и другие


Сгенерированные изображения убедительно воспроизводят живописную манеру Ван Гога: выразительные мазки, пастозная фактура, сдержанная (или наоборот, насыщенная — в поздних генерациях) палитра, искажения перспективы. Нейросеть уловила не только форму, но и настроение — будь то тревожная улица с собаками или яркое море с лодками.
Обучение модели
Использовалась архитектура Stable Diffusion XL, дообученная с помощью DreamBooth и метода LoRA (Low-Rank Adaptation) на Google Colab.
Для подготовки датасета я загрузила собственную выборку изображений раннего Ван Гога и сгенерировала описания к ним с помощью модели BLIP (Salesforce).
Во время обучения использовались методы оптимизации: градиентное контрольное сохранение (gradient checkpointing), обучение с пониженной точностью (fp16), и оптимизация с использованием 8-bit Adam.
Модель была обучена в 500 шагов, после чего опубликована в Hugging Face Hub в виде отдельного репозитория (VanGhog_Style).
Вывод


В результате исследования получилось создать изображения, которые отражают основные черты стиля: плотную текстуру мазков, мягкий, приглушённый свет, психологическую глубину портретов. Можно сделать вывод, что нейросеть не просто копирует стиль — она пытается продолжить интонацию, создавая новые произведения в духе выбранного художника.
В проекте не использовались никакие другие нейросети.
Файл с кодом
Датасет использованный для обучения