
Красота из тёмных углов разума — серия изображений, сгенерированных при помощи обученной нейросети Stable Diffusion.


Для обучения модели я взяла некоторые из собственных рисунков. Их суть заключается в том, что они были сделаны под влиянием хаоса негативных мыслей, агрессии, обиды и других недопустимых для выражения эмоций и чувств.
Мне стало интересно: как бы выглядели положительные, весёлые и умиротворённые образы в этой же манере изображения? Возможно ли извлечь красоту, свет и жизнелюбие из стиля, представляющего собой концентрацию всего отрицательного?







Сначала я решила проверить, как работает нейросеть с промптами, похожими на те изображения, на которых она училась.










Можно заметить, как нейросеть в некоторых случаях слегка отходит от фигуративного изображения, прибегая к более условным формам, а в некоторых наоборот добавляет реализма и конкретики. При этом она усиливает контрасты и динамику композиции. Нейросеть хорошо улавливает текстурность и эскизность исходных работ, это заметно по имитации фактуры мятой или шершавой бумаги. Кроме того, она хорошо передаёт ощущение дымки, туманности в изображениях. Наконец, нейросеть взяла на вооружение резкие грубые штрихи поверх основных форм, которые присутствуют и в исходных работах.
После этого я решила генерировать изображения с разным наполнением, прописывая в промптах радостные, жизнеутверждающие и умиротворённые образы и атмосферу. Я генерировала в разных обстоятельствах большие и маленькие группы людей, одиночные портреты, а также изображения животных, пейзажей и абстрактных форм.
Большие группы людей




Маленькие группы людей




С удивлением для себя я обнаружила, что обученная нейросеть хорошо справляется с изображением больших групп людей, но с отображением пар у неё трудности: приходилось максимально подробно и муторно уточнять, что на картинке должно быть две и только две фигуры. Такое поведение нейросети любопытно, так как в исходных работах отсутствуют какие-либо групповые изображения, но есть одиночные и парные. Самих же людей нейросеть показывает максимально условно и набросочно, иной раз без всякой проработки лиц, однако, на мой взгляд, такая манера изображения имеет свою эстетику. Получившиеся образы подобны призрачным смутным воспоминаниям о чём-то хорошем.
Одиночные портреты




В одиночных портретах нейросеть лишний раз не показывает лицо вблизи, для этого нужно было отдельно прописать эту деталь в промптах. Там же, где видно лицо крупным планом, чувствуется искусственность положительных эмоций: широкие улыбки вместе с уставшими глазами, громкий смех, похожий на крик. Хотя параллельно с этим нейросеть иной раз вполне удачно создаёт лёгкую и светлую атмосферу, в которой ощущается и воздух, и солнце.
Звери и насекомые


Среди исходных работ для обучения практически не было никаких изображений с животными и насекомыми, поэтому нейросеть прибегала к типичным клишированным образам животных, а иной раз и вовсе заменяла одних зверей или насекомых на других. Так, например, при генерации сада с пчёлами нейросеть заменила их на бабочек, а на запросы сгенерировать бизонов у озера она изображала любых других парнокопытных.
Пейзажи




Стоит отметить для всех видов генераций, не только для пейзажей, что обученная нейросеть плохо справляется с дневными образами, так как среди исходников для обучения их меньшинство: она просто вытягивает изображения по уровням до белого. Гораздо лучше получается ночная атмосфера. Что касается цветовой гаммы, то нейросеть придерживается чёрно-белых оттенков до тех пор, пока ей не будет указан в промпте конкретный цвет какого-либо объекта — и только тогда он приобретёт окрас. Исключение — красный цвет, который периодически появляется сам. Если же промпт подразумевает какую-то динамику в композиции, то нейросеть внедряет множество «дребезжащих» цветных штрихов, имитируя хроматическую аберрацию, которая присутствует во многих исходных изображениях.
Абстрактные формы




Абстрактные же композиции нейросеть во многом сводит к определённым повторяющимся узорам, которые до этого чаще всего встречались или как фоновые элементы, или как дополняющие основные объекты. Так у неё любые сложные формы сводятся к примитивным треугольникам или кругам. Но зато хорошо получается имитировать формы, похожие на облака, дым, потоки и т. д.


Нейросеть, обученная на моих изображениях, без проблем справляется с мрачными и злобными образами.
При этом она дала утвердительный ответ и на поставленный мною в начале работы вопрос: да, из стиля моих работ можно извлечь оптимистичные и миролюбивые мотивы, если формулировать запросы максимально подробно и детально, прописывая каждую эмоцию и каждый элемент атмосферы.
Для меня, как автора исходных изображений, проделанная работа над обучением нейросети дала пищу для размышлений над тем, что же из себя представляет моя манера изображения, в чём заключались её особенности (что переняла себе нейросеть). Также эта работа помогла мне заново открыть глаза на своё творчество и позволила мне взглянуть на него с совершенно другого ракурса и расширить свои, как художника-любителя, возможности.
Ноутбук с кодом для обучения и генерации
Обучение модели
Я обучала модель Stable Diffusion XL с помощью техники LoRA (Low-Rank Adaptation).
После проверки виртуального пространства на доступность ресурсов GPU и установки нужных зависимостей создала директорию для датасета с моими изображениями и подгрузила их туда. Для проверки изображений на корректность их загрузки я использовала функцию image_grid.


Следом за этим я с помощью модели BLIP (Bootstrapped Language-Image Pretraining) создала префиксы к каждому из изображений, а также jsonl-файл metadata, который хранит в себе пути к изображениям и описания к ним.
Далее следует само обучение нейросети, после которого я выгрузила модель на HuggingFace, и затем уже стало возможно использование модели с обозначенным ранее префиксом. Я обращалась к GigaChat и ImagePromptAI для генерации и редактирования промптов для моей обученной нейросети. После этого я обрабатывала созданные моей моделью изображения в Upscayl для увеличения их качества и улучшения резкости.
Описание применения генеративной модели
Stable Diffusion — дообучение модели для генерации изображений в стиле моих работ BLIP — генерация промптов к исходным компонентам датасета GigaChat — генерация и редактирование промптов для обученной нейросети ImagePrompt — генерация и редактирование промптов для обученной нейросети Upscayl — увеличение разрешения и резкости изображений