
Идея
Для обучения нейросети я решила выбрать фотографии волнистых попугайчиков и посмотреть, насколько хорошо модель сможет сгенерировать фотографии без артефактов, которые так характерны для ИИ-изображений.
Датасет состоял из 30 изображений попугаев, вся работа проходила в среде разработки Google Colab.
Примеры исходных изображений





Процесс обучения
После того, как весь датасет был собран и подготовлен, можно было приступать к работе с кодом. Сначала были импортированы нужные библиотеки, после загружены изображения через встроенную функцию в Google Colab.

Один из этапов обучения — генерация подписей к картинкам. Так можно понять, что нейросеть правильно распознает изображения в датасете.
Также было необходимо сгенерировать токен на Hugging Face и с помощью него зайти в систему внутри Google Colab, чтобы потом сохранить обученную модель.
Теперь можно было приступать к самому обучению. Размер для изображения был задан в 512×512 пикселей, обучение проходило с шагом в 500 и чекпоинтом 250. С такими параметрами тренировка заняла 47 минут.
После того как обучение было завершено, модель можно было сохранить на Hugging Face.
Итоговая серия изображений


Сгенерированные изображения вышли довольно удачными, попугаи выглядят как попугаи, как можно заметить, сложно понять, где оригинальное фото, а где ИИ-изображение.
Помимо самих попугаев, модель неплохо обучилась генерировать и окружение. На одной из картинок можно заметить человеческую руку, которая легко распознается, несмотря на наличие лишнего пальца. При этом какие-то объекты на заднем плане тоже выглядят как что-то реальное.


Конечно не обошлось и без артефактов. На некоторых изображениях птицы стоят друг на друге, либо попугай является частью другого, где-то птица вроде летит, но крылья ее собраны, либо есть одно лишнее.


В остальном же, попугаи генерируются анатомически правильно в хорошем качестве.




Описание применения генеративной модели
В проекте были использованы следующие инструменты:
• LoRA: Low-Rank Adaptation of Large Language Models; • Stability AI Stable Diffusion XL (SDXL); • Hugging Face Hub.