Обучение генеративной нейросети на попугаях на HSE Design

Идея

Для обучения нейросети я решила выбрать фотографии волнистых попугайчиков и посмотреть, насколько хорошо модель сможет сгенерировать фотографии без артефактов, которые так характерны для ИИ-изображений.

Датасет состоял из 30 изображений попугаев, вся работа проходила в среде разработки Google Colab.

Примеры исходных изображений

Пример исходных изображений

Исходный размер 1920x1080

Пример исходных изображений

Процесс обучения

После того, как весь датасет был собран и подготовлен, можно было приступать к работе с кодом. Сначала были импортированы нужные библиотеки, после загружены изображения через встроенную функцию в Google Colab.

Исходный размер 1342x693

Импорт библиотек

Исходный размер 1635x680

Вывод превью изображений

Один из этапов обучения — генерация подписей к картинкам. Так можно понять, что нейросеть правильно распознает изображения в датасете.

Исходный размер 1352x635

Генерация подписей к изображениям

Исходный размер 1338x701

Генерация подписей к изображениям и обозначение префикса

Также было необходимо сгенерировать токен на Hugging Face и с помощью него зайти в систему внутри Google Colab, чтобы потом сохранить обученную модель.

Исходный размер 1098x483

Вход в аккаунт Hugging Face

Теперь можно было приступать к самому обучению. Размер для изображения был задан в 512×512 пикселей, обучение проходило с шагом в 500 и чекпоинтом 250. С такими параметрами тренировка заняла 47 минут.

Исходный размер 1072x545

Обучение модели

После того как обучение было завершено, модель можно было сохранить на Hugging Face.

Сохранение модели на Hugging Face

Итоговая серия изображений

Сгенерированное изображение / Реальное фото

Сгенерированные изображения вышли довольно удачными, попугаи выглядят как попугаи, как можно заметить, сложно понять, где оригинальное фото, а где ИИ-изображение.

Сгенерированные изображения

Помимо самих попугаев, модель неплохо обучилась генерировать и окружение. На одной из картинок можно заметить человеческую руку, которая легко распознается, несмотря на наличие лишнего пальца. При этом какие-то объекты на заднем плане тоже выглядят как что-то реальное.

Сгенерированное изображение / Реальное фото

Конечно не обошлось и без артефактов. На некоторых изображениях птицы стоят друг на друге, либо попугай является частью другого, где-то птица вроде летит, но крылья ее собраны, либо есть одно лишнее.