Обучение нейросети на примере Дружка из Барбоскиных на HSE Design

Рубрикатор

1. Описание идеи проекта 2. Исходные изображения для обучения 3. Описание 4. Итоговая серия изображений 5. Анализ результата 6. Использование генеративного ИИ в проекте 7. Вывод 8. Блокнот и датасет

Описание идеи проекта

Цель проекта — исследовать возможности дообучения генеративной модели Stable Diffusion XL методом DreamBooth LoRA для точного воспроизведения персонажа мультфильма. В качестве объекта выбран Дружок Барбоскин, герой мультсериала «Барбоскины».

Основная задача — обучить модель распознавать индивидуальные характеристики персонажа и генерировать новые изображения, которые сохраняют его стиль, пропорции и визуальную идентичность, но помещают его в новые сцены и контексты.

Исходные изображения для обучения

Для обучения собран датасет из 37 изображений персонажа. Изображения охватывают разные ракурсы и сцены. Перед обучением к каждому изображению автоматически генерировались текстовые описания (кэпшены). Это улучшает качество обучения модели.

Описание

Подготовка датасета

Все изображения были предварительно приведены к единому формату в процессе обучения.

Чтобы улучшить работу модели, к изображениям были добавлены автоматически сгенерированные текстовые описания, на основе которых затем был сформирован файл metadata.jsonl.

Использование текстовых описаний повышает семантическую осмысленность датасета и увеличивает способность модели обобщать особенности персонажа.

Автоматическая генерация описаний с помощью BLIP

Для генерации кэпшенов использовалась модель BLIP. Она анализирует каждое изображение и создаёт текстовое описание Эти описания автоматически включаются в metadata.jsonl и используются в обучении DreamBooth. Таким образом, BLIP помогает:

связать визуальные элементы изображения с текстовой информацией;
повысить качество обучения;
уменьшить риск переобучения;
обеспечить лучшую интерпретацию персонажа в новых сценах.

Настройка DreamBooth LoRA

В проекте использована современная генеративная модель Stable Diffusion XL. SDXL отличается высокой выразительностью, улучшенной архитектурой UNet и двумя текстовыми энкодерами, что делает её наиболее подходящей для задач детализированной стилизации и воспроизведения персонажей.

Ход обучения

В ноутбуке происходят следующие этапы:

Загрузка SDXL и подготовка LoRA-слоёв.
Загрузка изображений и кэпшенов BLIP.
Подготовка датасета для тренировки.
Запуск тренера для DreamBooth LoRA.
Периодическое сохранение промежуточных весов.
Экспорт итоговой LoRA-модели.

Исходный размер 2101x581

Загрузка SDXL и подготовка LoRA-слоёв

Исходный размер 2609x695

Загрузка изображений и кэпшенов BLIP

Исходный размер 2615x927

Запуск тренера для DreamBooth LoRA

Процесс обучения выполнялся на GPU. После завершения обучение созданы LoRA-веса, которые можно использовать совместно с любой SDXL-моделью для генерации новых изображений персонажа.

Применение обученной LoRA-модели

После обучения LoRA подключается обратно к SDXL. Теперь генерации выполняются через текстовый запрос. Модель уверенно воспроизводит персонажа в разных стилях, с различным освещением, в новых контекстах, в разных позах и при этом сохраняет узнаваемость и стилистическую цельность.

Итоговая серия изображений

Анализ результата

Модель хорошо передала ключевые особенности Дружка: характерные пропорции головы, цвет шерсти, форма ушей, характерные большие глаза, стилизацию. На итоговых изображениях заметно, что стиль остаётся консистентным, персонаж легко вписывается в новые сцены, сохраняется базовая цветовая палитра, модель понимает позы и может варьировать мимику. Также можно отметить следующие вариации: модель генерирует различное освещение, меняет фон, корректно реагирует на запросы: «в лесу», «в городе», «в 3D стиле», «в акварели».

Использование генеративного ИИ в проекте

В рамках проекта использовались сервисы:

BLIP — для автоматической подготовки данных
SDXL + LoRA — для выполнения основной задачи обучения генеративной модели
ChatGPT — для повышения качества оформления проекта и анализа качества датасета.

Вывод

После обучения была получена новая серия изображений. Заметно, что в них модель сохраняет ключевые особенности персонажа. Соответственно, можно сделать вывод, что дообучение позволяет передать индивидуальные особенности образа.

Блокнот и датасет