Рубрикатор
1. Описание идеи проекта 2. Исходные изображения для обучения 3. Описание 4. Итоговая серия изображений 5. Анализ результата 6. Использование генеративного ИИ в проекте 7. Вывод 8. Блокнот и датасет
Описание идеи проекта
Цель проекта — исследовать возможности дообучения генеративной модели Stable Diffusion XL методом DreamBooth LoRA для точного воспроизведения персонажа мультфильма. В качестве объекта выбран Дружок Барбоскин, герой мультсериала «Барбоскины».
Основная задача — обучить модель распознавать индивидуальные характеристики персонажа и генерировать новые изображения, которые сохраняют его стиль, пропорции и визуальную идентичность, но помещают его в новые сцены и контексты.
Исходные изображения для обучения
Для обучения собран датасет из 37 изображений персонажа. Изображения охватывают разные ракурсы и сцены. Перед обучением к каждому изображению автоматически генерировались текстовые описания (кэпшены). Это улучшает качество обучения модели.
Описание
Подготовка датасета
Все изображения были предварительно приведены к единому формату в процессе обучения.
Чтобы улучшить работу модели, к изображениям были добавлены автоматически сгенерированные текстовые описания, на основе которых затем был сформирован файл metadata.jsonl.
Использование текстовых описаний повышает семантическую осмысленность датасета и увеличивает способность модели обобщать особенности персонажа.
Автоматическая генерация описаний с помощью BLIP
Для генерации кэпшенов использовалась модель BLIP. Она анализирует каждое изображение и создаёт текстовое описание
Эти описания автоматически включаются в metadata.jsonl и используются в обучении DreamBooth.
Таким образом, BLIP помогает:
- связать визуальные элементы изображения с текстовой информацией;
- повысить качество обучения;
- уменьшить риск переобучения;
- обеспечить лучшую интерпретацию персонажа в новых сценах.
Настройка DreamBooth LoRA
В проекте использована современная генеративная модель Stable Diffusion XL. SDXL отличается высокой выразительностью, улучшенной архитектурой UNet и двумя текстовыми энкодерами, что делает её наиболее подходящей для задач детализированной стилизации и воспроизведения персонажей.
Ход обучения
В ноутбуке происходят следующие этапы:
- Загрузка SDXL и подготовка LoRA-слоёв.
- Загрузка изображений и кэпшенов BLIP.
- Подготовка датасета для тренировки.
- Запуск тренера для DreamBooth LoRA.
- Периодическое сохранение промежуточных весов.
- Экспорт итоговой LoRA-модели.
Загрузка SDXL и подготовка LoRA-слоёв
Загрузка изображений и кэпшенов BLIP
Запуск тренера для DreamBooth LoRA
Процесс обучения выполнялся на GPU. После завершения обучение созданы LoRA-веса, которые можно использовать совместно с любой SDXL-моделью для генерации новых изображений персонажа.
Применение обученной LoRA-модели
После обучения LoRA подключается обратно к SDXL. Теперь генерации выполняются через текстовый запрос. Модель уверенно воспроизводит персонажа в разных стилях, с различным освещением, в новых контекстах, в разных позах и при этом сохраняет узнаваемость и стилистическую цельность.
Итоговая серия изображений




Анализ результата
Модель хорошо передала ключевые особенности Дружка: характерные пропорции головы, цвет шерсти, форма ушей, характерные большие глаза, стилизацию. На итоговых изображениях заметно, что стиль остаётся консистентным, персонаж легко вписывается в новые сцены, сохраняется базовая цветовая палитра, модель понимает позы и может варьировать мимику. Также можно отметить следующие вариации: модель генерирует различное освещение, меняет фон, корректно реагирует на запросы: «в лесу», «в городе», «в 3D стиле», «в акварели».
Использование генеративного ИИ в проекте
В рамках проекта использовались сервисы:
- BLIP — для автоматической подготовки данных
- SDXL + LoRA — для выполнения основной задачи обучения генеративной модели
- ChatGPT — для повышения качества оформления проекта и анализа качества датасета.
Вывод
После обучения была получена новая серия изображений. Заметно, что в них модель сохраняет ключевые особенности персонажа. Соответственно, можно сделать вывод, что дообучение позволяет передать индивидуальные особенности образа.




