LEGO: анализ наборов всемирно известного конструктора на HSE Design

Lego — всемирно известная датская компания по производству конструкторов, состоящих из соединяющихся пластиковых кирпичиков

Введение

Мне было пять лет, когда я сидела на мягком ковре в гостиной, сжимая в руках огромную коробку подаренного родителями конструктора Lego с изображением маяка. Я осторожно провела пальцем по глянцевой картинке, представляя, как он будет выглядеть в собранном виде.

Когда я открыла коробку, меня захлестнуло чувство восторга: сотни деталей всех размеров и оттенков лежали передо мной. Но самое удивительное было внутри — настоящая работающая лампочка! Маленький белый цилиндрик, который мог превратить пластиковую модель в настоящий маяк, рассеивающий свет по комнате.

С тех пор Lego стал моим миром. Подружки приходили в гости, и мы часами строили целые города: здесь был маяк, и замок принцессы, и полицейская станция с гоночной трассой. Мы создавали свои истории и правила — каждый новый набор был окном в другую реальность.

Исходный размер 1368x768

Изображение сгенерировано с помощью нейросети leonardo.ai (https://app.leonardo.ai), промпт: little blonde girl sits and plays with lego in cozy evening room not looking at camera aesthetic picture

Годы шли, игрушки становились сложнее, как и я сама. Детские замки сменились космическими станциями, потом — архитектурными достопримечательностями, а сейчас — сложнейшими техническими моделями с тысячами деталей и моторами. Иногда вечерами я смотрю на свою коллекцию и вспоминаю тот момент, когда впервые зажгла свет в маленьком маяке. Тот самый момент, когда простая игрушка превратилась в нечто большее — в источник бесконечного творчества и вдохновения.

И пусть теперь рядом со мной нет подружек с детства, и вместо мягких игрушек на столе стоит рабочий ноутбук, каждый раз, собирая новую модель, я чувствую себя так же, как тогда — пятилетней девочкой, открывающей для себя целый мир.

Потому что Lego — это не просто конструктор, это ключ к воображению, которое остается с тобой навсегда

Именно поэтому для анализа данных я выбрала датасет о наборах Лего «LEGO Database» с сайта kaggle.com. Он включает темы, годы выпуска, количество деталей в наборах, а также метаданные о тематических категориях.

Данные я решила представить с помощью четырех видов графиков: столбчатые диаграммы для категориальных данных, линейные графики для временных трендов, график рассеяния для анализа корреляции между годом выпуска и количеством деталей и круговые диаграммы для распределения наборов по основным категориям.

Этапы работы

Загрузка данных

Для работы я импортировала необходимые библиотеки: pandas для работы с данными, numpy для математических операций, matplotlib.pyplot и seaborn для построения графиков, и загрузила два основных файла из датасета: sets.csv (информация о наборах) и themes.csv (информация о сериях).

Исходный размер 3517x1687

Затем я связала две эти таблицы с помощью ID серии, чтобы получить полную информацию о каждом наборе. Теперь у меня получилась единая таблица, где для каждого набора указаны как его характеристики (год, количество деталей), так и набор, к которому он относится (например, «City» или «Technic»).

Исходный размер 3517x823

Обработка данных

Данные часто содержат пропуски или ошибки, которые нужно исправить. Для того, чтобы получить чистые данные и корректный анализ, я удалила строки с пропущенными значениями и преобразовала год в числовой формат. С помощью dropna () я удалила строки, где отсутствуют важные данные (например, название набора или год выпуска), а с помощью pd.to_numeric () преобразовала значения в столбце year в числа. Если значение нельзя преобразовать, оно становится NaN.

Исходный размер 3517x982

Чтобы упростить анализ, я создала новые столбцы для десятилетий и размеров наборов. С помощью decade вычисляется десятилетие, к которому относится набор, а с помощью is_large_set и функции np.where () создаётся новый столбец, где указывается, является ли набор большим (более 500 деталей).

Исходный размер 3517x982

Анализ данных

Наконец переходим к анализу. В этой части кода каждая строка выполняет следующие задачи:

top_themes определяет топ-10 популярных серий: выбирает столбец name_y с названиями серий из объединенного датасета, подсчитывает, сколько раз каждая серия встречается в данных и берет первые 10 самых популярных тем;
decade_counts вычисляет количество наборов по десятилетиям: выбирает столбец decade, созданный мною ранее, подсчитывает, сколько наборов выпущено в каждом десятилетии и сортирует результаты по возрастанию десятилетий;
correlation находит корреляцию между годом выпуска и количеством деталей: merged_data[['year', 'num_parts']] выбирает два столбца: year (год выпуска набора) и num_parts (количество деталей в наборе) и вычисляет корреляционную матрицу между этими двумя столбцами;
avg_parts_by_theme находит среднее количество деталей в наборах для каждой серии: merged_data.groupby ('name_y') группирует данные по столбцу name_y и для каждой серии вычисляет среднее количество деталей в наборах, затем сортирует серии по убыванию среднего количества деталей и берет первые 10 серий с самыми большими наборами.

Исходный размер 3517x1140

Оформление данных

Теперь, когда данные проанализированы, можно создавать графики. В оформлении я использовала яркие основные цвета Lego: #E51D2A, #1569B3, #009845, #FECA0A, которые присутствовали в самых первых наборах конструкторов и понятный жирный шрифт, что сделало инфографику более легкой для восприятия.

Исходный размер 3517x939

С помощью sns.set () я применила глобальные настройки стиля для всех графиков, созданных с помощью Seaborn: установила стиль «темная сетка» (style="darkgrid»).

С помощью plt.rcParams установила белые цвета для текста, меток осей и подписей, а также добавила параметры font.weight, axes.titleweight и axes.labelweight для жирного шрифта.

Исходный размер 3517x1625

Итоговые графики

[01] Топ-10 серий по количеству наборов

Исходный размер 3517x1456

Исходный размер 3000x1800

[02] Распределение наборов по десятилетиям

Исходный размер 3517x1539

Исходный размер 3600x1800

[03] Корреляция между количеством деталей и годом выпуска

Исходный размер 3517x1539

Исходный размер 2400x1800

[04] Среднее количество деталей в наборах по сериям

Исходный размер 3517x1539

Исходный размер 3600x1800

[05] Распределение наборов по основным категориям

Исходный размер 3517x1447

Исходный размер 2400x2400

Заключение

Таким образом, в рамках проекта я провела детальный анализ данных о наборах Лего. Работа включала несколько ключевых этапов: выбор и загрузка данных, предобработка, анализ и создание инфографики.

По итогам анализа я выявила несколько закономерностей:

Среди 10 самых популярных серий оказались взрослые наборы, такие как «City», «Star Wars» и «Technic». Эти серии являются флагманами бренда и отражают интересы широкой аудитории;
Количество выпускаемых наборов Лего значительно увеличилось начиная с 1990-х годов, что говорит о росте популярности бренда и его адаптации к современным запросам потребителей;
Наблюдается положительная корреляция между годом выпуска и размером набора, что указывает на тенденцию к увеличению размеров с каждым годом. Это может быть связано с усложнением дизайна и стремлением бренда предлагать более масштабные модели;
Коллекционные тематические наборы, типа «Technic» и «Harry Potter» имеют большие размеры, что подчеркивает их ориентацию на продвинутых пользователей и коллекционеров.

Этот проект позволил мне глубже понять эволюцию дизайна наборов Lego и применить полученные навыки анализа данных и визуализации.

На примере получившихся графиков можно увидеть, как, даже спустя десятилетия существования, бренд адаптируется к новым трендам, расширяет ассортимент и удовлетворяет потребности своей разновозрастной аудитории.

Исходный размер 1368x768

Изображение сгенерировано с помощью нейросети leonardo.ai ((https://app.leonardo.ai), промпт: lego blonde girl sitting at computer in evening cozy room aesthetic picture

Ссылка на блокнот и датасет