
Lego — всемирно известная датская компания по производству конструкторов, состоящих из соединяющихся пластиковых кирпичиков
Введение
Мне было пять лет, когда я сидела на мягком ковре в гостиной, сжимая в руках огромную коробку подаренного родителями конструктора Lego с изображением маяка. Я осторожно провела пальцем по глянцевой картинке, представляя, как он будет выглядеть в собранном виде.
Когда я открыла коробку, меня захлестнуло чувство восторга: сотни деталей всех размеров и оттенков лежали передо мной. Но самое удивительное было внутри — настоящая работающая лампочка! Маленький белый цилиндрик, который мог превратить пластиковую модель в настоящий маяк, рассеивающий свет по комнате.
С тех пор Lego стал моим миром. Подружки приходили в гости, и мы часами строили целые города: здесь был маяк, и замок принцессы, и полицейская станция с гоночной трассой. Мы создавали свои истории и правила — каждый новый набор был окном в другую реальность.

Изображение сгенерировано с помощью нейросети leonardo.ai (https://app.leonardo.ai), промпт: little blonde girl sits and plays with lego in cozy evening room not looking at camera aesthetic picture
Годы шли, игрушки становились сложнее, как и я сама. Детские замки сменились космическими станциями, потом — архитектурными достопримечательностями, а сейчас — сложнейшими техническими моделями с тысячами деталей и моторами. Иногда вечерами я смотрю на свою коллекцию и вспоминаю тот момент, когда впервые зажгла свет в маленьком маяке. Тот самый момент, когда простая игрушка превратилась в нечто большее — в источник бесконечного творчества и вдохновения.
И пусть теперь рядом со мной нет подружек с детства, и вместо мягких игрушек на столе стоит рабочий ноутбук, каждый раз, собирая новую модель, я чувствую себя так же, как тогда — пятилетней девочкой, открывающей для себя целый мир.
Потому что Lego — это не просто конструктор, это ключ к воображению, которое остается с тобой навсегда
Именно поэтому для анализа данных я выбрала датасет о наборах Лего «LEGO Database» с сайта kaggle.com. Он включает темы, годы выпуска, количество деталей в наборах, а также метаданные о тематических категориях.
Данные я решила представить с помощью четырех видов графиков: столбчатые диаграммы для категориальных данных, линейные графики для временных трендов, график рассеяния для анализа корреляции между годом выпуска и количеством деталей и круговые диаграммы для распределения наборов по основным категориям.
Этапы работы
Загрузка данных
Для работы я импортировала необходимые библиотеки: pandas для работы с данными, numpy для математических операций, matplotlib.pyplot и seaborn для построения графиков, и загрузила два основных файла из датасета: sets.csv (информация о наборах) и themes.csv (информация о сериях).
Затем я связала две эти таблицы с помощью ID серии, чтобы получить полную информацию о каждом наборе. Теперь у меня получилась единая таблица, где для каждого набора указаны как его характеристики (год, количество деталей), так и набор, к которому он относится (например, «City» или «Technic»).
Обработка данных
Данные часто содержат пропуски или ошибки, которые нужно исправить. Для того, чтобы получить чистые данные и корректный анализ, я удалила строки с пропущенными значениями и преобразовала год в числовой формат. С помощью dropna () я удалила строки, где отсутствуют важные данные (например, название набора или год выпуска), а с помощью pd.to_numeric () преобразовала значения в столбце year в числа. Если значение нельзя преобразовать, оно становится NaN.
Чтобы упростить анализ, я создала новые столбцы для десятилетий и размеров наборов. С помощью decade вычисляется десятилетие, к которому относится набор, а с помощью is_large_set и функции np.where () создаётся новый столбец, где указывается, является ли набор большим (более 500 деталей).
Анализ данных
Наконец переходим к анализу. В этой части кода каждая строка выполняет следующие задачи:
1. top_themes определяет топ-10 популярных серий: выбирает столбец name_y с названиями серий из объединенного датасета, подсчитывает, сколько раз каждая серия встречается в данных и берет первые 10 самых популярных тем;
2. decade_counts вычисляет количество наборов по десятилетиям: выбирает столбец decade, созданный мною ранее, подсчитывает, сколько наборов выпущено в каждом десятилетии и сортирует результаты по возрастанию десятилетий;
3. correlation находит корреляцию между годом выпуска и количеством деталей: merged_data[['year', 'num_parts']] выбирает два столбца: year (год выпуска набора) и num_parts (количество деталей в наборе) и вычисляет корреляционную матрицу между этими двумя столбцами;
4. avg_parts_by_theme находит среднее количество деталей в наборах для каждой серии: merged_data.groupby ('name_y') группирует данные по столбцу name_y и для каждой серии вычисляет среднее количество деталей в наборах, затем сортирует серии по убыванию среднего количества деталей и берет первые 10 серий с самыми большими наборами.
Оформление данных
Теперь, когда данные проанализированы, можно создавать графики. В оформлении я использовала яркие основные цвета Lego: #E51D2A, #1569B3, #009845, #FECA0A, которые присутствовали в самых первых наборах конструкторов и понятный жирный шрифт, что сделало инфографику более легкой для восприятия.
С помощью sns.set () я применила глобальные настройки стиля для всех графиков, созданных с помощью Seaborn: установила стиль «темная сетка» (style="darkgrid»).
С помощью plt.rcParams установила белые цвета для текста, меток осей и подписей, а также добавила параметры font.weight, axes.titleweight и axes.labelweight для жирного шрифта.
Итоговые графики
[01] Топ-10 серий по количеству наборов
[02] Распределение наборов по десятилетиям
[03] Корреляция между количеством деталей и годом выпуска
[04] Среднее количество деталей в наборах по сериям
[05] Распределение наборов по основным категориям
Заключение
Таким образом, в рамках проекта я провела детальный анализ данных о наборах Лего. Работа включала несколько ключевых этапов: выбор и загрузка данных, предобработка, анализ и создание инфографики.
По итогам анализа я выявила несколько закономерностей: 1. Среди 10 самых популярных серий оказались взрослые наборы, такие как «City», «Star Wars» и «Technic». Эти серии являются флагманами бренда и отражают интересы широкой аудитории; 2. Количество выпускаемых наборов Лего значительно увеличилось начиная с 1990-х годов, что говорит о росте популярности бренда и его адаптации к современным запросам потребителей; 3. Наблюдается положительная корреляция между годом выпуска и размером набора, что указывает на тенденцию к увеличению размеров с каждым годом. Это может быть связано с усложнением дизайна и стремлением бренда предлагать более масштабные модели; 4. Коллекционные тематические наборы, типа «Technic» и «Harry Potter» имеют большие размеры, что подчеркивает их ориентацию на продвинутых пользователей и коллекционеров.
Этот проект позволил мне глубже понять эволюцию дизайна наборов Lego и применить полученные навыки анализа данных и визуализации.
На примере получившихся графиков можно увидеть, как, даже спустя десятилетия существования, бренд адаптируется к новым трендам, расширяет ассортимент и удовлетворяет потребности своей разновозрастной аудитории.
Изображение сгенерировано с помощью нейросети leonardo.ai ((https://app.leonardo.ai), промпт: lego blonde girl sitting at computer in evening cozy room aesthetic picture