Original size 1240x1750

Визуализация данных

PROTECT STATUS: not protected

Вводная часть

В качестве источника визуализации и анализа была выбрана база данных автомобилей. Источник — GitHub.

Данные: ID_MARK Марка Марка кириллица Популярная марка Страна MODEL_ID Модель Модель кириллица Класс Год от Год до

Наиболее подходящей она является в связи со своей полнотой данных и удобством использования.

Были визуализированы такие типы графиков, как: - Столбчатый - Линейный - Точечный

Этапы работы

Этап 1: Загрузка и первичный осмотр данных

Учитывая опыт работы с библиотеками для построения графиков — баз данных, были импортированы дополнительные Python-библиотеки.

big
Original size 776x158

Этап 2: Обработка пропущенных значений

Здесь мы очистили данные: -Пропущенные значения начала выпуска заменили средним значением. -Пропущенные значения конца выпуска заменили максимальным (наиболее поздним) годом. -Удалили строки без значения «Класс», так как эта информация важна для анализа.

big
Original size 776x104

Этап 3: Настройка визуального стиля

Используем единый стиль оформления инфографики — whitegrid от seaborn, чтобы графики выглядели консистентно и удобно читались.

Original size 777x54

Этап 4: Визуализация данных

Этот график показывает, в каких странах производится наибольшее количество уникальных автомобильных марок.

Original size 1079x208

Здесь мы визуализируем, какие классы автомобилей (A, B, C, D, S и т. д.) наиболее популярны в выборке.

Original size 1078x225

Линейный график показывает, в какие годы в среднем производились автомобили той или иной марки.

Original size 1083x177

Точечный график помогает сравнить, как долго производились модели, и как это связано с их классом.

Визуализация графиков в коде была настроена с использованием Seaborn и Matplotlib.

Для разных графиков использовались различные цветовые палитры Seaborn, чтобы создать визуальное разнообразие и стильность, такие как: «viridis» — является плавной цветовой шкалой, известной своей читаемостью и визуальной привлекательностью, «Set2» — состоит из мягких, приглушенных цветов, идеально подходящих для категориальных данных, «deep» — присваивает уникальные цвета для разных классов автомобилей, выделяя их с помощью разных оттенков.

Использовал tight_layout () для автоматической оптимизации размещения элементов на графике.

Каждый график был масштабирован с использованием параметра figsize, чтобы улучшить визуализацию и обеспечить достаточно пространства для всех элементов.

Для графика с точками (scatter plot), который сравнивает годы начала и конца производства, я использовал параметр hue, который позволяет визуально выделить разные категории (в данном случае — разные классы автомобилей) с помощью разных цветов.

Итоговые графики

Original size 1184x784
Original size 984x584
Original size 1184x784
Original size 984x584

Блокнот с кодом и датасет — https://drive.google.com/drive/folders/15XfzuedKfIWTh1mI-vUYN09MnaDanadZ?usp=drive_link

Использованные источники: GitHub — https://github.com/

Визуализация данных
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more