
Car Price Prediction
проект по анализу рынка автомобилей на основе датасета
Источник данных: https://www.kaggle.com/datasets/zafarali27/car-price-prediction
Почему этот датасет интересен?
Позволяет исследовать факторы ценообразования на автомобильном рынке - Дает возможность проанализировать влияние различных характеристик на стоимость авто - Представляет актуальную информацию для потенциальных покупателей и аналитиков рынка
Виды графиков в нашем исследовании: - Scatter-plot (диаграммы рассеяния) - Тепловая карта корреляций - Гистограммы распределения - Столбчатые диаграммы
Отфильтровали данные по 2023 году выпуска и увидели большой разброс цен, а именно 96981.66 и 5741.64. Это значит, что на ценообразование влияет не только год выпуска машины.
Также отфильтровали датасет по состоянию автомобиля: цены напрямую не зависят только от него. Значит есть и другие факторы, влияющие на ценообразование.
Данные могут быть собраны из различных источников, таких как сайты продаж автомобилей, автосалонов или маркетинговые исследования в области автотранспорта. Они могут использоваться для анализа рыночных тенденций, оценки стоимости автомобилей, а также для изучения взаимосвязей между характеристиками автомобилей и их ценами. Эта информация может быть использована для таких анализов, как оценка рыночных тенденций, изучение предпочтений потребителей и эффектов различных характеристик на цену автомобилей.
При построении корреляционной матрицы по датафрейму без выбросов коэффиценты также стремятся к нулю. Сильно заметных изменений нет. Всё так же, как и в предыдущей матрице, отсутствует линейная зависимость между переменными.
Предположили, что пробег может зависеть от года выпуска автомобиля, однако в данном случае линейной зависимости также не было найдено:
- Scatter-plot
Ни одна из гипотез не подтвердилась. Нет определенных категорий, которые напрямую бы влияли на ценообразование. Корреляция между Price и другими переменными невысока, что как раз указывает на то, что цена почти не зависит от других числовых характеристик в анализируемом датасете. Получается, в данном наборе данных цена машины не является адекватным показателем его возраста, пробега или объема двигателя.