Original size 2480x3500

GlobalTemperatures.csv

PROTECT STATUS: not protected
10

Выбор данных

Для анализа я выбрал набор данных о глобальном изменении температуры, доступный на Kaggle. Данные содержат информацию о температуре на поверхности Земли с 1750 года до наших дней, включая средние годовые температуры по регионам и глобальные показатели.

Обоснование выбора

Температура на поверхности Земли является ключевым индикатором климатических изменений. Изучение этих данных поможет понять, как изменялась температура в разных регионах, выявить тенденции и аномалии, а также оценить влияние человеческой деятельности на климат. Это особенно актуально в свете глобальных изменений климата и их последствий для экосистем и общества.

Этапы работы

Импортируем необходимые библиотеки и загружаем данные:

import pandas as pd

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns

data = pd.read_csv ('GlobalTemperatures.csv')

print (data.head ())

Проверяем данные на наличие пропусков и дубликатов:

print (data.isnull ().sum ()) print (data.duplicated ().sum ())

data.dropna (inplace=True)

Преобразуем дату в формат datetime и извлекаем год:

data['dt'] = pd.to_datetime (data['dt']) data['year'] = data['dt'].dt.year

Итоговые графики

Линейный график

Original size 1184x584

plt.figure (figsize=(12, 6)) sns.lineplot (data=data, x='year', y='LandAverageTemperature', color='green') plt.title ('Изменение средней температуры на земле (по годам)') plt.xlabel ('Год') plt.ylabel ('Средняя температура (°C)') plt.xticks (rotation=45) plt.tight_layout () plt.show ()

Гистограмма

Original size 984x584

plt.figure (figsize=(10, 6)) sns.histplot (data['LandAverageTemperature'], bins=30, kde=True, color='green') plt.title ('Распределение средних температур') plt.xlabel ('Температура (°C)') plt.ylabel ('Частота') plt.tight_layout () plt.show ()

Столбчатая диаграмма

Original size 1183x584

average_temp_per_year = data.groupby ('year')['LandAverageTemperature'].mean ().reset_index ()

plt.figure (figsize=(12, 6)) sns.barplot (data=average_temp_per_year, x='year', y='LandAverageTemperature', color='green') plt.title ('Средняя температура на земле по годам') plt.xlabel ('Год') plt.ylabel ('Средняя температура (°C)') plt.xticks (rotation=45) plt.tight_layout () plt.show ()

Сложенный график

Original size 1184x584

data = pd.read_csv ('GlobalTemperatures.csv')

print (data.isnull ().sum ()) print (data.duplicated ().sum ())

data.dropna (inplace=True)

data['dt'] = pd.to_datetime (data['dt']) data['year'] = data['dt'].dt.year

data['decade'] = (data['year'] // 10) * 10

average_temp_per_decade = data.groupby ('decade')['LandAverageTemperature'].mean ().reset_index ()

plt.figure (figsize=(12, 6)) sns.lineplot (data=average_temp_per_decade, x='decade', y='LandAverageTemperature', marker='o', color='green') plt.title ('Изменение средней температуры на земле (по десятилетиям)') plt.xlabel ('Десятилетие') plt.ylabel ('Средняя температура (°C)') plt.xticks (rotation=45) plt.tight_layout () plt.show ()

Описание применения генеративной модели

В процессе работы я использовал модель ChatGPT от OpenAI для генерации идей по выбору данных, помощи в написании кода и стилизации графиков. Я задавал вопросы о лучших практиках визуализации данных и получал советы по оформлению графиков.

Заключение

В ходе выполнения задания я научился работать с данными, проводить их анализ и визуализировать результаты в консистентном стиле. Исходя из проанализированных данных невозможно не отметить значительное повышение температуры за последние десятилетия, что безусловно указывает на очевидность проблемы глобального потепления и необходимости решения данной задачи.

GlobalTemperatures.csv
10
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more