
Выбор данных
Для анализа я выбрал набор данных о глобальном изменении температуры, доступный на Kaggle. Данные содержат информацию о температуре на поверхности Земли с 1750 года до наших дней, включая средние годовые температуры по регионам и глобальные показатели.
Обоснование выбора
Температура на поверхности Земли является ключевым индикатором климатических изменений. Изучение этих данных поможет понять, как изменялась температура в разных регионах, выявить тенденции и аномалии, а также оценить влияние человеческой деятельности на климат. Это особенно актуально в свете глобальных изменений климата и их последствий для экосистем и общества.
Этапы работы
Импортируем необходимые библиотеки и загружаем данные:
import pandas as pd
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
data = pd.read_csv ('GlobalTemperatures.csv')
print (data.head ())
Проверяем данные на наличие пропусков и дубликатов:
print (data.isnull ().sum ()) print (data.duplicated ().sum ())
data.dropna (inplace=True)
Преобразуем дату в формат datetime и извлекаем год:
data['dt'] = pd.to_datetime (data['dt']) data['year'] = data['dt'].dt.year
Итоговые графики
Линейный график
plt.figure (figsize=(12, 6)) sns.lineplot (data=data, x='year', y='LandAverageTemperature', color='green') plt.title ('Изменение средней температуры на земле (по годам)') plt.xlabel ('Год') plt.ylabel ('Средняя температура (°C)') plt.xticks (rotation=45) plt.tight_layout () plt.show ()
Гистограмма
plt.figure (figsize=(10, 6)) sns.histplot (data['LandAverageTemperature'], bins=30, kde=True, color='green') plt.title ('Распределение средних температур') plt.xlabel ('Температура (°C)') plt.ylabel ('Частота') plt.tight_layout () plt.show ()
Столбчатая диаграмма
average_temp_per_year = data.groupby ('year')['LandAverageTemperature'].mean ().reset_index ()
plt.figure (figsize=(12, 6)) sns.barplot (data=average_temp_per_year, x='year', y='LandAverageTemperature', color='green') plt.title ('Средняя температура на земле по годам') plt.xlabel ('Год') plt.ylabel ('Средняя температура (°C)') plt.xticks (rotation=45) plt.tight_layout () plt.show ()
Сложенный график
data = pd.read_csv ('GlobalTemperatures.csv')
print (data.isnull ().sum ()) print (data.duplicated ().sum ())
data.dropna (inplace=True)
data['dt'] = pd.to_datetime (data['dt']) data['year'] = data['dt'].dt.year
data['decade'] = (data['year'] // 10) * 10
average_temp_per_decade = data.groupby ('decade')['LandAverageTemperature'].mean ().reset_index ()
plt.figure (figsize=(12, 6)) sns.lineplot (data=average_temp_per_decade, x='decade', y='LandAverageTemperature', marker='o', color='green') plt.title ('Изменение средней температуры на земле (по десятилетиям)') plt.xlabel ('Десятилетие') plt.ylabel ('Средняя температура (°C)') plt.xticks (rotation=45) plt.tight_layout () plt.show ()
Описание применения генеративной модели
В процессе работы я использовал модель ChatGPT от OpenAI для генерации идей по выбору данных, помощи в написании кода и стилизации графиков. Я задавал вопросы о лучших практиках визуализации данных и получал советы по оформлению графиков.
Заключение
В ходе выполнения задания я научился работать с данными, проводить их анализ и визуализировать результаты в консистентном стиле. Исходя из проанализированных данных невозможно не отметить значительное повышение температуры за последние десятилетия, что безусловно указывает на очевидность проблемы глобального потепления и необходимости решения данной задачи.